Tout ce qu'il faut savoir sur les opérations de données
Résumé
- DataOps est une approche agile et collaborative de la gestion des pipelines de données.
- Met l'accent sur l'automatisation, la communication et la diffusion continue des données.
- Améliore la rapidité, la qualité et la fiabilité des données à des fins professionnelles.
- Pratiques clés : tests automatisés, métadonnées , surveillance et déploiement fréquents.
- Cela nécessite une collaboration entre différents profils (ingénieurs, analystes, gestionnaires, scientifiques, etc.).
« Au cours de l'année à venir, le nombre d'experts en données et en analyse au sein des unités opérationnelles augmentera trois fois plus vite que celui des experts dans les services informatiques, ce qui obligera les entreprises à repenser leurs modèles organisationnels et leurs compétences » – Gartner, 2020.
Les équipes chargées des données et de l'analyse jouent un rôle de plus en plus essentiel dans le soutien de divers processus métier complexes, et nombre d'entre elles sont confrontées au défi de faire évoluer leurs méthodes de travail pour fournir les données support cas d'utilisation. La pression pour fournir des résultats plus rapidement et avec une qualité supérieure pousse les responsables des données et de l'analyse à repenser l'organisation de leurs équipes.
Alors que les entreprises recouraient autrefois aux modèles traditionnels en cascade, ces méthodologies s'avèrent aujourd'hui trop longues, trop en silo et trop lourdes à gérer.
C'est là que Data Ops entre en jeu: une approche plus agile, collaborative et ouverte au changement pour la gestion des pipelines de données.
Définition des opérations de données
Gartner définit le Data Ops comme une « gestion des données collaborative gestion des données visant à améliorer la communication, l'intégration et l'automatisation des flux de données entre les gestionnaires et les utilisateurs de données au sein d'une organisation ». En gros, cela facilite la vie des utilisateurs de données.
Tout comme le DevOps, un ensemble de pratiques alliant le développement logiciel (Dev) et les opérations informatiques (Ops), a révolutionné la manière dont nous déployons les logiciels, le DataOps utilise les mêmes méthodologies pour les équipes qui développent data products.
Bien qu'il s'agisse dans les deux cas de frameworks agiles, DataOps nécessite la coordination des données et de toutes les personnes qui travaillent avec celles-ci à l'échelle de l'entreprise.
Plus précisément, les responsables des données et de l'analyse devraient mettre en œuvre ces approches clés qui ont fait leurs preuves et apportent une valeur ajoutée significative aux organisations :
- Augmentation dedéploiement : L'adoption d'une méthodologie de livraison plus rapide et continue permet aux organisations de réduire les délais de mise sur le marché.
- Tests automatisés: la suppression des tests manuels, qui prennent beaucoup de temps, permet d'obtenir des données de meilleure qualité.
- métadonnées : Le suivi et le reporting métadonnées tous les consommateurs du pipeline de données une meilleure gestion des changements et permettent d’éviter les erreurs.
- Suivi: le suivi du comportement des données et de l'utilisation du pipeline permet d'identifier plus rapidement à la fois les données erronées – qui doivent être corrigées – et les données de bonne qualité pour Fonctionnalités nouvelles Fonctionnalités.
- Une collaboration permanente: la communication entre les parties prenantes concernant les données est essentielle pour accélérer leur mise à disposition.
Qui participe aux opérations de données ?
Compte tenu de l'importance que revêtent cas d'usages analytiques les données et cas d'usages analytiques , les rôles nécessaires à la réussite d'un projet de données sont plus nombreux et plus diversifiés que jamais. Des équipes de science des données aux personnes n'appartenant pas au service informatique, un grand nombre de profils sont impliqués :
- Analystes métier
- Architectes de données.
- Ingénieurs de données.
- Responsables des données.
- Data scientists.
- Responsables de produits de données.
- Développeurs en apprentissage automatique.
- Administrateurs de bases de données.
Comme indiqué plus haut, une approche Data Ops nécessite une communication et une collaboration fluides entre ces différents rôles. Chaque collaborateur doit comprendre ce que les autres attendent de lui, ce que les autres produisent, et doit partager une vision commune des objectifs des pipelines de données qu’ils créent et font évoluer.
Le point de départ consiste à mettre en place des canaux permettant à ces différents acteurs de travailler ensemble, par exemple un outil de collaboration ou une solution métadonnées .