Gestion des données

Maille de données

Des rangées de fichiers virtuels dans un catalogue de données, contribuant à une gestion des données puissante gestion des données

Un maillage de données est une architecture permettant de démocratiser les données au sein d'une entreprise. Contrairement aux entrepôts de données centralisés, un maillage de données fédère les données et délègue la propriété des données aux domaines spécialisés de l'entreprise, qui publient leurs données en tant que service pour que toutes les fonctions de l'entreprise puissent les utiliser. Il en résulte une architecture de données plus agile qui laisse aux différentes unités commerciales une certaine autonomie dans la gestion de leurs données de base.

Pourquoi utiliser une architecture de maillage de données ?

L'idée principale derrière les architectures maillées est de permettre une architecture de données plus flexible et évolutif . Les entrepôts de données d'entreprise monolithiques et centralisés peuvent être lourds à mettre en œuvre, peu flexibles et coûteux à modifier. En confiant la conservation et l'administration d'ensembles de données spécifiques à un domaine aux fonctions de l'entreprise qui les connaissent le mieux, l'entreprise peut mieux s'adapter à l'évolution des conditions commerciales.

L'une des principales raisons pour lesquelles le modèle de maillage des données est évolutif est qu'il évite de surcharger les équipes centralisées chargées des données. Cela se fait en propageant les meilleures pratiques standard dans tous les domaines de l'entreprise. Le manque de compétences est une cause fréquente de stagnation des projets de big data et de lac de données, qui se transforment en marécages de données. Les compétences acquises par le personnel dans un domaine d'activité sont facilement transférables à d'autres domaines, ce qui réduit les temps d'apprentissage et permet de livrer les projets plus rapidement.

Maintenir l'interopérabilité entre les pools de données

Un élément essentiel d'un maillage de données est le bus d'interopérabilité universel intégré sur lequel se branchent tous les entrepôts de données ou marges de données spécifiques à un domaine. Cela permet d'éviter les problèmes liés aux entrepôts de données traditionnels en silo qui utilisent souvent des données en double, désynchronisées et des outils ad hoc. Les données conservées par un département sont mises à la disposition des unités commerciales concernées. Chaque entrepôt de données départemental publie ses données en tant que produit sur le bus d'interopérabilité.

En quoi un Data Mesh est-il différent d'un Data Fabric ?

Un maillage de données est composé d'un ensemble interconnecté de services de produits de données spécifiques à un domaine, dont les responsabilités en matière de propriété sont déléguées aux différents domaines d'une entreprise. Un tissu de données crée un système centralisé virtuel unique sans propriété distribuée des données.

Éléments clés d'un maillage de données

Les principaux composants d'un maillage de données sont les suivants

  • Sources des données.
  • Infrastructure de données.
  • Services de données spécifiques à un domaine.
  • gouvernance standardisée partagée, qualité des données et conventions de métadonnées .

Propriété des données et responsabilités

Chaque propriétaire de données d'un domaine accepte les niveaux de service de ses pairs en matière de qualité et de disponibilité des données. Chaque domaine utilise des normes centralisées pour les pipelines de données. Le maillage de données fournit une infrastructure standardisée de stockage et de streaming . Les pipelines ETL peuvent être spécifiques à un domaine, mais doivent utiliser des étiquettes métadonnées standard, des formats de données, des conventions de catalogage, de lignage et de gouvernance données pour faciliter l'interopérabilité et promouvoir la conformité.

Bénéfices

Parmi les nombreux avantages des architectures de maillage de données, on peut citer les suivants :

  • Délai de rentabilisation plus court pour les projets axés sur les données.
  • Les lignes d'activité peuvent réagir rapidement aux pressions de la concurrence, de la réglementation et du marché ou aux opportunités d'explorer de nouveaux marchés.
  • Les outils, normes et processus partagés avantage l'ensemble de l'entreprise en augmentant l'efficacité et en réduisant la duplication des efforts.
  • Évite les goulets d'étranglement au niveau des ressources centrales en déléguant les responsabilités en matière de données aux domaines d'activité spécialisés qui comprennent le mieux leurs besoins en matière de données.
  • Des services de données plus modulaires sont plus faciles à comprendre et à utiliser. Comme pour les microservices, la refonte des applications monolithiques en composants plus petits et plus digestes facilite leur partage et leur utilisation.
  • L'application cohérente des exigences en matière de qualité et de gouvernance données dans l'ensemble de l'entreprise améliore la coopération et facilite les futurs efforts d'intégration des données.
  • La transparence des données et des processus dans le maillage élimine les pools départementaux de données non connectées en silo .
  • Les entreprises tirent davantage de valeur de leurs données, car la fédération de celles-ci au sein de l'organisation permet une meilleure prise de décision fondée sur les données.

Quelles sont les caractéristiques d'un produit de données réussi ?

Le facteur de réussite le plus important pour un produit de données est son adoption. Les caractéristiques qui favorisent l'adoption sont la découvrabilité, la fiabilité, la confiance, la sécurité et la qualité des données.

Étant donné qu'un maillage de données est essentiellement un modèle de libre-service , les données publiées doivent être faciles à trouver, bien documentées et faciles à consommer. Les consommateurs peuvent fournir un retour d'information aux propriétaires de domaines sur la qualité et l'utilité d'un produit de données afin de s'assurer que les lacunes sont corrigées et de permettre une amélioration continue.

Gestion du maillage de données

Les produits de données et les pipelines doivent être supervisés au niveau du domaine et de l'infrastructure afin de garantir des niveaux de disponibilité élevés et de remédier aux défaillances. Les capacités de surveillance et d'observabilité sont donc conçues pour faciliter la vie des développeurs et des équipes d'infrastructure.

Les produits de données doivent être protégés par le chiffrement des données au repos et en mouvement. Le versionnage des services de données permet de revenir sur les mauvais déploiements.

Actian soutient les Data Marts

La plateforme de données Actian peut support multiples data marts et entrepôts de données hébergés sur site ou sur plusieurs plateformes en nuage. Actian dispose de connecteurs intégrés à des centaines de sources de connecteurs préconstruites, notamment NetSuite, Salesforce et ServiceNow. La plateforme de données Actian utilise une base de données vectorielle en colonnes qui est 7,9 fois plus performante que les autres solutions et qui est idéale pour stocker les données avant de les publier en tant que produit de données au sein d'un domaine.

Les trois composantes d'un produit de données

1

Code

y compris les pipelines de données, les politiques et les interfaces d'application.

2

Données et métadonnées

peut inclure des tableaux, des vues, des graphiques et les métadonnées associées.

3

Infrastructure

comprend des scripts permettant de construire et d'instancier un service de produit de données.