Un catalogue de données intelligent, un must pour les leaders en matière de données
Actian Corporation
26 août 2020

Le terme " catalogue de donnéesintelligent" est devenu un mot à la mode au cours des derniers mois. Cependant, lorsque l'on parle de quelque chose d'"intelligent", la plupart des gens pensent automatiquement, et à juste titreà un catalogue de données doté uniquement de capacités d'apprentissage automatique.
Nous ne pensons pas qu'un catalogue de données intelligent se réduise à des fonctions de ML.
En fait, il existe de nombreuses façons d'être "intelligent". Cet article se concentre sur la conférence que Guillaume Bodet, cofondateur et PDG de Zeenea, a donnée lors du Data Innovation Summit 2020 : "Smart Data Catalogs, A Must-Have for Leaders".
Une définition rapide du catalogue de données
Nous définissons un catalogue de données comme étant
Un inventaire détaillé de toutes les données d'une organisation et de leurs métadonnées, conçu pour aider les professionnels des données à trouver rapidement les données les plus appropriées pour n'importe quel objectif d'analyse.
Un catalogue de données est destiné à différentes personnes ou utilisateurs finaux. utilisateurs finaux. Tous ces utilisateurs finaux ont des attentes, des besoins, des profils et des façons de comprendre les données qui leur sont propres. Ces utilisateurs finaux sont des analystes de données, des gestionnaires de données, des scientifiques de données, des analystes d'entreprise et bien d'autres encore. Comme de plus en plus de personnes utilisent et travaillent avec des données, un catalogue de données doit être intelligent pour tous les utilisateurs finaux.
Qu'est-ce qu'un "patrimoine de données" ?
Un actif, d'un point de vue financier, apparaît généralement dans le bilan avec une estimation de sa valeur. En ce qui concerne les actifs de données, ils sont tout aussi importants, voire plus importants dans certains cas, que les autres actifs de l'entreprise. Le problème est que la valeur des actifs de données n'est pas toujours connue.
Cependant, il existe de nombreuses façons d'exploiter la valeur de vos données. Les entreprises ont la possibilité d'utiliser directement la valeur de leurs données, par exemple en les vendant ou en les échangeant. C'est ce que font de nombreuses organisations : elles nettoient les données, les structurent, puis les vendent.
Les entreprises peuvent également tirer indirectement de la valeur de leurs données. Les actifs de données permettent aux organisations de :
- Innover pour de nouveaux produits/services.
- Améliorer les performances globales.
- Améliorer le positionnement des produits.
- Mieux comprendre les marchés/clients.
- Augmenter l'efficacité opérationnelle.
Les entreprises les plus performantes sont celles qui maîtrisent leur patrimoine de patrimoine de données et l'exploitent dans tous les aspects de leur activité.
Les difficultés des catalogues de données
Lorsque votre entreprise traite des milliers de données, cela signifie généralement que vous avez affaire à des données :
- Des centaines de systèmes qui stockent des données internes (entrepôts de données, applications, lacs de données, magasins de données, API, etc.) ainsi que des données externes provenant de partenaires.
- Des milliers d'ensembles de données, de modèles et de visualisations (actifs de données) composés de milliers de champs.
- Et ces champs contiennent des millions d'attributs (ou métadonnées) !
Sans parler des centaines d'utilisateurs qui les utilisent...
Cela soulève deux questions différentes :
Comment puis-je construire, maintenir et renforcer la qualité de mes informations pour que mes utilisateurs finaux fassent confiance à mon catalogue ? |
Comment puis-je trouver rapidement des données pour des cas d'utilisation spécifiques ? |
La réponse se trouve dans les catalogues de données intelligents
Nous pensons qu'un catalogue de données doit être "intelligent" dans cinq domaines principaux. Il doit être intelligent dans ses :
- Conception : La façon dont les utilisateurs explorent le catalogue et consomment l'information.
- expérience de l'utilisateur : Comment il s'adapte aux différents profils.
- Inventaires : Fournit une méthode intelligente et automatique d'inventaire.
- Moteur de recherche : Prend en charge les différentes attentes et donne des suggestions intelligentes.
- gestion desmétadonnées : Un catalogue qui étiquette et relie les données entre elles grâce à des fonctions de ML.
Entrons dans le détail de chacun de ces domaines :
Une conception intelligente
Graphe de connaissances
Un catalogue de données conçu de manière intelligente utilise des graphes de connaissances plutôt que des ontologies statiques (une manière de classer les informations, la plupart du temps sous la forme d'une hiérarchie). Le problème des ontologies est qu'elles sont très difficiles à construireet à maintenir, et que seuls certains types de profils comprennent réellement les différentes classifications.
Un graphe de connaissances, en revanche, représente les différents concepts d'un catalogue de données et relie les objets entre eux par des liens sémantiques ou statiques. L'idée d'un graphe de connaissances est de construire un réseau d'objets et, plus important encore, de créer des relations sémantiques ou fonctionnelles entre les différents actifs de votre catalogue.
Fondamentalement, un catalogue de données intelligent permet aux utilisateurs de trouver et de comprendre des objets connexes.
Métamodèles adaptatifs
Dans un catalogue de données, les utilisateurs trouveront des centaines de propriétés différentes, dont certaines ne sont pas pertinentes pour certains utilisateurs. En général, deux types d'informations sont gérés :
- Entités : Objets simples, entrées de glossaire, définitions, modèles, politiques, descriptions, etc.
- Propriétés : Les attributs que vous placez sur les entités (toute information supplémentaire telle que la date de création, la date de la dernière mise à jour, etc.)
La conception du métamodèle doit servir le consommateur de données. Il doit être adapté aux nouveaux cas d'entreprise et être suffisamment simple à gérer pour que les utilisateurs puissent le maintenir et le comprendre. Des points bonus s'il est facile de créer de nouveaux types d'objets et d'ensembles d'attributs !
Attributs sémantiques
La plupart du temps, dans un catalogue de données, les attributs du métamodèle sont des propriétés techniques. Certains des attributs d'un objet comprennent des types génériques tels que texte, nombre, date, liste de valeurs, etc. Bien que ces informations soient nécessaires, elles ne sont pas totalement suffisantes car elles ne contiennent pas d'informations sur la sémantique ou la signification. La raison pour laquelle ces informations sont importantes est qu'elles permettent au catalogue d'adapter la visualisation de l'attribut et d'améliorer les suggestions faites aux utilisateurs.
En conclusion, il n'existe pas de solution unique pour la conception d'un catalogue de données, et celui-ci doit évoluer au fil du temps pour support nouveaux domaines de données et de nouveaux cas d'utilisation.
Une expérience d'utilisateur intelligent
Comme indiqué ci-dessus, un catalogue de données contient beaucoup d'informations et les utilisateurs finaux ont souvent du mal à trouver les informations qui les intéressent. Les attentes diffèrent selon les profils. Un scientifique des données attendra des informations statistiques, tandis qu'un responsable de la conformité attendra des informations sur les différentes politiques réglementaires.
Grâce à une expérience utilisateur intelligente et adaptative, un catalogue de données présentera les informations les plus pertinentes à des utilisateurs finaux spécifiques. La hiérarchie des informations et les résultats de recherche ajustés dans un catalogue de données intelligent sont basés sur :
- Préférences statiques : Déjà connues dans le catalogue de données si le profil est plus axé sur la science des données, l'informatique, etc.
- Profilage dynamique : Pour connaître les recherches habituelles de l'utilisateur utilisateur , ses centres d'intérêt et la manière dont il a utilisé le catalogue par le passé.
Un système d'inventaire intelligent
L'adoption d'un catalogue de donnéesrepose sur la confiance - et la confiance ne peut exister que si son contenu est exact. Comme le patrimoine de patrimoine de données évolue rapidement, il doit être connecté aux systèmes opérationnels pour maintenir le premier niveau d'information sur les métadonnées de vos actifs de données.
Le catalogue doit synchroniser son contenu avec le contenu réel des systèmes opérationnels.
L'architecture typique d'un catalogue consiste à disposer de scanners qui analysent vos systèmes opérationnels et apportent et synchronisent des informations provenant de diverses sources (Big Data, noSQL, Cloud, Data Warehouse, etc.). L'idée est d'avoir une connectivité universelle afin que les entreprises puissent scanner automatiquement n'importe quel type de système et les intégrer dans le graphe de connaissances.
Dans Zeenea, il existe une couche d'automatisation pour ramener les informations des systèmes vers le catalogue. Elle peut :
- Mettre à jour les actifs pour refléter les changements physiques.
- Détecter les actifs supprimés ou déplacés.
- Résoudre les liens entre les objets.
- Appliquer des règles pour sélectionner l'ensemble approprié d'attributs et définir les valeurs des attributs.
Un moteur de recherche intelligent
Dans un catalogue de données, le moteur de recherche est l'une des caractéristiques les plus importantes. On distingue deux types de recherche :
- Recherche à forte intention : L'utilisateur utilisateur sait déjà ce qu'il cherche et dispose d'informations précises sur sa requête. Il connaît déjà le nom du jeu de données ou sait où il se trouve. Les recherches à faible intention sont couramment utilisées par les personnes les plus averties en matière de données.
- Recherche à faible intention : L'utilisateur utilisateur ne sait pas exactement ce qu'il cherche, mais il souhaite découvrir ce qu'il pourrait utiliser dans son contexte. Les recherches sont effectuées à l'aide de mots-clés et les utilisateurs s'attendent à ce que les résultats les plus pertinents s'affichent.
Un catalogue de données intelligent doit support deux types de recherche
Il doit également permettre un filtrage intelligent. Il s'agit d'un complément nécessaire à l'expérience de recherche de l'utilisateur(en particulier pour les recherches à faible intention), qui lui permet de restreindre les résultats de sa recherche en excluant les attributs qui ne sont pas pertinents. À l'instar de nombreuses grandes entreprises comme Google, Booking.com et Amazon, les options de filtrage doivent être adaptées au contenu de la recherche et au profil de l'utilisateurafin que les résultats les plus pertinents apparaissent.
Smart métadonnées Management
La gestion intelligente des métadonnées est généralement ce que nous appelons le " catalogue de donnéesaugmenté", c'est-à-dire le catalogue doté de capacités d'apprentissage automatique qui lui permettront de détecter certains types de données, d'appliquer des étiquettes ou des règles statistiques sur les données.
Un moyen de rendre la gestion des métadonnées intelligente est d'appliquer la reconnaissance des formes de données. La reconnaissance des formes de données permet d'identifier les actifs similaires et de s'appuyer sur des algorithmes statistiques et des capacités de ML qui sont dérivés d'autres systèmes de reconnaissance des formes.
Ce système de reconnaissance des schémas de données aide les gestionnaires de données à définir leurs métadonnées:
- Identifier les doublons et copier les métadonnées.
- Détecter les types de données logiques (courriels, villes, adresses, etc.).
- Suggérer des valeurs d'attributs (reconnaître les modèles de documentation à appliquer à un objet similaire ou à un nouvel objet).
- Suggérer des liens - sémantiques ou de lignage.
- Détecter les erreurs potentielles afin d'améliorer la qualité et la pertinence du catalogue.
Il aide également les consommateurs de données à trouver leurs ressources. L'idée est d'utiliser certaines techniques dérivées des recommandations basées sur le contenu que l'on trouve dans les catalogues généraux. Lorsque l'utilisateur a trouvé quelque chose, le catalogue lui propose des alternatives basées à la fois sur son profil et sur la reconnaissance des formes.
Commencez votre voyage vers le catalogue de données avec Zeenea
Zeenea est une solution 100% basée sur le cloud, disponible partout dans le monde en quelques clics. En choisissant Zeenea catalogue de donnéesZeenea, vous maîtrisez les coûts liés à la mise en place et à la maintenance d'un catalogue de données tout en simplifiant l'accès pour vos équipes.
Les mécanismes d'alimentation automatique, ainsi que les algorithmes de suggestion et de correction, réduisent les coûts globaux d'un catalogue et garantissent à vos équipes de données des informations de qualité dans les délais d'enregistrement .
S'abonner au blog d'Actian
Abonnez-vous au blogue d'Actian pour recevoir des renseignements sur les données directement à vous.
- Restez informé - Recevez les dernières informations sur l'analyse des données directement dans votre boîte de réception.
- Ne manquez jamais un article - Vous recevrez des mises à jour automatiques par courrier électronique pour vous avertir de la publication de nouveaux articles.
- Tout dépend de vous - Modifiez vos préférences de livraison en fonction de vos besoins.