Intelligence des données

7 mensonges sur les catalogues de données #4 : Pas une solution de requête

Actian Corporation

2 juillet 2021

un catalogue de données n'est pas une solution de requête

Le catalogue de données s'est développé rapidement et est désormais considéré comme incontournable dans le déploiement d'une stratégie data-driven. Victime de son succès, ce marché a attiré de nombreux acteurs des marchés adjacents.

 Ces acteurs ont modifié leur positionnement marketing pour se présenter comme des solutions de catalogue de données .

La réalité est que, bien que relativement faibles sur les fonctionnalités du catalogue de données elles-mêmes, ces entreprises tentent de convaincre, avec un succès proportionnel à leur budget marketing, qu'un catalogue de données n'est pas seulement un outil de recherche de de haute performance pour les équipes de données, mais une solution intégrée susceptible d'aborder une foule d'autres sujets.

L'objectif de cette série de blogs est de déconstruire l'argumentaire de ces vendeurs de catalogue de données la dernière heure.

Un catalogue de données n'est PAS une solution de requête

Voici une autre bizarrerie du marché des catalogue de données . Plusieurs fournisseurs, dont l'objectif initial était de permettre aux utilisateurs d'requête simultanément plusieurs sources de données, ont "pivoté" vers un positionnement de catalogue de données sur le marché.

Il y a une raison pour qu'ils pivotent.

L'émergence des lacs de données et du Big Data les a acculés dans un cul-de-sac technologique qui a affaibli le segment de marché dans lequel ils se trouvaient initialement.

Un Data Lake est typiquement segmenté en plusieurs couches. La couche " brute " intègre des données sans transformation, dans des formats plus ou moins structurés et en grande quantité ; Une deuxième couche, que nous appellerons " propre ", contiendra à peu près les mêmes données mais dans des formats normalisés, après un dépoussiérage. Ensuite, il peut y avoir une ou plusieurs couches "business" prêtes à l'emploi : Un entrepôt de données et un outil de visualisation pour l'analyse, un cluster Spark pour la science des données, un système de stockage pour la distribution commerciale, etc. Au sein de ces couches, les données sont transformées, agrégées et optimisées pour l'utilisation, ainsi que les outils supportant cette utilisation (outils de visualisation de données, notebooks, traitement massif, etc).

Dans ce paysage, un outil universel de libre-service requête n'est pas adapté.

Il est bien sûr possible de mettre en place une couche d'interprétation SQL au-dessus de la couche "propre" (comme Hive) mais l'exécution de requête reste un domaine de spécialistes. Les volumes de données sont énormes et rarement indexés.

Permettre aux utilisateurs de définir leurs propres requêtes est très risqué : sur les systèmes sur site, ils risquent de faire s'effondrer le cluster en exécutant une requête très coûteuse. Et sur les systèmes en nuage, la facture pourrait être très élevée. Sans parler des problèmes de sécurité et de sensibilité des données.

Quant aux couches "métier", elles sont généralement couplées à des solutions plus spécialisées (comme une combinaison de Snowflake et Tableau pour l'analytique) qui proposent un outillage très complet et sécurisé, offrant de grandes performances pour les requêtes en libre-service . Leur espace de marché se réduisant comme neige au soleil, certains fournisseurs de requête multi-sources se sont orientés vers les catalogues de données.

Leur discours est maintenant de convaincre les clients que la capacité d'exécuter des requêtes fait de leur solution la Rolls-Royce des catalogues de données (afin de justifier leur prix à six chiffres). Nous vous invitons à y réfléchir à deux fois.

À emporter

Dans une architecture de données moderne, la capacité d'exécuter des requêtes à partir d'un catalogue de données n'est pas seulement inutile, elle est aussi très risquée (performance, coût, sécurité, etc.).

Les équipes chargées des données disposent déjà de leurs propres outils pour exécuter des requêtes sur les données, et si ce n'est pas le cas, il peut être judicieux de les équiper. Intégrer les problématiques d'accès aux données dans le déploiement 'un catalogue est le plus sûr moyen d'en faire un projet long, coûteux et décevant.

logo avatar actian

À propos d'Actian Corporation

Actian permet aux entreprises de gérer et de gouverner en toute confiance les données à l'échelle, en rationalisant les environnements de données complexes et en accélérant la fourniture de données prêtes pour l'IA. L'approche d'Actian en matière d'intelligence des données combine la découverte de données, la gestion des métadonnées et la gouvernance fédérée pour permettre une utilisation plus intelligente des données et améliorer la conformité. Grâce à des capacités intuitives de libre-service , les utilisateurs professionnels et techniques peuvent trouver, comprendre et faire confiance aux actifs de données dans les environnements cloud, hybrides et sur site . Actian fournit des solutions flexibles de gestion des données à 42 millions d'utilisateurs au sein de sociétés du Fortune 100 et d'autres entreprises dans le monde entier, tout en maintenant un taux de satisfaction de la clientèle de 95 %.