Architecture des données

Lacs de données, entrepôts de données, centres de données : en avons-nous besoin ?

Actian Corporation

17 février 2021

Représentation des centres de données, des lacs et des entrepôts de données

Il existe un débat de longue date, qui remonte aux premiers jours de Hadoop, sur le type de dépôt données qui convient le mieux à un cas d'usage donné en matière d'analyse de données. Un lac de données ? Un hub de données ? Un entrepôt de données ? Malgré la disgrâce d'Hadoop, le débat non seulement persiste, mais se complique. Les référentiels actuels basés sur le cloud, notamment AWS S3, Microsoft Azure ADLS et Google Cloud Store, ressemblent beaucoup à des lacs de données dans le cloud. De même, les offres basées sur le cloud comme Snowflake ressemblent beaucoup à des entrepôts de données d'entreprise, mais dans le cloud. Il est vrai que pour comparer les lacs de données, il faudrait réduire Hadoop à HDFS ou ajouter les outils de gestion du dépôt données, les requête, etc. associés aux portefeuilles des trois fournisseurs de cloud public.

En même temps, il convient de noter qu'aucun des vendeurs qui font la promotion de ces offres n'utilise ces termes. . . Microsoft, Amazon et Google qualifient leurs référentiels en nuage de "hubs de données d'entreprise". Snowflake se positionne comme un entrepôt de données cloud mais pivote pour se qualifier de plateforme de données dans le nuage grâce à son écosystème étendu mais, seul, il s'agit vraiment d'un "moteur d'analyse".

La vérité est qu'aucun lac de données, hub de données ou entrepôt de données - sur site ou dans le cloud - n'a jamais été en mesure de support efficacement toutes les équipes multidisciplinaires d'analystes commerciaux, d'ingénieurs de données, de scientifiques de données et d'utilisateurs chevronnés au sein des différents secteurs d'activité. C'était évident avant l'existence du cloud, et cela ne fait que s'accentuer à mesure que les équipes tentent d'intégrer de nouveaux ensembles de données (pensez aux services web et à l'IoT) et de fusionner des données semi-structurées dans des référentiels structurés. Ne me parlez même pas du flux de feuilles de données Excel qui était censé disparaître (mais qui n'a jamais disparu) lorsque nous sommes devenus plus sophistiqués en matière d'analyse et de gestion des données.

Mais voilà : il existe de réelles différences entre ces plateformes et il est important de les comprendre. En fin de compte, les différences opérationnelles entre ces plateformes ne sont pas la cause première du fait qu'elles ne fournissent pas le support attendu par les différentes parties prenantes.

Réglage du niveau

Commençons par parler de ce dont nous parlons réellement :

Centre de données

Nous définirons ici un hub de données comme une passerelle par laquelle des données virtuelles ou physiques peuvent être fusionnées, transformées et mises en file d'attente pour être acheminées vers une autre destination. Cette destination peut être une application, une base de données ou un autre type de dépôt (comme un lac de données ou un entrepôt de données). En tout état de cause, les données d'un hub de données sont transitoires ; elles ne sont pas stockées localement et n'ont pas de persistance.

Un exemple de hub de données serait Informatica, qui peut accueillir tous les types de données imaginables et relier les sources et destinations de données en amont et en aval. Historiquement, les concentrateurs de données ont été gérés et utilisés par le personnel informatique qui travaille avec des groupes distincts en silo l'entreprise pour créer des intégrations là où il n'y en avait pas naturellement.

Lac de données

Contrairement à un hub de données, un lac de données agit comme un dépôt données persistantes. Il ne s'agit pas d'un simple passage. Les lacs de données peuvent généralement ingérer et gérer presque tous les types de données et, comme l'illustre Hadoop (historiquement le type de lac de données le plus populaire), ils fournissent des outils pour enrichir, interroger et analyser les données qu'ils contiennent. Le problème est que les lacs de données sont généralement des bacs à sable dans lesquels sont déversés de grands ensembles de données utilisés dans des projets expérimentaux par des ressources techniques hautement qualifiées, principalement des informaticiens et des développeurs.

Entrepôt de données

Un entrepôt de données diffère d'un lac de données en ce qu'il agit comme un dépôt données persistantes et principalement structurées, construites progressivement au fil du temps à partir de plusieurs silos de sources de données en aval. Un entrepôt de données diffère également d'un lac de données en ce qu'il nécessite une sorte de technologie de hub de données pour préparer les données à l'ingestion. Les entrepôts de données sur site, tels que ceux des grands acteurs historiques comme Oracle, IBM et Teradata, sont très centrés sur l'informatique et gérés par un ou plusieurs administrateurs de bases de données (DBA). Bien que la majeure partie des données utilisées par les utilisateurs professionnels puisse finalement résider dans un entrepôt de données, la plupart de ces utilisateurs n'ont aucune interaction directe avec l'entrepôt de données et ne savent peut-être même pas qu'ils en ont un ou ce qu'il est.

Le caoutchouc virtuel rencontre la route virtuelle

Historiquement, les hubs de données, les lacs de données, les entrepôts de données ont tous plusieurs choses en commun : ils requièrent tous du personnel avec des compétences spécialisées pour les mettre en place, les maintenir, les gérer, ... et des experts qui peuvent convertir les demandes des utilisateurs professionnels et des analystes non techniques en requêtes et rapports qui peuvent être exécutés sur ces référentiels de données.

Soit dit en passant, la complexité de ces plateformes est l'une des raisons de la disparition de Hadoop. Les lacs de données Hadoop avaient tendance à devenir des décharges de données, et ils ne pouvaient être gérés que par des développeurs et du personnel informatique très qualifié (et coûteux), ce qui limitait la valeur commerciale qu'un lac de données Hadoop pouvait générer. Il n'est donc pas surprenant que, des trois grands fournisseurs qui soutenaient Hadoop, seul Cloudera reste le dernier "homme" debout.

Ce besoin de ressources spécialisées a également affecté l'utilisation des hubs de données, des lacs de données et des entrepôts de données d'autres manières, ce qui a compliqué davantage la question initiale de savoir quelle plateforme est la meilleure pour les différents cas d'utilisation. Le passage d'infrastructures sur site à des infrastructures en nuage a entraîné une réduction de la demande de toutes ces ressources spécialisées. Les fournisseurs d'infrastructures en nuage ont apporté un support opérationnel de plus en plus important, ce qui a permis de réduire les coûts d'exploitation. En outre, les changements architecturaux des dernières générations d'offres de cloud (séparation des offres de calcul et de stockage, paiement pour ce que vous utilisez, etc.

Accroître encore la complexité

Malgré tous ces changements structurels, la demande fondamentale d'informations basées sur des données est restée inchangée. La réponse à la question de savoir quelle est la meilleure façon d'obtenir ces informations est devenue plus difficile à donner. Les données qui étaient auparavant stockées dans des lacs de données ou des entrepôts de données sur site (via des hubs de données) sont désormais stockées dans le nuage, mais les offres dans le nuage ne sont pas tout à fait les mêmes que celles qui étaient disponibles sur site. Leurs modèles de stockage d'objets diffèrent. Microsoft, Amazon et Google proposent des magasins de données persistants et, en ce sens, peuvent ressembler à un lac de données, mais ils s'appuient sur d'autres outils pour exécuter les fonctions de hub de données et ne peuvent donc pas être définis comme quelque chose de plus que des magasins de données. Ils nécessitent toujours une intégration de données ou une fonctionnalité de hub de données, et leur valeur commerciale est limitée de la même manière qu'elle l'a toujours été. Les personnes qui génèrent directement de la valeur commerciale - les analystes commerciaux, les scientifiques des données et (à défaut d'un titre spécifique) les autres utilisateurs professionnels - ne peuvent toujours pas accéder facilement aux informations contenues dans les données et les débloquer.

De nos jours, la plupart des analystes commerciaux et des utilisateurs chevronnés utilisent les capacités d'analyse et de visualisation intégrées des applications en silo telles que Salesforce, Marketo ou toute autre plateforme ERP qu'ils ont besoin de comprendre en termes d'opérations commerciales ou de résultats historiques. En même temps, ils s'efforcent d'en faire plus. Les utilisateurs professionnels peuvent essayer d'incorporer des données provenant de fichiers plats tels qu'Excel ou des données JSON semi-structurées exposées par le biais d'API de services web. Souvent, ils se font aider par le service informatique pour exporter les données d'un ou de plusieurs systèmes, les combiner avec des feuilles de calcul Excel et les envoyer périodiquement dans un cube. Le résultat est douloureusement familier : des pipelines de données en silo liés à des résultats d'analyse et de visualisation en silo . À l'insu de ces utilisateurs professionnels, lorsqu'ils font appel à l'aide de l'informatique, ils peuvent en fait exploiter un hub de données, car il n'y a pas de persistance des données dans le hub - ils ont simplement utilisé le hub comme un interrupteur pour relier un ensemble de silos de données et un silo analytique afin de créer un silo organisationnel ou un silo de projet ad hoc.

Les data scientists et les data engineers peuvent utiliser un grand nombre des mêmes silos de données, mais ils peuvent également utiliser des données provenant d'ensembles de données semi-structurées tels que les flux de clics, l'IoT et les services web, et leurs destinations peuvent inclure les mêmes outils de visualisation, mais aussi, bien sûr, des outils d'analytique avancée pour support IA/ML. Ils peuvent employer l'informatique pour les support obtenir les données et, à leur tour, créer le même réseau de spaghettis point à point.

En d'autres termes, le dépôt unique et partagé de données promis par les lacs de données, les entrepôts de données et les centres de données reste un rêve irréalisable. Un véritable centre d'analyse n'a pas encore vu le jour - ni sur site, ni dans le nuage.

Et pourtant.

Changement d'orientation

Les fournisseurs d'informatique en nuage commencent à prendre conscience du problème et certains s'efforcent de le résoudre. Cependant, la plupart d'entre eux le font en s'assurant qu'un entrepôt de données cloud puisse agir comme un dépôt données en amont pour tout outil d'analyse, de reporting et de visualisation en aval. Souvent, cela se fait par le biais d'un écosystème de partenaires, comme dans le cas de Snowflake. Cela est nécessaire mais insuffisant pour créer le centre d'analyse dont nous avons tous réellement besoin.

Mais attendez. Un centre d'analyse ? Où était-ce dans les définitions ci-dessus ?

Le fait est que l'entrepôt de données cloud est actuellement un moteur d'analyse, mais sans hub de données intégré au niveau du back-end et en se concentrant sur des connexions point à point séparées vers divers outils de BI et d'analyse au niveau du front-end. Des fournisseurs tels que Snowflake ne mentionnent pas les hubs analytiques et prétendent encore moins en être un. De plus, sans la capacité d'obtenir facilement des données à partir de sources de données et de lier des éléments composites de données à partir de ces diverses sources pour les présenter aux outils d'analyse, vous n'avez pas vraiment de centre d'analyse, principalement parce que vous n'avez pas de centre de données.

Au lieu d'un hub de données ou d'un hub d'analyse, tous deux utilisables uniquement par le service informatique, ce qu'il faut vraiment, c'est un hub d'analyse de données qui soit utilisé par un large éventail d'utilisateurs informatiques et d'entreprises. Nous reviendrons sur cette notion et sur son importance dans le prochain blog.

logo avatar actian

À propos d'Actian Corporation

Actian facilite l'accès aux données. Notre plateforme de données simplifie la façon dont les gens connectent, gèrent et analysent les données dans les environnements cloud, hybrides et sur site . Avec des décennies d'expérience dans la gestion des données et l'analyse, Actian fournit des solutions de de haute performance qui permettent aux entreprises de prendre des décisions basées sur les données. Actian est reconnu par les principaux analystes et a reçu des prix de l'industrie pour sa performance et son innovation. Nos équipes partagent des cas d'utilisation éprouvés lors de conférences (par exemple, Strata Data) et contribuent à des projets à code source ouvert. Sur le blog d'Actian, nous couvrons des sujets allant de l'ingestion de données en temps réel à l'analyse pilotée par l'IA. Faites connaissance avec l'équipe dirigeante https://www.actian.com/company/leadership-team/