Les données sont la composante essentielle de toute organisation. Lorsque des difficultés surviennent et mettent en péril la capacité des organisations à utiliser correctement les données, l'organisation est menacée d'échec. Le risque doit être évité, transféré, atténué ou accepté. La gestion des risques basée sur les données est une capacité nécessaire pour toutes les organisations. L'acceptation des risques liés aux données et la gestion des conséquences d'un événement doivent être évitées à tout prix.
Le lac de données est un dépôt central de données provenant de diverses sources qui permet aux organisations de stocker toutes leurs données brutes, structurées et non structurées. Les données sont stockées telles quelles, sans qu'il soit nécessaire de les reformater ou de les structurer. Les organisations ont besoin de lacs de données poureffectuer des recherches, des analyses et améliorer l'support décision au sein de l'organisation. L'amélioration de l'support décision peut créer un avantage concurrentiel par rapport à leurs pairs et améliorer globalement le service à leurs clients.
La compréhension et l'amélioration des produits et services, l'analyse de la clientèle, la productivité des employés et l'efficacité opérationnelle globale sont à la base de toutes les stratégies, tactiques et opérations de l'organisation. Le meilleur moyen d'y parvenir est d'utiliser les données pour l'support décision. Les données contenues et gérées de manière efficace dans un lac de données peuvent aider à relever les défis dans ces domaines. Les données utilisées de cette manière contribuent à renforcer la transformation numérique dans l'ensemble de l'organisation.
Qu'est-ce que l'architecture Cloud Data Lake ?
Une architecture de lac de données en nuage est une série de modules, certains obligatoires, d'autres facultatifs, qui définissent un dépôt données commun au niveau du groupe, du département ou de l'entreprise pour tous les types de données dans leur format natif à rassembler pour que les différents groupes puissent les traiter et les analyser.
Les concepts fondamentaux de l'architecture du lac de données sont les suivants :
- Sécurité - Il s'agit toujours d'une préoccupation. Comme toute autre architecture informatique aujourd'hui, elle doit être mise en œuvre dans chaque couche du lac de données pour gérer les menaces et les vulnérabilités.
- ingestion de données et Movement - Il faut gérer les données et les types de données provenant de différentes sources pour les charger dans le lac de données à partir de systèmes batch, en temps réel ou autres.
- La gouvernance données - gouvernance, risque et conformité (GRC) - doit être gérée pour assurer la simplicité d'utilisation, l'intégrité, la confidentialité et la disponibilité des données au sein d'une organisation, conformément aux directives internes de l'entreprise et aux mandats réglementaires externes.
- Qualité des données - Elle doit toujours être maintenue pour tirer une valeur commerciale des données, une mauvaise qualité = de mauvaises décisions.
- Analyse des données - L'analyse pour l'support décision est la principale raison d'être d'un lac de données.
- découverte de données - Les données doivent d'abord être découvertes avant d'être utilisées, en particulier pour l'analyse. Les sources critiques de données doivent être identifiées et gérées.
- Récupération des données - Pour l'utilisation des lacs de données liés à la continuité des activités, la récupération des données doit être planifiée et testée.
- Audit des données - L'audit est une nécessité pour la gestion des risques, la gouvernance et la création de normes de conformité.
- Stockage des données - En utilisant le nuage et/ou une solution hybride, il faut veiller à gérer l'évolutivité du stockage.
- Lignage des données - L'origine des données doit être gérée afin de garantir que l'ingestion de données se fasse de manière efficace.
- Exploration des données - Pour toutes les analyses, il est nécessaire d'explorer les données afin d'identifier le jeu de données adéquat.
- Coordination et collaboration - Le lac de données est un magasin de données organisationnel ; la compréhension de l'utilisation des données nécessite une collaboration et une coordination au sein de l'organisation avec différentes équipes et parties prenantes.
L'exigence principale d'une architecture de lac de données est une architecture de stockage de données évolutif sous-jacente.
- Au départ, il s'agissait d'Hadoop avec le Hadoop Data File System ou HDFS, mais celui-ci a été remplacé par le stockage d'objets, généralement dans AWS (S3), Azure (ADLs) et Google (GCS). Il doit s'agir d'un dépôt unique et partagé de données.
- Dans tous les cas, il doit y avoir un système de gestion robuste mais minimal ; YARN est devenu la norme dans ce domaine et a également migré de Hadoop vers les environnements de stockage d'objets dans le nuage. Les capacités d'orchestration et de planification des tâches doivent être des caractéristiques essentielles.
- Pratiquement toutes les architectures de lacs de données fonctionnent désormais dans le nuage, découplent le calcul du stockage pour support évolutivité et les modèles de paiement à l'utilisation, support Support support nombreux langages de programmation, y compris Hive et Spark, ainsi que SQL.
En dehors de ces piliers fondamentaux, d'autres considérations relatives à la conception de l'architecture des lacs de données dépendent de l'utilisateur du système et du type de travail. Au départ, les lacs de données étaient considérés comme un outil pour les data scientists traitant des données brutes non structurées et semi-structurées. L'architecture des lacs de données était donc axée sur les outils de développement pour l'ingestion de données, le traitement, la requête et l'analyse. En général, les utilisateurs du lac de données sont des rôles habitués à faire du travail analytique avec des bases de données. Cependant, en raison de la valeur des lacs de données et des outils émergents, les utilisateurs des lacs de données peuvent être élargis à d'autres utilisateurs.
L'architecture du lac de données est axée sur la conception d'une entrée rapide de données brutes, de sorte que peu d'efforts sont consacrés au traitement des données à l'entrée. Les trois autres domaines requièrent des considérations de conception liées aux données du lac qui constituent le point focal et à la tâche .
L'architecture des lacs de données AWS, l'architecture des lacs de données Azure, l'architecture des lacs de données Hortonworks et l'architecture des lacs de données Spark suivent toutes ces concepts et ces exigences pour les lacs de données. Chacune d'entre elles a une approche cohérente, mais diffère dans l'ensemble des offres disponibles grâce à leurs technologies. Les organisations doivent évaluer chacune d'entre elles en fonction de leurs besoins.
Considérations relatives à la conception d'un lac de données
Les organisations doivent avoir une vision globale de l'utilisation de leur lac de données. L'intention ou la stratégie de l'organisation doit guider la conception et l'utilisation d'un lac de données. Les bonnes conceptions facilitent les décisions futures au sein de l'architecture du lac de données.
Les lacs de données doivent être conçus en tenant compte des caractéristiques suivantes :
- L'activation de l'informatique en nuage avec l'isolement charge de travail .
- Plusieurs niveaux - ingestion, opérations, traitement, distillation, stockage, informations.
- Capacité d'ajouter et d'support utilisateurs sans affecter les performances au cours de diverses charges de travail.
- Services de marquage de métadonnées uniques pour l'environnement de stockage d'objets.
- Des outils efficaces extraient, chargent, transforment et requête données sans incidence sur les performances.
- Architecture de données partagées multi-clusters.
- Mise à l'échelle indépendante et structurée des ressources de calcul et de stockage.
Dans de nombreux cas d'utilisation pour la recherche de documents et les requête pour les chercheurs, par exemple en pharmacie, en médecine ou dans n'importe quel domaine universitaire, on s'appuie sur un moteur de recherche et on utilise un langage de requête qui peut analyser rapidement de grands ensembles de documents. Dans d'autres cas, les données peuvent être semi-structurées, par exemple les données mobiles et IoT. Il peut même être nécessaire d'établir une correspondance relationnelle entre divers ensembles de données IoT ; par exemple, si vous avez des capteurs de pression et de température liés à la mesure d'un volume de quelque chose, l'équation PVT représente une correspondance relationnelle de tables de données ou peut-être que les données de chacune de ces sources sont streaming dans le lac de données et traitées à la fois en temps réel et plus tard en tant qu'ensembles de données agrégées avec une relation entre eux.
Quelle que soit la structure des données, l'une des tâches analytiques essentielles des scientifiques des données est une certaine forme d'IA, qu'il s'agisse de la cognition des formes, comme la reconnaissance faciale dans les données vidéo, ou du traitement du language naturel dans les documents ou les flux audio.
Les cas d'utilisation que nous venons de décrire et qui sont traités par des scientifiques des données, principalement dans le cadre de projets de recherche, sont précisément ce qui a historiquement différencié l'architecture des lacs de données de l'entrepôt de données ou de l'architecture des bases de données. Cependant, certains aspects de ce que l'on trouve généralement dans une architecture d'entrepôt de données apparaissent dans les versions Cloud des architectures de lacs de données. Tout d'abord, la démocratisation des données a été plus une déclaration qu'un fait avec les lacs de données. Leur utilisation était limitée aux scientifiques et ingénieurs des données, à l'exclusion des utilisateurs professionnels. De plus, ils avaient tendance à fonctionner très lentement par rapport à la vitesse des requête l'entrepôt de données et des analyses ad hoc. Enfin, et c'est le plus important, les premières architectures de lacs de données ne disposaient pas d'un support sécurité intégré ou d'une gouvernance données et d'un catalogage de ce qui se trouvait dans le lac de données.
Les architectures de lac de données en nuage tirent toutes parti des caractéristiques de sécurité intrinsèques des plateformes en nuage AWS, Azure et Google sur lesquelles elles s'exécutent. Elles disposent toutes d'une forme ou d'une autre de catalogue de données et de service de pipeline de données pour faciliter le flux de traitement des données sur plusieurs étapes. En outre, de nombreuses implémentations de l'architecture de lac de données fournissent des outils pour développer et exploiter les métadonnées associées aux différents ensembles de données dans le lac pour une gamme d'utilisations allant de la gestion des données principale gestion des données aux opérations sémantiques telles que l'indexation, l'ontologie et les moyens d'assurer non seulement une meilleure qualité des données, mais aussi une utilisation optimale des seules données dont vous avez besoin par rôle.
Adoption d'une architecture de lac de données
L'adoption d'une architecture de lac de données devrait se faire par étapes, chacune avec un délai de rentabilisation rapide ou un gain rapide pour l'organisation. Utilisez les données disponibles, puis au fur et à mesure que le projet mûrit et que des lacunes dans les données sont découvertes, faites évoluer le lac de données.
Étape 1 - Capturer, ingérer et faire l'inventaire des données et des sources, puis visualiser la façon dont les données actuelles peuvent être utilisées pour l'organisation. Ce faisant, décider et créer des méthodes, des pratiques et des approches pour accélérer l'intégration des nouvelles découvertes de données.
Étape 2 - Construire les modèles analytiques pour transformer et effectuer les tâches d'analyse des données. Gardez à l'esprit les résultats que les données soutiennent. Les organisations peuvent essayer différents outils et tirer parti de l'intelligence artificielle (IA).
Après l'étape 2, il s'agit de transmettre les données aux consommateurs, aux décideurs et à toutes les autres parties prenantes. L'utilisation du lac de données avec un entrepôt de données d'entreprise peut permettre d'atteindre cet objectif.
La dernière étape, mais non la dernière, est l'amélioration continue. Améliorer les capacités d'entreprise du lac de données. Cela devrait inclure la gestion du cycle de vie des données et des informations. N'oubliez pas que la technologie du lac de données est destinée à améliorer les résultats de l'entreprise, et qu'il est donc essentiel de mesurer les améliorations des résultats de l'entreprise par rapport à l'utilisation d'un lac de données.
Attention à ne pas avoir un projet informatique de lac de données qui crée des "marécages de données" ou des données inutilisables. Bien qu'il soit possible de tirer de la valeur de tous les types de données, il faut s'assurer qu'il y a de la valeur. Les données inutilisées affectent les performances de l'infrastructure informatique et des personnes qui les utilisent pour prendre des décisions. Chaque étape de l'adoption doit tenir compte de la pertinence commerciale des données utilisées. Assurez-vous que les données ont une valeur pour l'support décision au sein de l'organisation.
Conclusion
La gestion des risques liés aux données relève de la responsabilité de toutes les fonctions de l'entreprise : marketing, ventes, ressources humaines, opérations, applications, service juridique, etc. Adopter une approche proactive en identifiant les risques, en ajoutant des contrôles et en se préparant à agir peut faire toute la différence en cas de besoin. Ne faites pas de la gestion des risques liés aux données une réflexion après coup et quelque chose qui ne vaut pas l'investissement. La gestion des risques liés aux données fait partie du coût de l'activité et doit être comprise comme telle. Il faut se méfier des raccourcis et ne pas adopter une approche stratégique et globale.
L'utilisation de la technologie est essentielle à la gestion du risque lié aux données. La technologie du lac de données peut aider à gérer et à améliorer l'utilisation des données dans l'ensemble de l'organisation. Il en résulte une amélioration des interactions avec les clients, une amélioration de la prestation et de la conception des services et une amélioration générale des opérations quotidiennes d'une organisation. Identifiez et définissez les raisons et les objectifs de l'organisation en matière de données pour le lac de données et gardez-les toujours à l'esprit pendant le projet.