Intelligence des données

Un système efficace de gestion des autorisations pour un catalogue de données

Actian Corporation

2 décembre 2021

permission-management-sets-zeenea-data-catalog

Le catalogue de données valorise l'ensemble des données disponibles en s'appuyant sur deux types d'informations : d'une part, les informations purement techniques qui sont synchronisées automatiquement à partir de leurs sources ; d'autre part, les informations métiers qui proviennent du travail des Data Stewards. Cette dernière est mise à jour manuellement et comporte donc son lot de risques pour l'ensemble de l'organisation.

Un système de gestion des permissions est donc indispensable pour définir et contrôler les droits d'accès des utilisateurs du catalogue. Dans cet article, nous détaillons les caractéristiques fondamentales et les approches possibles pour construire un système de gestion des permissions efficace, ainsi que la solution mise en place par Zeenea catalogue de données.

Système de gestion des permissions : Un outil essentiel pour l'ensemble de l'organisation

Pour que les utilisateurs du catalogue de données aient confiance dans les informations qu'ils consultent, il est essentiel que la documentation des objets catalogués soit pertinente, de haute qualité et, surtout, fiable. Vos utilisateurs doivent pouvoir trouver, comprendre et utiliser facilement les données mises à leur disposition.

L'origine de l'information et de l'automatisation des catalogues

Un catalogue de données intègre généralement deux types d'informations. D'une part, des informations purement techniques qui proviennent directement de la source de données. Chez Zeenea, ces informations sont synchronisées de manière totalement automatisée et continue entre le catalogue de données et chaque source de données, afin de garantir leur véracité et leur fraîcheur. D'autre part, le catalogue contient toute la documentation métier ou organisationnelle, issue du travail des Data Stewards. Ces informations ne peuvent pas être automatisées ; elles sont mises à jour manuellement par les équipes de gestion des données de l'entreprise.

Un système de gestion des autorisations est une condition préalable à l'utilisation d'un catalogue de données

Pour gérer cette deuxième catégorie d'informations, le catalogue doit comporter des mécanismes de contrôle d'accès et de saisie. En effet, il n'est pas souhaitable que n'importe quel utilisateur du catalogue de données de votre organisation puisse créer, modifier, importer, exporter ou même supprimer des informations sans en avoir reçu l'autorisation préalable. Un système de gestion des permissions utilisateur est donc indispensable ; il joue le rôle d'un gardien des droits d'accès des utilisateurs.

Les 3 caractéristiques fondamentales du système de gestion des autorisations d'un catalogue de données

La mise en œuvre d'un système de gestion des autorisations à l'échelle de l'entreprise est soumise à un certain nombre d'attentes qui doivent être prises en compte lors de sa conception. Parmi celles-ci, nous avons choisi dans cet article de nous concentrer sur trois caractéristiques fondamentales d'un système de gestion des autorisations : son niveau de granularité et de flexibilitéson niveau de granularité et de flexibilité, sa lisibilité et son auditabilité, et sa facilité d'administration.

Granularité et flexibilité

Tout d'abord, un système de gestion des autorisations doit avoir le bon niveau de granularité et de flexibilité. Certaines actions doivent être accessibles à l'ensemble du catalogue pour en faciliter l'utilisation. D'autres actions doivent être limitées à certaines parties du catalogue. Certains utilisateurs auront des droits globaux sur tous les objets du catalogue, tandis que d'autres seront limités à l'édition du périmètre qui leur a été attribué. Le système de gestion des permissions doit donc permettre cet éventail de possibilités, de la permission globale à la finesse d'un objet dans le catalogue.

Chez Zeenea, par exemple, nos clients sont de toutes tailles, avec des niveaux de maturité très hétérogènes en matière de gouvernance données. Certains sont des start-ups, d'autres de grandes entreprises. Certains ont une culture de la donnée déjà bien intégrée dans leurs processus, tandis que d'autres n'en sont qu'au début de leur processus d'acculturation à la donnée. Le système de gestion des autorisations doit donc être suffisamment flexible pour s'adapter à tous les types d'organisations.

Lisibilité et auditabilité

Deuxièmement, un système de gestion des autorisations doit être lisible et facile à suivre. Lors d'un audit ou d'un examen des autorisations du système, un administrateur qui explore un objet doit pouvoir déterminer rapidement qui a la capacité de le modifier. Inversement, lorsqu'un administrateur examine les détails du jeu de permissions d'un utilisateur, il doit être en mesure de déterminer rapidement le champ d'application attribué à cet utilisateur et les actions autorisées sur ce champ d'application.

Cela permet simplement de s'assurer que les bonnes personnes ont accès aux bons périmètres et qu'elles disposent du niveau d'autorisation correspondant à leur rôle dans l'entreprise.

Vous êtes-vous déjà trouvé face à un système d'autorisation si complexe qu'il était impossible de comprendre pourquoi un utilisateur était autorisé à accéder à une information ? Ou au contraire n'y parvenait pas ?

Simplicité d'administration

Enfin, un système de gestion des autorisations doit pouvoir résister à l'augmentation du volume des catalogues. Nous savons aujourd'hui que nous vivons dans un monde de données : 2,5 exaoctets de données ont été générés par jour en 2020 et on estime que 463 exaoctets de données seront générés par jour en 2025. Nouveaux projets, nouveaux produits, nouveaux usages : les entreprises doivent faire face quotidiennement à l'explosion de leur patrimoine de données.

Pour rester pertinent, un catalogue de données doit évoluer avec les données de l'entreprise. Le système de gestion des autorisations doit donc pouvoir s'adapter aux changements de contenu ou même aux mouvements des employés au sein de l'organisation.

Différentes approches de la conception d'un système de gestion des permissions pour le catalogue de données

Il existe différentes approches pour concevoir un système de gestion des permissions du catalogue de données , qui répondent plus ou moins aux principales caractéristiques attendues et mentionnées ci-dessus. Nous avons choisi d'en détailler trois dans cet article.

Crowdsourcing

Tout d'abord, l'approche du crowdsourcing - où l'on fait confiance au collectif pour s'auto-corriger. Une poignée d'administrateurs peut modérer le contenu et tous les utilisateurs peuvent contribuer à la documentation. Un système d'audit complète généralement le système pour s'assurer qu'aucune information n'est perdue par erreur ou par malveillance. Dans ce cas, il n'y a pas de contrôle avant la documentation, mais une correction collective après. C'est typiquement le système choisi par les encyclopédies en ligne telles que Wikipedia. Ces systèmes dépendent du nombre de contributeurs et de leurs connaissances pour bien fonctionner, car l'autocorrection ne peut être efficace que par le biais du collectif.

Ce système répond parfaitement au besoin de lisibilité - tous les utilisateurs ont le même niveau de droits, il n'y a donc pas de question sur le contrôle d'accès de chaque utilisateur. Il est également simple à administrer - tout nouvel utilisateur a le même niveau de droits que tous les autres, et tout nouvel objet dans le catalogue de données est accessible à tous. En revanche, il n'existe aucun moyen de gérer la granularité des droits. Tout le monde peut tout faire et tout voir.

Autorisation jointe à l'utilisateur

La deuxième approche de la conception du système de gestion des autorisations consiste à utiliser des solutions où le périmètre est attaché au profil de l'utilisateur. Lorsqu'un utilisateur est créé dans le catalogue de données, les administrateurs lui attribuent un périmètre qui définit les ressources qu'il pourra voir et modifier. Dans ce cas, tous les contrôles se font en amont et un utilisateur ne peut pas accéder à une ressource par inadvertance. C'est le type de système utilisé par un OS comme Windows par exemple.

Ce système a l'avantage d'être très sécurisé, il n'y a aucun risque qu'une nouvelle ressource soit visible ou modifiable par des personnes qui n'en ont pas le droit. Cette approche répond également au besoin de lisibilité : pour chaque utilisateur, toutes les ressources accessibles sont faciles à trouver. Le niveau de granularité attendu est également bon, puisqu'il est possible d'allouer le système de données ressource par ressource.

En revanche, l'administration est plus complexe - chaque fois qu'une nouvelle ressource est ajoutée au catalogue, elle doit être ajoutée aux périmètres des utilisateurs concernés. Il est possible de pallier cette limitation en créant des périmètres dynamiques. Pour ce faire, vous pouvez définir des règles qui assignent des ressources à des utilisateurs, par exemple tous les fichiers PDF seront accessibles à untel ou untel. Mais des règles contradictoires peuvent facilement apparaître, compliquant la lisibilité du système.

Permission attachée à la ressource

La dernière grande approche de la conception d'un système de gestion des autorisations pour un catalogue de donnéesconsiste à utiliser des solutions dans lesquelles les actions autorisées sont attachées à la ressource à modifier. Pour chaque ressource, les autorisations possibles sont définies utilisateur par utilisateur. C'est donc la ressource qui possède son propre ensemble de permissions. En regardant la ressource, il est alors possible de savoir immédiatement qui peut la voir ou la modifier. C'est par exemple le type de système d'un système d'exploitation de type UNIX.

Le besoin de lisibilité est parfaitement satisfait - un administrateur peut immédiatement voir les autorisations des différents utilisateurs lorsqu'il consulte la ressource. Il en va de même pour le besoin de granularité - cette approche permet de donner des permissions au niveau le plus macro par un système d'héritage, ou au niveau le plus micro directement sur la ressource. Enfin, en termes de facilité d'administration, il est nécessaire d'attacher chaque nouvel utilisateur aux différentes ressources, ce qui est potentiellement fastidieux. Cependant, il existe des systèmes de groupes qui peuvent atténuer cette complexité.

Le modèle de gestion des permissions du catalogue de données Zeenea : Simple, lisible et flexible

Parmi ces approches, détaillons celle choisie par Zeenea et comment elle est appliquée.

L'approche par les ressources a été privilégiée

Résumons les différents avantages et inconvénients de chacune des approches discutées ci-dessus. Dans les systèmes de gestion des autorisations utilisateur ressources et des utilisateur, le besoin de granularité est bien pris en compte - ces systèmes permettent d'attribuer des autorisations ressource par ressource. En revanche, dans le cas du crowdsourcing, la philosophie de base est que tout le monde peut accéder à tout. La lisibilité est clairement meilleure dans les systèmes de crowdsourcing ou dans les systèmes où les permissions sont attachées à la ressource. Elle reste adéquate dans les systèmes où les autorisations sont liées à l'utilisateur, mais souvent au détriment de la simplicité d'administration. Enfin, la simplicité d'administration est très optimisée pour l'approche du crowdsourcing et dépend de ce que vous allez modifier le plus - la ressource ou les utilisateurs.

Le besoin de granularité n'étant pas satisfait dans l'approche du crowdsourcing, nous l'avons éliminé. Il nous restait alors deux options : les modèles de permission basés sur les ressources ou les modèles de permission utilisateur. Comme la lisibilité est un peu meilleure avec l'autorisation basée sur les ressources et que le contenu du catalogue évoluera plus vite que le nombre d'utilisateurs, l'option de l'autorisation utilisateur nous a semblé la moins pertinente.

L'option que nous avons choisie à Zeenea est donc la troisième : les autorisations d'utilisateur sont attachées à la ressource.

Fonctionnement du système de gestion des autorisations du catalogue de données Zeenea

Dans Zeenea catalogue de données, il est possible de définir pour chaque utilisateur s'il a le droit de manipuler les objets de tout le catalogue, un ou plusieurs types d'objets, ou seulement ceux de son périmètre. Cela permet une granularité très fine, mais aussi des rôles plus globaux. Par exemple, des "super-gardiens" pourraient avoir la permission d'agir sur des parties entières du catalogue, comme le glossaire.

Nous associons ensuite à chaque objet du catalogue une liste de conservateurs, c'est-à-dire de personnes responsables de la documentation de cet objet. Ainsi, en explorant simplement les détails de l'objet, on peut immédiatement savoir qui contacter pour corriger ou compléter la documentation, ou pour répondre à une question à son sujet. Le système est donc lisible et facile à comprendre. Le champ d'action des utilisateurs est précisément déterminé par un système granulaire, jusqu'à l'objet dans le catalogue.

Lorsqu'un nouvel utilisateur est ajouté au catalogue, il est alors nécessaire de définir son champ d'action. Pour l'instant, cette configuration se fait par le biais de l'édition en bloc des objets. Afin de simplifier encore la gestion, il sera bientôt possible de définir des groupes spécifiques d'utilisateurs, de sorte que lorsqu'un nouveau collaborateur arrive, il n'est plus nécessaire de l'ajouter nominativement à chaque objet de son champ d'action. Il suffira de l'ajouter au groupe et son périmètre lui sera automatiquement attribué.

Enfin, nous avons volontairement choisi de ne pas mettre en œuvre un processus de validation de la documentation dans le catalogue. Nous pensons que la responsabilisation des équipes est l'une des clés du succès de l'adoption d'un catalogue de données . C'est pourquoi le seul contrôle que nous avons mis en place est celui qui détermine les droits et le périmètre de l'utilisateur. Une fois ces deux éléments déterminés, les responsables de la documentation sont libres d'agir. Le système est complété par un journal d'événements sur les modifications pour permettre une auditabilité complète, ainsi que par un système de discussion sur les objets. Il permet à chacun de suggérer des modifications ou de signaler des erreurs sur la documentation.

Si vous souhaitez en savoir plus sur notre modèle de gestion des autorisations ou obtenir plus d'informations sur notre catalogue de données.

logo avatar actian

À propos d'Actian Corporation

Actian facilite l'accès aux données. Notre plateforme de données simplifie la façon dont les gens connectent, gèrent et analysent les données dans les environnements cloud, hybrides et sur site . Avec des décennies d'expérience dans la gestion des données et l'analyse, Actian fournit des solutions de de haute performance qui permettent aux entreprises de prendre des décisions basées sur les données. Actian est reconnu par les principaux analystes et a reçu des prix de l'industrie pour sa performance et son innovation. Nos équipes partagent des cas d'utilisation éprouvés lors de conférences (par exemple, Strata Data) et contribuent à des projets à code source ouvert. Sur le blog d'Actian, nous abordons des sujets tels que l'ingestion de données en temps réel, l'analyse de données, la gouvernance données, la gestion des données, la qualité des données, l'intelligence des données et l'analyse pilotée par l'IA.