Intelligence des données

Data Shopping Part 1 - Comment acheter des produits de données

Actian Corporation

17 juin 2024

Tout comme l'achat de biens en ligne implique de sélectionner des articles, de les ajouter à un panier et de choisir les options de livraison et de paiement, le processus d'acquisition de données au sein des organisations a évolué de la même manière. À l'ère des produits et des maillages de données, les places de marché internes de données permettent aux utilisateurs professionnels de rechercher, de découvrir et d'accéder aux données pour leurs cas d'utilisation.

Dans cette série d'articles, obtenez un extrait de notre Guide pratique du maillage de données et découvrez tout ce qu'il y a à savoir sur le magasinage de données ainsi que sur l'expérience de magasinage de données de la plateforme Actian Data Intelligence dans son marché de données d'entreprise (Enterprise Data Marketplace) :

  1. Comment acheter des produits de données.
  2. L'expérience du Data Shopping.

Comme indiqué plus haut, toutes les places de marché classiques proposent une expérience de "paiement" très similaire, qui est familière à de nombreuses personnes. Les produits sélectionnés sont placés dans un panier, puis, lors de la validation du panier, l'acheteur se voit proposer différentes options de livraison et de paiement.

La livraison proprement dite est généralement effectuée en dehors de la place de marché, qui offre des fonctionnalités de suivi. La livraison peut être immédiate (pour les produits numériques) ou différée (pour les produits physiques). Certaines places de marché disposent de leur propre système logistique, mais la plupart du temps, la livraison relève de la responsabilité du vendeur. Le délai de livraison est un élément important de la satisfaction des clients : plus il est court, plus les utilisateurs sont satisfaits.

Comment cette expérience d'achat se traduit-elle dans un marché de données d'entreprise ? Pour répondre à cette question, nous devons examiner ce que signifie la fourniture de données dans un contexte commercial et, pour cela, nous concentrer sur le consommateur de données.

La fourniture de produits de données

Un produit de données offre un ou plusieurs protocoles de consommation - ce sont ses ports de sortie. Ces protocoles peuvent varier d'un produit de données à l'autre, en fonction de la nature des données - les données en temps réel, par exemple, peuvent offrir un protocole de streaming , tandis que les données plus statiques peuvent offrir une interface SQL (et des instructions pour utiliser cette interface à partir de divers langages de programmation ou d'outils de visualisation interne ).

Pour les besoins de consommation interactive, par exemple dans une application, le produit de données peut également offrir des API de consommation, qui peuvent à leur tour adhérer à une norme (REST, GraphQL, OData, etc.). Il est également possible de télécharger simplement les données dans un format de fichier.

Certains consommateurs peuvent intégrer le produit de données dans leurs propres pipelines pour créer d'autres produits de données ou des utilisations de plus haut niveau. D'autres peuvent simplement consommer les données une fois, par exemple pour entraîner un modèle de ML. Il leur appartient de choisir le protocole le mieux adapté à leur cas d'usage.

Quels que soient les protocoles choisis, ils ont tous une caractéristique essentielle : ils sont sécurisés. C'est l'une des règles universelles de la gouvernance : l'accès aux données doit être contrôlé et les droits d'accès surveillés.

A quelques exceptions près, l'acte d'achat consiste donc simplement à accéder aux données via l'un des protocoles de consommation.

Gestion des droits d'accès aux produits de données

Cependant, dans le monde des données, la gestion de l'accès n'est pas une affaire simple, et ce pour une raison élémentaire : la consommation de données est un acte risqué.

Certains produits de données peuvent être désensibilisés - en supprimant d'une manière ou d'une autre les données personnelles ou sensibles qui présentent le plus de risques. Mais cette désensibilisation ne peut pas être appliquée à l'ensemble du portefeuille de produits : sinon, l'organisation se prive de la possibilité d'exploiter des données qui ont pourtant une grande valeur (telles que les données financières ou RH sensibles, les données commerciales, les données de marché, les données personnelles des clients, etc.) D'une manière ou d'une autre, le contrôle d'accès est donc une activité critique pour le développement et l'adoption généralisée du maillage de données.

Dans la logique de décentralisation du maillage de données, l'évaluation des risques et l'octroi de jetons d'accès devraient être effectués par le propriétaire du produit de données, qui en assure la gouvernance et la conformité. Cela implique non seulement d'approuver la demande d'accès, mais aussi de déterminer toutes les transformations de données nécessaires pour se conformer à une utilisation particulière. Cette activité est connue sous le nom d'application de la politique.

L'évaluation d'une demande d'accès implique l'analyse de trois dimensions :

  • Les données elles-mêmes (certaines comportent plus de risques que d'autres) - le quoi.
  • Le demandeur, son rôle et sa localisation (les aspects géographiques peuvent avoir un impact important, en particulier au niveau réglementaire) - le "qui".
  • L'objectif - le pourquoi.

Sur la base de cette analyse, les données peuvent être consommées en l'état ou nécessiter une transformation avant livraison (filtrage des données, notamment pour les données non couvertes par le consentement, anonymisation de certaines colonnes, obscurcissement d'autres, etc.) Parfois, des formalités supplémentaires doivent être accomplies - par exemple, l'adhésion à un contrat de redistribution pour les données acquises auprès d'un tiers, ou le respect des politiques de conservation et de droit à l'oubli, etc.

D'un point de vue technique, la fourniture de données peut prendre différentes formes en fonction des technologies et des protocoles utilisés pour les exposer.

Pour les données moins sensibles, il peut suffire d'accorder un accès en lecture seule, ce qui implique de déclarer un utilisateur supplémentaire. Pour les données sensibles, un contrôle fin des autorisations est nécessaire, au niveau des colonnes et des lignes. La plupart des plateformes données modernessupport mécanismes natifs permettant d'appliquer des règles d'accès complexes par le biais d'une configuration simple - généralement à l'aide de balises de données et d'un moteur de mise en œuvre de la politique. La mise en place des droits d'accès implique la création de la politique appropriée ou l'intégration d'un nouveau consommateur dans une politique existante. Pour les technologies plus anciennes qui ne support pas support contrôle d'accès suffisamment granulaire, il peut être nécessaire de créer un pipeline spécifique pour transformer les données afin de garantir la conformité, de les stocker dans un espace dédié et d'accorder au consommateur l'accès à cet espace.

Il s'agit bien entendu d'une approche longue et potentiellement coûteuse, qui peut être optimisée en migrant vers une plateforme de données prenant en charge un modèle de sécurité plus granulaire ou en investissant dans une solution d'application de politiques tierce qui prend en charge la plateforme existante.

Achat de données sur une place de marché interne

Au final, sur une place de marché de données, la livraison des données, qui est au cœur de l'expérience du consommateur, se traduit par un flux de travail plus ou moins complexe, mais dont les principales étapes sont les suivantes :

  • Le consommateur soumet une demande d'accès - en décrivant précisément l'usage qu'il entend faire des données.
  • Le propriétaire des données évalue cette demande - dans certains cas, il peut s'appuyer sur des experts en matière de risques ou de réglementation ou exiger des validations supplémentaires - et détermine les règles d'accès requises.
  • Un ingénieur du domaine ou de l'équipe "Infra & Tooling" met en place l'accès - cette opération peut être plus ou moins complexe selon les technologies utilisées.

L'achat pour le consommateur consiste à déclencher ce flux de travail à partir de la place de marché.

Pour la place de marché d'Actian Data Intelligence Platform, nous avons choisi de ne pas intégrer ce flux de travail directement dans la solution, mais plutôt de l'interfacer avec des solutions externes.

Dans notre prochain article, découvrez l'expérience de magasinage de données de la plateforme d'intelligence de données Actian et les choix technologiques qui nous distinguent.

logo avatar actian

À propos d'Actian Corporation

Actian facilite l'accès aux données. Notre plateforme de données simplifie la façon dont les gens connectent, gèrent et analysent les données dans les environnements cloud, hybrides et sur site . Avec des décennies d'expérience dans la gestion des données et l'analyse, Actian fournit des solutions de de haute performance qui permettent aux entreprises de prendre des décisions basées sur les données. Actian est reconnu par les principaux analystes et a reçu des prix de l'industrie pour sa performance et son innovation. Nos équipes partagent des cas d'utilisation éprouvés lors de conférences (par exemple, Strata Data) et contribuent à des projets à code source ouvert. Sur le blog d'Actian, nous couvrons des sujets allant de l'ingestion de données en temps réel à l'analyse pilotée par l'IA.