¿Cómo refuerza un catálogo de datos los principios de la malla de datos?
Resumen
- Data Mesh is not a technology product but a decentralized organizational approach to managing analytical data.
- It is built on four main principles: domain ownership, data as a product, self-serve data infrastructure, and federated governance.
- A data catalog supports Data Mesh by giving teams a central way to discover, document, and manage distributed data products.
- It also helps make data products more discoverable, understandable, trustworthy, and easier to access.
- In a Data Mesh model, the catalog becomes a key layer for collaboration, metadata sharing, and governance across domains.
Introducción: ¿Qué es la malla de datos?
A medida que las empresas son más conscientes de la importancia de sus datos, se replantean sus estrategias de negocio para liberar todo el potencial de sus activos de información. El reto de almacenar los datos ha llevado gradualmente a la aparición de diversas soluciones: data marts, data warehouses y data lakes, para permitir la absorción de volúmenes de datos cada vez mayores. ¿El objetivo? Centralizar sus activos de datos para ponerlos a disposición del mayor número de personas y acabar con los silos de la empresa..
However, companies are still struggling to meet business needs. The speed of data production, transformation, and the growing complexity of data (nature, origin, etc.) are straining the scalability capabilities of such a centralized organization. This centralized data evolves into an ocean of information where data management teams cannot respond effectively to the demands of the business, and only a few expert teams can.
Esto es aún más cierto en un contexto en el que las empresas son el resultado de fusiones, absorciones o están organizadas en filiales. Construir una visión y una organización comunes entre todas las entidades puede ser complejo y llevar mucho tiempo.
Con esto en mente, Zhamak Dehghani desarrolló el concepto de "malla de datos", proponiendo un cambio de paradigma en la gestión de datos analíticos, con un enfoque descentralizado.
En efecto, la malla de datos no es una solución tecnológica, sino un objetivo empresarial, una "estrella polar", como la llama Mick Lévy, que hay que seguir para responder a los retos a los que se enfrentan las empresas en el contexto actual:
- Responder a la complejidad, volatilidad e incertidumbre del negocio.
- Mantener la agilidad frente al crecimiento.
- Acelerar la producción de valor, en proporción a la inversión.
Cómo facilita el catálogo de datos la aplicación de un enfoque de malla de datos
El objetivo de un catálogo de datos es mapear todos los datos de la empresa y ponerlos a disposición de los equipos técnicos y empresariales para facilitar su explotación, la colaboración en torno a sus usos y, de este modo, maximizar y acelerar la creación de valor empresarial.
En una organización como Data Mesh, donde los datos se almacenan en distintos lugares y son gestionados por diferentes equipos, el reto de un catálogo de datos es garantizar un punto de acceso central a todos los recursos de datos de la empresa.
Pero para ello, el catálogo de datos debe ser compatible con los cuatro principios fundamentales de la Malla de Datos, que son:
- Propiedad de los datos en función del dominio.
- Los datos como producto.
- Plataforma de datos de autoservicio.
- Gobernanza informática federada.
Propiedad del dominio
El primer principio de Data Mesh es descentralizar las responsabilidades en torno a los datos. En primer lugar, la empresa debe definir dominios de negocio, de forma más o menos granular, en función de su contexto y casos de uso (por ejemplo, Producción, Distribución, Logística, etc.).
Cada dominio se convierte entonces en responsable de los datos que produce. Cada uno de ellos gana autonomía para gestionar y valorizar más fácilmente los crecientes volúmenes de datos. La calidad de los datos mejora notablemente, aprovechando cualquier experiencia empresarial lo más cerca posible de la fuente.
Este planteamiento cuestiona la pertinencia de un sistema centralizado de gestión de datos maestros que ofrezca un modelo único de los datos, exhaustivo pero, en consecuencia y difícil de mantener a lo largo del tiempo..
A través del Catálogo de Datos, los equipos de negocio pueden apoyarse en él para crear un inventario de sus datos y describir su perímetro de negocio a través de un modelo orientado por los usos específicos de cada dominio.
This modeling must be accessible through a business glossary that is associated with the data catalog. This business glossary, while remaining a single source of truth, must allow the different facets of the data to be reflected according to the uses and needs of each domain.
For example, if the concept of “product” is familiar to the entire company, its attributes will not be of the same interest if it is used for logistics, design, or sales.
A graph-based business glossary will therefore be more appropriate because of its flexibility and the modeling and exploration capabilities that it offers compared to a predefined hierarchical approach. While ensuring the overall consistency of this semantic layer across the enterprise, a graph-based business glossary allows data managers to better take into account the specificities of their respective domains.
Por tanto, el catálogo de datos debe permitir que los distintos ámbitos colaboren en la definición y el mantenimiento del metamodelo y la documentación de sus activos, con el fin de garantizar su calidad.
To do this, the data catalog must also offer a suitable permission management system, to allow the responsibilities to be divided up in an unambiguous way and to allow each domain manager to take charge of the documentation of their scope.
Los datos como producto
El segundo principio de la Malla de Datos es pensar en los datos no como un activo, sino como un producto con su propia experiencia de usuario y su propio ciclo de vida. producto con su propia experiencia de usuario y ciclo de vida.. El propósito es evitar la recreación de silos en la empresa debido a la descentralización de responsabilidades.
Each domain is responsible for making one or more data products available to other domains. But beyond this company objective, thinking of data as a product allows us to have an approach centered on the expectations and needs of end users: who are the ones that consume data? In what format(s) do the users use the data? With what tools? How can we measure user satisfaction?
En efecto, con un enfoque centralizado, las empresas responden a las necesidades de los usuarios de negocio y escalan más lentamente. Por tanto, Data Mesh contribuirá a la difusión de la cultura de los datos reduciendo los pasos que hay que dar para explotarlos.
According to Zhamak Dehghani, a data product should meet different criteria, and the data catalog enables it to meet some of them:
Discoverable: The first step for a data analyst, data scientist, or any other data consumer is to know what data exists and what types of insights they can exploit. The data catalog addresses this issue through an intelligent search engine that allows for keyword searching, typing, or syntax errors, smart suggestions, and advanced filtering capabilities. The data catalog must also offer personalized exploration paths to better promote the various data products. Finally, the search and navigation experience in the catalog must be simple and based on market standards such as Google or Amazon, in order to facilitate the onboarding of non-technical users.
Comprensibles: Los datos deben ser fácilmente comprensibles y consumibles. También es una de las misiones del catálogo de datos: proporcionar todo el contexto necesario para comprender los datos. Esto incluye una descripción, conceptos de negocio asociados, clasificación, relaciones con otros productos de datos, etc. Las áreas de negocio pueden utilizar el catálogo de datos para que los consumidores sean lo más autónomos posible a la hora de comprender sus productos de datos. Un plus sería la integración con herramientas de datos o sandboxes para comprender mejor el comportamiento de los datos.
Trustworthy: Consumers need to trust in the data they use. Here again, the data catalog will play an important role. A data catalog is not a data quality tool, but the quality indicators must be able to be retrieved and updated automatically in the data catalog in order to expose them to users (completeness, update frequency, etc.). The Data Catalog should also be able to provide statistical information on the data or reconstruct the lineage of the data to understand the origin and the various transformations over time.
Accesible de forma nativa: Un producto de datos debe entregarse en el formato que esperan las distintas personas (analistas de datos, científicos de datos, etc.). Por lo tanto, un mismo producto de datos puede entregarse en varios formatos, en función de los usos y competencias de los usuarios a los que va dirigido. También debe ser fácil de interconectar con las herramientas que utilizan. En este punto, sin embargo, el catálogo no tiene ningún papel particular que desempeñar.
Valiosos: Una de las claves del éxito de un producto de datos es que pueda consumirse de forma independiente, que tenga sentido por sí mismo. Debe estar diseñado para limitar la necesidad de hacer uniones con otros productos de datos, con el fin de aportar un valor mensurable a sus consumidores.
Addressable: Once the consumer has found the data product they need in the catalog, they must be able to access it or request access to it in a simple, easy, and efficient way. To do so, the data catalog must be able to connect with policy enforcement systems that facilitate and accelerate access to the data by automating part of the work.
Seguro: Este punto está relacionado con el anterior. Los usuarios deben poder acceder a los datos de forma fácil pero segura, de acuerdo con las políticas establecidas para los derechos de acceso. También en este caso, la integración del catálogo de datos con una solución de aplicación de políticas facilita este aspecto.
Interoperables: Para facilitar los intercambios entre dominios y, una vez más, evitar los silos, los productos de datos deben cumplir las normas definidas a nivel empresarial para consumir fácilmente cualquier tipo de producto de datos e integrarlos entre sí. El catálogo de datos debe poder compartir los metadatos del producto de datos para interconectar dominios a través de API.
Infraestructura de datos de autoservicio
En una organización Data Mesh, los dominios de negocio son los responsables de poner los productos de datos a disposición de toda la empresa. Pero para lograr este objetivo, los dominios deben disponer de servicios que faciliten esta puesta en marcha y automaticen al máximo las tareas de gestión: Estos servicios deben hacer que los dominios sean lo más independientes posible de los equipos de infraestructura.
En una organización descentralizada, esta capa de servicios también ayudará a reducir costes, especialmente los relacionados con la carga de trabajo de los ingenieros de datos, recursos difíciles de encontrar.
The data catalog is part of this abstraction layer, allowing business domains to easily inventory the data sources for which they are responsible. To do this, the catalog must itself offer a wide range of connectors that support the various technologies used (storage, transformation, etc.) by the domains and automate curation tasks as much as possible.
A través de API fáciles de usar, el catálogo de datos también permite a los dominios sincronizar fácilmente sus repositorios empresariales o técnicos, conectar sus herramientas de gestión de calidad, etc.
Gobernanza informática federada
Data Mesh offers a decentralized approach to data management where domains gain some sovereignty. However, the implementation of a federated governance ensures the global consistency of governance rules, the interoperability of data products, and monitoring at the scale of the Data Mesh.
The Data Office acts more as a facilitator, transmitting governance principles and policies, than as a controller. Indeed, the CDO is no longer responsible for quality or security but is responsible for defining what constitutes quality, security, etc. The domain managers take over locally for the application of these principles.
Este cambio de paradigma es posible gracias a la automatización de la aplicación de las políticas de gobernanza. La aplicación de estas políticas se acelera así en comparación con un enfoque centralizado, ya que se realiza lo más cerca posible de la fuente.
The data catalog can be used to share governance principles and policies that can be documented or listed in the catalog, and linked to the data products to which they apply. It will also provide metadata to the systems responsible for automating the setup of the rules and policies.
Conclusión
En un entorno de datos cada vez más complejo y cambiante, Data Mesh ofrece una respuesta socio-arquitectónica alternativa a los enfoques centralizados que luchan por escalar y satisfacer las necesidades empresariales de calidad de datos y capacidad de respuesta.
The data catalog plays a central role in this organization, providing a central access portal for the discovery and sharing of data products across the enterprise, enabling business domains to easily manage their data products and deliver the metadata to automate the policies necessary for federated governance.