¿Cómo refuerza un catálogo de datos los principios de la malla de datos?
Corporación Actian
2 de noviembre de 2022

Introducción: ¿Qué es la malla de datos?
A medida que las empresas son más conscientes de la importancia de sus datos, se replantean sus estrategias de negocio para liberar todo el potencial de sus activos de información. El reto de almacenar los datos ha llevado gradualmente a la aparición de diversas soluciones: data marts, data warehouses y data lakes, para permitir la absorción de volúmenes de datos cada vez mayores. ¿El objetivo? Centralizar sus activos de datos para ponerlos a disposición del mayor número de personas y acabar con los silos de la empresa..
Sin embargo, las empresas siguen luchando por satisfacer las necesidades del negocio. La velocidad de producción y transformación de los datos y su creciente complejidad (naturaleza, origen, etc.) están poniendo a prueba las capacidades de escalabilidad de una organización tan centralizada. Estos datos centralizados evolucionan hacia un océano de información en el que los equipos de gestión de datos no pueden responder eficazmente a las demandas de la empresa y sólo unos pocos equipos de expertos pueden hacerlo.
Esto es aún más cierto en un contexto en el que las empresas son el resultado de fusiones, absorciones o están organizadas en filiales. Construir una visión y una organización comunes entre todas las entidades puede ser complejo y llevar mucho tiempo.
Con esto en mente, Zhamak Dehghani desarrolló el concepto de "malla de datos", proponiendo un cambio de paradigma en la gestión de datos analíticos, con un enfoque descentralizado.
En efecto, la malla de datos no es una solución tecnológica, sino un objetivo empresarial, una "estrella polar", como la llama Mick Lévy, que hay que seguir para responder a los retos a los que se enfrentan las empresas en el contexto actual:
- Responder a la complejidad, volatilidad e incertidumbre del negocio.
- Mantener la agilidad frente al crecimiento.
- Acelerar la producción de valor, en proporción a la inversión.
Cómo facilita el catálogo de datos la aplicación de un enfoque de malla de datos
El objetivo de un catálogo de datos es mapear todos los datos de la empresa y ponerlos a disposición de los equipos técnicos y empresariales para facilitar su explotación, la colaboración en torno a sus usos y, de este modo, maximizar y acelerar la creación de valor empresarial.
En una organización como Data Mesh, donde los datos se almacenan en distintos lugares y son gestionados por diferentes equipos, el reto de un catálogo de datos es garantizar un punto de acceso central a todos los recursos de datos de la empresa.
Pero para ello, el catálogo de datos debe ser compatible con los cuatro principios fundamentales de la Malla de Datos, que son:
- Propiedad de los datos en función del dominio.
- Los datos como producto.
- Plataforma de datos de autoservicio.
- Gobernanza informática federada.
Propiedad del dominio
El primer principio de Data Mesh es descentralizar las responsabilidades en torno a los datos. En primer lugar, la empresa debe definir dominios de negocio, de forma más o menos granular, en función de su contexto y casos de uso (por ejemplo, Producción, Distribución, Logística, etc.).
Cada dominio se convierte entonces en responsable de los datos que produce. Cada uno de ellos gana autonomía para gestionar y valorizar más fácilmente los crecientes volúmenes de datos. La calidad de los datos mejora notablemente, aprovechando cualquier experiencia empresarial lo más cerca posible de la fuente.
Este planteamiento cuestiona la pertinencia de un sistema centralizado de gestión de datos maestros que ofrezca un modelo único de los datos, exhaustivo pero, en consecuencia y difícil de mantener a lo largo del tiempo..
A través del Catálogo de Datos, los equipos de negocio pueden apoyarse en él para crear un inventario de sus datos y describir su perímetro de negocio a través de un modelo orientado por los usos específicos de cada dominio.
Este modelado debe ser accesible a través de un glosario empresarial que se asocie al catálogo de datos. Este glosario de negocio, sin dejar de ser una única fuente de verdad, debe permitir reflejar las diferentes facetas de los datos en función de los usos y necesidades de cada dominio.
Por ejemplo, si el concepto de "producto" es familiar para toda la empresa, sus atributos no tendrán el mismo interés si se utiliza para la logística, el diseño o las ventas.
Por lo tanto, un glosario empresarial basado en gráficos será más apropiado por su flexibilidad y sus capacidades de modelización y exploración que ofrece en comparación con un enfoque jerárquico predefinido. Al tiempo que garantiza la coherencia global de esta capa semántica en toda la empresa, un glosario empresarial basado en grafos permite a los gestores de datos tener más en cuenta las especificidades de sus respectivos ámbitos.
Por tanto, el catálogo de datos debe permitir que los distintos ámbitos colaboren en la definición y el mantenimiento del metamodelo y la documentación de sus activos, con el fin de garantizar su calidad.
Para ello, el catálogo de datos también debe ofrecer un sistema de gestión de permisos adecuado, que permita repartir las responsabilidades de forma inequívoca y que cada gestor de dominio se encargue de la documentación de su ámbito.
Los datos como producto
El segundo principio de la Malla de Datos es pensar en los datos no como un activo, sino como un producto con su propia experiencia de usuario y su propio ciclo de vida. producto con su propia experiencia de usuario y ciclo de vida.. El propósito es evitar la recreación de silos en la empresa debido a la descentralización de responsabilidades.
Cada dominio es responsable de poner uno o varios productos de datos a disposición de otros dominios. Pero más allá de este objetivo empresarial, pensar en los datos como un producto nos permite tener un enfoque centrado en las expectativas y necesidades de los usuarios finales¿quiénes son los que consumen los datos? ¿en qué formato(s) los utilizan los usuarios? ¿con qué herramientas? ¿cómo podemos medir la satisfacción de los usuarios?
En efecto, con un enfoque centralizado, las empresas responden a las necesidades de los usuarios de negocio y escalan más lentamente. Por tanto, Data Mesh contribuirá a la difusión de la cultura de los datos reduciendo los pasos que hay que dar para explotarlos.
Según Zhamak Dehghani, un producto de datos debe cumplir distintos criterios, y el catálogo de datos permite cumplir algunos de ellos:
Descubribles: El primer paso para un analista de datos, un científico de datos o cualquier otro consumidor de datos es saber qué datos existen y qué tipos de información pueden explotar. El catálogo de datos aborda esta cuestión a través de un motor de búsqueda inteligente que permite la búsqueda por palabras clave, errores tipográficos o de sintaxis, sugerencias inteligentes y capacidades de filtrado avanzadas. El catálogo de datos también debe ofrecer rutas de exploración personalizadas para promocionar mejor los distintos productos de datos. Por último, la experiencia de búsqueda y navegación en el catálogo debe ser sencilla y basarse en estándares de mercado como Google o Amazon, para facilitar la incorporación de usuarios sin conocimientos técnicos.
Comprensibles: Los datos deben ser fácilmente comprensibles y consumibles. También es una de las misiones del catálogo de datos: proporcionar todo el contexto necesario para comprender los datos. Esto incluye una descripción, conceptos de negocio asociados, clasificación, relaciones con otros productos de datos, etc. Las áreas de negocio pueden utilizar el catálogo de datos para que los consumidores sean lo más autónomos posible a la hora de comprender sus productos de datos. Un plus sería la integración con herramientas de datos o sandboxes para comprender mejor el comportamiento de los datos.
De confianza: Los consumidores necesitan confiar en los datos que utilizan. También en este caso, el catálogo de datos desempeñará un papel importante. Un catálogo de datos no es una herramienta de calidad de datos, pero los indicadores de calidad deben poder recuperarse y actualizarse automáticamente en el catálogo de datos para exponerlos a los usuarios (integridad, frecuencia de actualización, etc.). El catálogo de datos también debe poder proporcionar información estadística sobre los datos o reconstruir el linaje de los datos, para comprender el origen y las distintas transformaciones de los mismos a lo largo del tiempo.
Accesible de forma nativa: Un producto de datos debe entregarse en el formato que esperan las distintas personas (analistas de datos, científicos de datos, etc.). Por lo tanto, un mismo producto de datos puede entregarse en varios formatos, en función de los usos y competencias de los usuarios a los que va dirigido. También debe ser fácil de interconectar con las herramientas que utilizan. En este punto, sin embargo, el catálogo no tiene ningún papel particular que desempeñar.
Valiosos: Una de las claves del éxito de un producto de datos es que pueda consumirse de forma independiente, que tenga sentido por sí mismo. Debe estar diseñado para limitar la necesidad de hacer uniones con otros productos de datos, con el fin de aportar un valor mensurable a sus consumidores.
Direccionable: Una vez que el consumidor ha encontrado en el catálogo el producto de datos que necesita, debe poder acceder a él o solicitar su acceso de forma sencilla, fácil y eficaz. Para ello, el catálogo de datos debe poder conectarse con sistemas de aplicación de políticas que faciliten y aceleren el acceso a los datos automatizando parte del trabajo.
Seguro: Este punto está relacionado con el anterior. Los usuarios deben poder acceder a los datos de forma fácil pero segura, de acuerdo con las políticas establecidas para los derechos de acceso. También en este caso, la integración del catálogo de datos con una solución de aplicación de políticas facilita este aspecto.
Interoperables: Para facilitar los intercambios entre dominios y, una vez más, evitar los silos, los productos de datos deben cumplir las normas definidas a nivel empresarial para consumir fácilmente cualquier tipo de producto de datos e integrarlos entre sí. El catálogo de datos debe poder compartir los metadatos del producto de datos para interconectar dominios a través de API.
Infraestructura de datos de autoservicio
En una organización Data Mesh, los dominios de negocio son los responsables de poner los productos de datos a disposición de toda la empresa. Pero para lograr este objetivo, los dominios deben disponer de servicios que faciliten esta puesta en marcha y automaticen al máximo las tareas de gestión: Estos servicios deben hacer que los dominios sean lo más independientes posible de los equipos de infraestructura.
En una organización descentralizada, esta capa de servicios también ayudará a reducir costes, especialmente los relacionados con la carga de trabajo de los ingenieros de datos, recursos difíciles de encontrar.
El catálogo de datos forma parte de esta capa de abstracción, permitiendo a los dominios de negocio inventariar fácilmente las fuentes de datos de las que son responsables. Para ello, el propio catálogo debe ofrecer una amplia gama de conectores compatibles con las distintas tecnologías utilizadas (almacenamiento, transformación, etc.) por los dominios y automatizar al máximo las tareas de curación.
A través de API fáciles de usar, el catálogo de datos también permite a los dominios sincronizar fácilmente sus repositorios empresariales o técnicos, conectar sus herramientas de gestión de calidad, etc.
Gobernanza informática federada
Data Mesh ofrece un enfoque descentralizado de la gestión de datos en el que los dominios adquieren cierta soberanía. Sin embargo, la aplicación de una gobernanza federada garantiza la coherencia global de las normas de gobernanza, la interoperabilidad de los productos de datos y la supervisión a escala de la malla de datos.
La Oficina de Datos actúa más como facilitador, transmitiendo principios y políticas de gobernanza, que como controlador. De hecho, la CDO ya no es responsable de la calidad o la seguridad, sino responsable de definir lo que constituye calidad, seguridad, etc.. Los gestores de dominio asumen localmente la aplicación de estos principios.
Este cambio de paradigma es posible gracias a la automatización de la aplicación de las políticas de gobernanza. La aplicación de estas políticas se acelera así en comparación con un enfoque centralizado, ya que se realiza lo más cerca posible de la fuente.
El catálogo de datos puede utilizarse para compartir principios y políticas de gobernanza que pueden documentarse o enumerarse en el catálogo, y vincularse a los productos de datos a los que se aplican. También proporcionará metadatos a los sistemas responsables de automatizar el establecimiento de las normas y políticas.
Conclusión
En un entorno de datos cada vez más complejo y cambiante, Data Mesh ofrece una respuesta socio-arquitectónica alternativa a los enfoques centralizados que luchan por escalar y satisfacer las necesidades empresariales de calidad de datos y capacidad de respuesta.
El catálogo de datos desempeña un papel fundamental en esta organización, ya que proporciona un portal de acceso central para descubrir y compartir productos de datos en toda la empresa, permite a los dominios empresariales gestionar fácilmente sus productos de datos y proporciona los metadatos para automatizar las políticas necesarias para la gobernanza federada.
Suscríbase al blog de Actian
Suscríbase al blog de Actian para recibir información sobre datos directamente en su correo electrónico.
- Manténgase informado: reciba lo último en análisis de datos directamente en su bandeja de entrada.
- No se pierda ni una publicación: recibirá actualizaciones automáticas por correo electrónico que le avisarán cuando se publiquen nuevas publicaciones.
- Todo depende de usted: cambie sus preferencias de entrega para adaptarlas a sus necesidades.