7 mentiras de los catálogos de datos #6: Hay que confiar en la automatización
Corporación Actian
9 de julio de 2021

El mercado de los catálogos de datos se ha desarrollado rápidamente, y ahora se considera esencial a la hora de desplegar una estrategia basada en datos. Víctima de su propio éxito, este mercado ha atraído a numerosos actores de mercados adyacentes.
Estos actores han reajustado su posicionamiento comercial para presentarse como soluciones de catálogos de datos.
La realidad es que, aunque relativamente débiles en cuanto a las funcionalidades del catálogo de datos en sí, estas empresas intentan convencer, con grados de éxito proporcionales a sus presupuestos de marketing, de que un catálogo de datos no es simplemente una herramienta de búsqueda de alto rendimiento para los equipos de datos, sino una solución integrada susceptible de abordar una gran cantidad de otros temas.
El objetivo de esta serie de blogs es deconstruir el discurso de estos proveedores de catálogos de datos de última hora.
Éstas son, en nuestra opinión, las 7 mentiras de los proveedores de Catálogos de Datos:
- Un catálogo de datos es una plataforma de gobernanza de datos.
- Un catálogo de datos puede medir y gestionar la calidad de los datos.
- Un catálogo de datos puede gestionar el cumplimiento de la normativa.
- Un catálogo de datos puede consultar los datos directamente.
- Un catálogo de datos puede modelar la arquitectura lógica y los procesos empresariales en torno a los datos.
- Un catálogo de datos es una herramienta de gestión colaborativa de cartografía y metadatos que no puede automatizarse.
- Un catálogo de datos es un proyecto largo, complejo y costoso.
Un catálogo de datos debe basarse en la automatización
Algunos proveedores de catálogos de datos, que proceden del mundo de la cartografía, han desarrollado la retórica de que la automatización es un tema secundario, que puede abordarse en una fase posterior.
Le dirán que basta con unas pocas importaciones manuales de archivos, junto con una generosa comunidad de usuarios que colabore en su herramienta para alimentar y utilizar el catálogo. Basta un poco de aritmética para entender por qué este enfoque está condenado al fracaso en una organización centrada en los datos.
Un Data Lake activo, aunque sea modesto, acumula rápidamente, en sus diferentes capas, cientos e incluso miles de conjuntos de datos. Junto a estos conjuntos de datos, se pueden añadir los procedentes de otros sistemas (aplicaciones de bases de datos, APIs diversas, CRMs, ERPs, noSQL, etc) que habitualmente queremos integrar en el catálogo.
Los órdenes de magnitud superan rápidamente los miles, a veces decenas de miles de conjuntos de datos. Cada conjunto de datos contiene decenas de campos. Los conjuntos de datos y los campos representan por sí solos varios cientos de miles de objetos (también podríamos incluir otros activos: modelos ML, cuadros de mando, informes, etc.). Para que el catálogo sea útil, no basta con inventariar esos objetos.
También hay que combinar con ellos todas las propiedades (metadatos) que permitirán a los usuarios finales encontrar, comprender y explotar estos activos. Hay varios tipos de metadatos: información técnica, clasificación empresarial, semántica, seguridad, sensibilidad, calidad, normas, usos, popularidad, contactos, etc. También en este caso, para cada activo existen decenas de propiedades.
Volver a la aritmética: En general, se trata de millones de atributos que hay que mantener.
Estos volúmenes por sí solos deberían descalificar cualquier tentación de optar por el enfoque manual. Pero hay más. El stock de activos informativos no es estático. Crece constantemente. En una organización centrada en los datos, cada día se crean conjuntos de datos, otros se mueven o cambian.
El catálogo de datos debe reflejar estos cambios.
De lo contrario, su contenido quedará permanentemente obsoleto y los usuarios finales lo rechazarán. ¿Quién va a confiar en un catálogo de datos incompleto y erróneo? Si cree que su organización puede absorber la carga y mantener su catálogo actualizado, estupendo. De lo contrario, le sugerimos que supervise lo antes posible el nivel de automatización que ofrecen las distintas soluciones que está estudiando.
¿Qué podemos automatizar en un catálogo de datos?
En términos de automatización, la capacidad más importante es el inventario.
Un catálogo de datos debe ser capaz de escanear periódicamente todas sus fuentes de datos y actualizar automáticamente el inventario de activos (conjuntos de datos, estructuras y metadatos técnicos, como mínimo) para reflejar la realidad cotidiana de los sistemas de alojamiento.
Créanos: un Catálogo de Datos que no pueda conectarse a sus fuentes de datos se volverá rápidamente inútil, porque su contenido estará siempre en duda.
Una vez completado el inventario, el siguiente reto es automatizar la alimentación del metamodelo.
Aquí, más allá de los metadatos técnicos, la automatización completa parece un poco difícil de imaginar. Aun así, es posible reducir considerablemente la carga de trabajo necesaria para el mantenimiento del metamodelo. El valor de ciertas propiedades puede determinarse simplemente aplicando reglas en el momento de la integración de los objetos en el catálogo.
También es posible sugerir valores de propiedades utilizando algoritmos más o menos sofisticados (análisis semántico, concordancia de patrones, etc.).
Por último, a menudo es posible alimentar una parte del catálogo integrando los sistemas que producen o contienen metadatos. Esto puede aplicarse, por ejemplo, a la medición de la calidad, a la información sobre el linaje, a las ontologías empresariales, etc.
Para que este enfoque funcione, el Catálogo de Datos debe ser abierto y ofrecer un conjunto completo de API que permitan actualizar los metadatos desde otros sistemas.
Para llevar
Un Catálogo de Datos maneja millones de informaciones en un panorama en constante cambio.
Mantener esta información manualmente es prácticamente imposible, o extremadamente costoso. Sin automatización, el contenido del catálogo siempre estará en duda, y los equipos de datos no lo utilizarán.
Suscríbase al blog de Actian
Suscríbase al blog de Actian para recibir información sobre datos directamente en su correo electrónico.
- Manténgase informado: reciba lo último en análisis de datos directamente en su bandeja de entrada.
- No se pierda ni una publicación: recibirá actualizaciones automáticas por correo electrónico que le avisarán cuando se publiquen nuevas publicaciones.
- Todo depende de usted: cambie sus preferencias de entrega para adaptarlas a sus necesidades.