¿Qué hace que un catálogo de datos sea "inteligente"? #3 - Gestión de metadatos
Corporación Actian
16 de febrero de 2022

Un catálogo de datos aprovecha enormes cantidades de información muy diversa, y su volumen crecerá exponencialmente. Esto planteará dos grandes retos:
- ¿Cómo alimentar y mantener el volumen de información sin triplicar (o más) el coste de la gestión de metadatos?
- ¿Cómo encontrar los conjuntos de datos más pertinentes para un caso de uso específico?
Un catálogo de datos debe ser inteligente para responder a estas 2 preguntas, con características tecnológicas y conceptuales inteligentes que vayan más allá de la mera integración de algoritmos de IA.
En este sentido, hemos identificado 5 áreas en las que un catálogo de datos puede ser "inteligente", la mayoría de las cuales no implican aprendizaje automático:
- Metamodelado
- El inventario de datos
- Gestión de metadatos
- El motor de búsqueda
- Experiencia del usuario
Es en el campo de la gestión de metadatos donde la noción de catálogo inteligente de datos se asocia más comúnmente con algoritmos, aprendizaje automático e IA.
¿Cómo se automatiza la gestión de metadatos?
La gestión de metadatos es la disciplina que consiste en valorar los atributos del metamodelo para los activos inventariados. La carga de trabajo necesaria suele ser proporcional al número de atributos del metamodelo y al número de activos del catálogo.
La función del catálogo inteligente de datos es automatizar esta actividad en la medida de lo posible o, como mínimo, ayudar a los operadores humanos (administradores de datos) a hacerlo para mayor productividad y fiabilidad.
Como vimos en nuestro último artículo, una capa de conectividad inteligente permite automatizar parte de los metadatos, pero esta automatización está muy restringida a un subconjunto limitado del metamodelo, en su mayoría metadatos técnicos. Un metamodelo completo, aunque sea modesto, también tiene docenas de metadatos que no se pueden extraer de los registros de los sistemas fuente (porque, para empezar, no están ahí).
Para resolver esta ecuación, hay varios enfoques posibles:
Reconocimiento de patrones
El enfoque más directo consiste en identificar patrones en el catálogo con el fin de sugerir valores de metadatos para nuevos activos.
En pocas palabras, un patrón incluirá todos los metadatos de un activo y los metadatos de sus relaciones con otros activos u otras entidades del catálogo. El reconocimiento de patrones suele realizarse con la ayuda de algoritmos de aprendizaje automático.
La dificultad de la aplicación de este enfoque estriba precisamente en cualificar los activos de información de forma numérica para alimentar los algoritmos y seleccionar los patrones pertinentes. Un simple análisis estructural no es suficiente: dos conjuntos de datos pueden contener datos idénticos pero en estructuras diferentes. Basarse en la identidad de los datos tampoco es eficaz: dos conjuntos de datos pueden contener información idéntica pero con valores diferentes. Por ejemplo facturación de clientes de 2020 en un conjunto de datos, facturación de clientes 2021 en el otro.
Para resolver este problema, la plataforma Actian Data Intelligence Platform se basa en una tecnología denominada huella digital. Para construir la huella digital, extraemos 2 tipos de características de los datos de nuestros clientes:
- Conjunto de características adaptadas a los datos numéricos (en su mayoría indicadores estadísticos).
- Datos procedentes de modelos de incrustación de palabras (vectorización de palabras) para los datos textuales.
Las huellas dactilares son la base de nuestros algoritmos inteligentes.
Otros enfoques integrados en un motor de sugerencias
Aunque el reconocimiento de patrones es un método eficaz para sugerir los metadatos de un nuevo activo en un catálogo, se basa en un requisito previo importante: para reconocer un patrón, tiene que haber uno que reconocer. En otras palabras, sólo funciona si hay varios activos en el catálogo (lo que obviamente no es el caso al inicio de un proyecto).
Y es precisamente en estas fases iniciales de un proyecto de catálogo cuando la carga de gestión de metadatos es mayor. Por lo tanto, es crucial incluir otros enfoques que puedan ayudar a los Data Stewards en estas fases iniciales, cuando un catálogo está más o menos vacío.
El motor de sugerencias de Actian Data Intelligence Platform, que proporciona algoritmos inteligentes para ayudar a la gestión de los metadatos, también ofrece otros enfoques (que enriquecemos regularmente).
He aquí algunos de estos enfoques:
- Detección de similitudes estructurales.
- Detección de similitud de huellas dactilares.
- Aproximación de nombres.
Este motor de sugerencias, que analiza el contenido del catálogo para determinar los valores probables de los metadatos de los activos que se han integrado, es objeto de experimentación permanente. Regularmente añadimos nuevos enfoques, a veces muy sencillos y a veces mucho más sofisticados. En nuestra arquitectura, se trata de un servicio dedicado cuyas prestaciones mejoran a medida que crece el catálogo y enriquecemos nuestros algoritmos.
Actian Data Intelligence Platform ha optado por utilizar el tiempo de entrega como nuestra principal métrica de medición de la productividad de los Data Stewards (que es el objetivo último de la gestión inteligente de metadatos). El plazo de entrega es una noción que proviene de gestión ajustada y que mide, en un contexto de catálogo de datos, el tiempo transcurrido entre el momento en que un activo es inventariado y el momento en que todos sus metadatos han sido valorados.
Para más información sobre cómo Smart mejora un Catálogo de Datos, descargue nuestro eBook: "¿Qué es un Catálogo de Datos Inteligente?".
Suscríbase al blog de Actian
Suscríbase al blog de Actian para recibir información sobre datos directamente en su correo electrónico.
- Manténgase informado: reciba lo último en análisis de datos directamente en su bandeja de entrada.
- No se pierda ni una publicación: recibirá actualizaciones automáticas por correo electrónico que le avisarán cuando se publiquen nuevas publicaciones.
- Todo depende de usted: cambie sus preferencias de entrega para adaptarlas a sus necesidades.