¿Qué hace que un catálogo de datos sea "inteligente"? #3 - Gestión de metadatos
Summary
- Una gestión inteligente de los metadatos ayuda a reducir el trabajo manual necesario para enriquecer y mantener un catálogo de datos.
- La automatización puede gestionar algunos metadatos técnicos, pero los metadatos empresariales siguen necesitando asistencia inteligente por parte de los administradores de datos.
- El reconocimiento de patrones y la identificación de huellas se utilizan para sugerir valores de metadatos mediante la identificación de similitudes entre los activos.
- Otros métodos, como la similitud estructural y la coincidencia de nombres, resultan útiles, sobre todo cuando el catálogo aún es pequeño.
- El objetivo principal es reducir el tiempo que transcurre entre el descubrimiento de un activo y su documentación completa.
A data catalog harnesses enormous amounts of very diverse information, and its volume will grow exponentially. This will raise 2 major challenges:
- ¿Cómo alimentar y mantener el volumen de información sin triplicar (o más) el coste de la gestión de metadatos?
- How to find the most relevant datasets for any specific use case?
Un catálogo de datos debe ser inteligente para responder a estas 2 preguntas, con características tecnológicas y conceptuales inteligentes que vayan más allá de la mera integración de algoritmos de IA.
In this respect, we have identified 5 areas in which a data catalog can be “Smart” – most of which do not involve machine learning:
- Metamodeling
- The data inventory
- Metadata management
- The search engine
- User experience
Es en el campo de la gestión de metadatos donde la noción de catálogo inteligente de datos se asocia más comúnmente con algoritmos, aprendizaje automático e IA.
¿Cómo se automatiza la gestión de metadatos?
La gestión de metadatos es la disciplina que consiste en valorar los atributos del metamodelo para los activos inventariados. La carga de trabajo necesaria suele ser proporcional al número de atributos del metamodelo y al número de activos del catálogo.
La función del catálogo inteligente de datos es automatizar esta actividad en la medida de lo posible o, como mínimo, ayudar a los operadores humanos (administradores de datos) a hacerlo para mayor productividad y fiabilidad.
Como vimos en nuestro último artículo, una capa de conectividad inteligente permite automatizar parte de los metadatos, pero esta automatización está muy restringida a un subconjunto limitado del metamodelo, en su mayoría metadatos técnicos. Un metamodelo completo, aunque sea modesto, también tiene docenas de metadatos que no se pueden extraer de los registros de los sistemas fuente (porque, para empezar, no están ahí).
Para resolver esta ecuación, hay varios enfoques posibles:
Reconocimiento de patrones
El enfoque más directo consiste en identificar patrones en el catálogo con el fin de sugerir valores de metadatos para nuevos activos.
En pocas palabras, un patrón incluirá todos los metadatos de un activo y los metadatos de sus relaciones con otros activos u otras entidades del catálogo. El reconocimiento de patrones suele realizarse con la ayuda de algoritmos de aprendizaje automático.
La dificultad de la aplicación de este enfoque estriba precisamente en cualificar los activos de información de forma numérica para alimentar los algoritmos y seleccionar los patrones pertinentes. Un simple análisis estructural no es suficiente: dos conjuntos de datos pueden contener datos idénticos pero en estructuras diferentes. Basarse en la identidad de los datos tampoco es eficaz: dos conjuntos de datos pueden contener información idéntica pero con valores diferentes. Por ejemplo facturación de clientes de 2020 en un conjunto de datos, facturación de clientes 2021 en el otro.
Para resolver este problema, la plataforma Actian Data Intelligence Platform se basa en una tecnología denominada huella digital. Para construir la huella digital, extraemos 2 tipos de características de los datos de nuestros clientes:
- Conjunto de características adaptadas a los datos numéricos (en su mayoría indicadores estadísticos).
- Datos procedentes de modelos de incrustación de palabras (vectorización de palabras) para los datos textuales.
Las huellas dactilares son la base de nuestros algoritmos inteligentes.
Otros enfoques integrados en un motor de sugerencias
Aunque el reconocimiento de patrones es un método eficaz para sugerir los metadatos de un nuevo activo en un catálogo, se basa en un requisito previo importante: para reconocer un patrón, tiene que haber uno que reconocer. En otras palabras, sólo funciona si hay varios activos en el catálogo (lo que obviamente no es el caso al inicio de un proyecto).
Y es precisamente en estas fases iniciales de un proyecto de catálogo cuando la carga de gestión de metadatos es mayor. Por lo tanto, es crucial incluir otros enfoques que puedan ayudar a los Data Stewards en estas fases iniciales, cuando un catálogo está más o menos vacío.
El motor de sugerencias de la plataforma Actian Data Intelligence, que ofrece algoritmos inteligentes para facilitar la gestión de los metadatos, también proporciona otras funciones (que ampliamos periódicamente).
He aquí algunos de estos enfoques:
- Detección de similitudes estructurales.
- Detección de similitud de huellas dactilares.
- Aproximación de nombres.
Este motor de sugerencias, que analiza el contenido del catálogo para determinar los valores probables de los metadatos de los activos que se han integrado, es un tema de constante experimentación. Incorporamos regularmente nuevos enfoques, a veces muy sencillos y otras mucho más sofisticados. En nuestra arquitectura, se trata de un servicio específico cuyo rendimiento mejora a medida que crece el catálogo y enriquecemos nuestros algoritmos.
Actian Data Intelligence Platform ha decidido utilizar el tiempo de entrega como nuestra principal métrica de medición de la productividad de los administradores de datos (que es el objetivo final de la gestión inteligente de metadatos). El tiempo de ejecución es un concepto que proviene de la gestión lean y que mide, en el contexto de un catálogo de datos, el tiempo transcurrido entre el momento en que se inventaría un activo y el momento en que se han valorado todos sus metadatos.
Para obtener más información sobre cómo la gestión inteligente mejora un catálogo de datos, descargue nuestro eBook: «¿Qué es un catálogo de datos inteligente?».