Un catálogo de datos inteligente, imprescindible para los responsables de datos
Corporación Actian
26 de agosto de 2020

El término "catálogo de datos inteligente" se ha convertido en una palabra de moda en los últimos meses. Sin embargo, cuando se habla de que algo es "inteligente", la mayoría de la gente piensa automáticamente, y con razónen un catálogo de datos con capacidades de aprendizaje automático.
No creemos que un catálogo de datos inteligente se reduzca a tener únicamente funciones de ML.
Hay muchas formas diferentes de ser "inteligente". Este artículo se centra en la conferencia que Guillaume Bodet impartió en el Data Innovation Summit 2020: "Catálogos de datos inteligentes, una necesidad para los líderes".
Definición rápida de catálogo de datos
Definimos un catálogo de datos como:
Un inventario detallado de todos los activos de datos de una organización y sus metadatos, diseñado para ayudar a los profesionales de datos a encontrar rápidamente los datos más apropiados para cualquier propósito empresarial analítico.
Un catálogo de datos está pensado para servir a diferentes personas o usuarios finales. Todos estos usuarios finales tienen diferentes expectativas, necesidades, perfiles y formas de entender los datos. Estos usuarios finales son analistas de datos, administradores de datos, científicos de datos, analistas de negocio y muchos más. Como cada vez son más las personas que utilizan y trabajan con datos, un catálogo de datos debe ser inteligente para todos los usuarios finales.
¿A qué se refiere un "activo de datos"?
Un activo, desde el punto de vista financiero, suele aparecer en el balance con una estimación de valor. Cuando nos referimos a los activos de datos, es tan importante, incluso más en algunos casos, que otros activos de la empresa. El problema es que no siempre se conoce el valor de los activos de datos.
Sin embargo, hay muchas formas de aprovechar el valor de sus datos. Existe la posibilidad de que las empresas utilicen directamente el valor de sus datos, como por ejemplo vendiéndolos o comerciando con ellos. Muchas organizaciones lo hacen; limpian los datos, los estructuran y luego proceden a venderlos.
Las empresas también pueden obtener valor indirectamente de sus datos. Los activos de datos permiten a las organizaciones:
- Innovar para obtener nuevos productos/servicios.
- Mejorar el rendimiento general.
- Mejorar el posicionamiento del producto.
- Comprender mejor los mercados/clientes.
- Aumentar la eficacia operativa.
Las empresas de alto rendimiento son las que dominan su panorama de datos y explotan sus activos de datos en todos los aspectos de su actividad.
Lo difícil de los catálogos de datos
Cuando su empresa maneja miles de datos, eso suele significar que posiblemente esté tratando con:
- Centenares de sistemas que almacenan datos internos (almacenes de datos, aplicaciones, lagos de datos, almacenes de datos, API, etc.), así como datos externos procedentes de socios.
- 1.000s de conjuntos de datos, modelos y visualizaciones (activos de datos) que se componen de miles de campos.
- Y estos campos contienen millones de atributos (o metadatos).
Por no hablar de los cientos de usuarios que los utilizan...
Esto plantea dos cuestiones diferentes:
¿Cómo puedo construir, mantener y hacer cumplir la calidad de mi información para que mis usuarios finales confíen en mi catálogo? |
¿Cómo puedo encontrar rápidamente activos de datos para casos de uso específicos? |
La respuesta está en los catálogos de datos inteligentes
Creemos que un catálogo de datos debe ser "inteligente" en cinco aspectos fundamentales. Debe ser inteligente en su:
- Diseño: La forma en que los usuarios exploran el catálogo y consumen la información.
- Experiencia del usuario: Cómo se adapta a los distintos perfiles.
- Inventarios: Proporciona una forma inteligente y automática de realizar inventarios.
- Motor de búsqueda: Soporta las diferentes expectativas y da sugerencias inteligentes.
- Gestión de metadatos: Catálogo que etiqueta y vincula datos mediante funciones de ML.
Pasemos a detallar cada una de estas áreas:
Un diseño inteligente
Gráfico de conocimiento
Un catálogo de datos con diseño inteligente utiliza grafos de conocimiento en lugar de ontologías estáticas (una forma de clasificar la información, la mayoría de las veces construida como una jerarquía). El problema de las ontologías es que son muy difíciles de construiry mantener, y normalmente sólo determinados tipos de perfiles comprenden realmente las distintas clasificaciones.
En cambio, un grafo de conocimiento es lo que representa los distintos conceptos de un catálogo de datos y lo que vincula los objetos entre sí mediante enlaces semánticos o estáticos. La idea de un grafo de conocimiento es construir una red de objetos y, lo que es más importante, crear relaciones semánticas o funcionales entre los distintos activos del catálogo.
Básicamente, un catálogo de datos inteligente proporciona a los usuarios una forma de encontrar y comprender objetos relacionados.
Metamodelos adaptativos
En un catálogo de datos, los usuarios encontrarán cientos de propiedades diferentes, algunas de las cuales no son relevantes para algunos usuarios. Normalmente, se gestionan dos tipos de información:
- Entidades: Objetos planos, entradas de glosario, definiciones, modelos, políticas, descripciones, etc.
- Propiedades: Los atributos que pones en las entidades (cualquier información adicional como fecha de creación, fecha de última actualización, etc.)
El diseño del metamodelo debe estar al servicio del consumidor de datos. Debe adaptarse a los nuevos casos de negocio y ser lo suficientemente sencillo de gestionar como para que los usuarios puedan mantenerlo y comprenderlo. Y si es fácil crear nuevos tipos de objetos y conjuntos de atributos, ¡puntos extra!
Atributos semánticos
La mayoría de las veces, en un catálogo de datos, los atributos del metamodelo son propiedades técnicas. Algunos de los atributos de un objeto incluyen tipos genéricos como texto, número, fecha, lista de valores, etcétera. Aunque es necesario tener esta información, no es del todo suficiente porque no tienen información sobre la semántica, o el significado. La razón por la que esto es importante es porque con esta información, el catálogo puede adaptar la visualización del atributo y mejorar las sugerencias a los usuarios.
En conclusión, el diseño de un catálogo de datos no es único y debe evolucionar con el tiempo para adaptarse a nuevas áreas de datos y casos de uso.
Una experiencia de usuario inteligente
Como ya se ha dicho, un catálogo de datos contiene mucha información y los usuarios finales suelen tener dificultades para encontrar la que les interesa. Las expectativas difieren según los perfiles. Un científico de datos esperará información estadística, mientras que un responsable de cumplimiento espera información sobre diversas políticas normativas.
Con una experiencia de usuario inteligente y adaptable, un catálogo de datos presentará la información más relevante a usuarios finales específicos. La jerarquía de la información y los resultados de búsqueda ajustados en un catálogo de datos inteligente se basan en:
- Preferencias estáticas: Ya conocidas en el catálogo de datos si el perfil está más enfocado a la ciencia de datos, informática, etc.
- Perfiles dinámicos: Para saber qué suele buscar el usuario final, sus intereses y cómo ha utilizado el catálogo en el pasado.
Un sistema de inventario inteligente
La adopción de un catálogo de datos se basa en la confianza, y ésta sólo puede darse si su contenido es preciso. Dado que el panorama de los datos se mueve a gran velocidad, debe estar conectado a los sistemas operativos para mantener el primer nivel de información sobre los metadatos de sus activos de datos.
El catálogo debe sincronizar su contenido con el contenido real de los sistemas operativos.
La arquitectura típica de un catálogo consiste en disponer de escáneres que exploren sus sistemas operativos y traigan y sincronicen información de diversas fuentes (Big Data, noSQL, Cloud, Data Warehouse, etc.). La idea es tener conectividad universal para que las empresas puedan escanear cualquier tipo de sistema automáticamente y establecerlos en el gráfico de conocimiento.
En Actian Data Intelligence Platform, existe una capa de automatización para devolver la información de los sistemas al catálogo. Puede:
- Actualizar los activos para reflejar los cambios físicos.
- Detectar activos borrados o movidos.
- Resolver vínculos entre objetos.
- Aplicar reglas para seleccionar el conjunto adecuado de atributos y definir los valores de los atributos.
Un motor de búsqueda inteligente
En un catálogo de datos, el motor de búsqueda es una de las características más importantes. Distinguimos dos tipos de búsqueda:
- Búsqueda de alta intención: El usuario final ya sabe lo que busca y dispone de información precisa sobre su consulta. Ya conoce el nombre del conjunto de datos o sabe dónde se encuentra. Las búsquedas de baja intención suelen ser utilizadas por personas más expertas en datos.
- Búsqueda de baja intención: El usuario final no está exactamente seguro de lo que busca, pero quiere descubrir lo que podría utilizar para su contexto. Las búsquedas se realizan a través de palabras clave y los usuarios esperan que aparezcan los resultados más relevantes.
Un catálogo de datos inteligente debe admitir ambos tipos de búsquedas
También debe proporcionar un filtrado inteligente. Es un complemento necesario para la experiencia de búsqueda del usuario (especialmente en búsquedas de baja intención), ya que le permite acotar los resultados de su búsqueda excluyendo atributos que no son relevantes. Al igual que muchas grandes empresas como Google, Booking.com y Amazon, las opciones de filtrado deben adaptarse al contenido de la búsqueda y al perfil del usuario para que aparezcan los resultados más pertinentes.
Gestión inteligente de metadatos
La gestión inteligente de metadatos suele ser lo que llamamos el "catálogo de datos aumentado", el catálogo que tiene capacidades de aprendizaje automático que le permitirán detectar determinados tipos de datos, aplicar etiquetas o reglas estadísticas sobre los datos.
Una forma de hacer inteligente la gestión de metadatos es aplicar el reconocimiento de patrones de datos. El reconocimiento de patrones de datos hace referencia a la capacidad de identificar activos similares y se basa en algoritmos estadísticos y capacidades de ML que se derivan de otros sistemas de reconocimiento de patrones.
Este sistema de reconocimiento de patrones de datos ayuda a los administradores de datos a establecer sus metadatos:
- Identificar duplicados y copiar metadatos.
- Detectar tipos de datos lógicos (correos electrónicos, ciudad, direcciones, etc.).
- Sugerir valores de atributos (reconocer patrones de documentación para aplicarlos a un objeto similar o a uno nuevo).
- Sugerir enlaces - semánticos o de linaje.
- Detectar posibles errores para ayudar a mejorar la calidad y pertinencia del catálogo.
También ayuda a los consumidores de datos a encontrar sus activos. La idea es utilizar algunas técnicas derivadas de las recomendaciones basadas en contenidos que se encuentran en los catálogos de uso general. Cuando el usuario haya encontrado algo, el catálogo le sugerirá alternativas basadas tanto en su perfil como en el reconocimiento de patrones.
Comience su viaje por el catálogo de datos
Actian Data Intelligence Platform es una solución 100% basada en la nube, disponible en cualquier parte del mundo con solo unos clics. Al elegir el catálogo de datos de Actian Data Intelligence Platform, controle los costes asociados a la implementación y el mantenimiento de un catálogo de datos, al tiempo que simplifica el acceso de sus equipos.
Los mecanismos de alimentación automática, así como los algoritmos de sugerencia y corrección, reducen los costes globales de un catálogo y garantizan a sus equipos de datos una información de calidad en un tiempo récord.
Suscríbase al blog de Actian
Suscríbase al blog de Actian para recibir información sobre datos directamente en su correo electrónico.
- Manténgase informado: reciba lo último en análisis de datos directamente en su bandeja de entrada.
- No se pierda ni una publicación: recibirá actualizaciones automáticas por correo electrónico que le avisarán cuando se publiquen nuevas publicaciones.
- Todo depende de usted: cambie sus preferencias de entrega para adaptarlas a sus necesidades.