¿Qué hace que un catálogo de datos sea "inteligente"? #2 - El inventario de datos
Summary
- Los catálogos de datos deben gestionar de manera eficiente los crecientes volúmenes de metadatos y, al mismo tiempo, ayudar a los usuarios a encontrar rápidamente los conjuntos de datos pertinentes.
- Un catálogo de datos «inteligente» se basa en múltiples aspectos que van más allá de la inteligencia artificial, entre los que se incluyen el metamodelado, el inventario, la gestión de metadatos, la búsqueda y la experiencia del usuario.
- La automatización del inventario de datos es fundamental para evitar métodos manuales costosos y obsoletos.
- La sólida conectividad con los sistemas de origen permite la sincronización automática y el enriquecimiento de los metadatos.
- Los mecanismos inteligentes de gestión de inventario mejoran la detección de conjuntos de datos, evitan la importación de datos innecesarios y dan prioridad a los activos relevantes para los usuarios.
Un catálogo de datos aprovecha enormes cantidades de información muy diversa, y su volumen crecerá exponencialmente. Esto planteará 2 grandes retos:
- ¿Cómo alimentar y mantener el volumen de información sin triplicar (o más) el coste de la gestión de metadatos?
- How to find the most relevant datasets for any specific use case?
A data catalog should be Smart to answer these 2 questions, with smart technological and conceptual features that go wider than the sole integration of AI algorithms.
In this respect, we have identified 5 areas in which a data catalog can be “Smart” – most of which do not involve machine learning:
- Metamodeling
- The data inventory
- Metadata management
- The search engine
- User experience
La segunda forma de hacer que un catálogo de datos sea "inteligente" es a través de su inventario. Un catálogo de datos es esencialmente un inventario exhaustivo de los activos de información que incluye un montón de metadatos, lo que ayuda a aprovechar la información de la manera más eficiente posible. La creación de un catálogo de datos, por tanto, depende en primer lugar de un inventario de los activos de los distintos sistemas.
Automatizar el inventario: Los retos
Un enfoque declarativo de la creación del inventario no nos parece especialmente inteligente, por muy bien pensado que esté. Implica mucho trabajo en el lanzamiento y el mantenimiento del catálogo; en un panorama digital en rápida evolución, el esfuerzo inicial se vuelve rápidamente redundante.
El primer paso para crear un inventario inteligente es, por supuesto automatizarlo. Salvo contadas excepciones, los conjuntos de datos de las empresas son gestionados por especialistas en sistemas (que incluyen sistemas de archivo distribuidos, ERP, bases de datos relacionales, paquetes de software, almacenes de datos, etc.). Gestionan todos estos sistemas junto con todos los metadatos necesarios para que funcionen correctamente. No es necesario recrear esta información manualmente: basta con conectarse a los distintos registros y sincronizar el contenido del catálogo con los sistemas de origen.
En teoría, esto debería ser sencillo, pero llevarlo a la práctica es bastante difícil. El hecho es que no existe una norma universal a la que se ajusten las distintas tecnologías para un medio universal de acceso a sus metadatos.
El papel esencial de la conectividad con las fuentes del sistema
Una capa de conectividad inteligente es un componente clave del Catálogo de datos inteligente.Sus principales características son:
- Propietario - No dependemos de terceros para mantener una extracción altamente especializada de los metadatos.
- Distribuido - Para maximizar el alcance del catálogo.
- Abrir - Cualquiera que desee enriquecer el catálogo puede desarrollar su propio
- conectores con facilidad.
- Universal - Puede sincronizar cualquier fuente de metadatos.
Esta conectividad no sólo puede leer y sincronizar los metadatos contenidos en los registros de origen, sino que también puede producir metadatos.
Esta producción de metadatos requiere algo más que un simple acceso a los registros del sistema fuente. También requiere acceder a los propios datos, que serán analizados por nuestros escáneres para enriquecer el catálogo automáticamente.
Hasta la fecha, producimos 2 tipos de metadatos:
- Análisis estadístico: Para construir un perfil de los datos - distribución de valores, tasa de valores nulos, valores máximos, etc. (la naturaleza de los metadatos depende obviamente del tipo nativo de los datos analizados).
- Análisis estructural: Para determinar el tipo operativo de datos textuales específicos (correo electrónico, dirección postal, número de la seguridad social, código de cliente, etc. - el sistema es escalable y personalizable).
El mecanismo de inventario también debe ser inteligente
Nuestro mecanismo de inventario también es inteligente en varios sentidos:
- La detección de conjuntos de datos se basa en un amplio conocimiento de las estructuras de almacenamiento, especialmente en un contexto de Big Data. Por ejemplo, un conjunto de datos IoT compuesto por miles de archivos de medidas de series temporales puede identificarse como un conjunto de datos único (el número de archivos y su ubicación son solo metadatos).
- El inventario no está integrado por defecto en el catálogo para evitar la importación de conjuntos de datos técnicos o temporales que serían de poca utilidad (bien porque los datos no son explotables, bien porque se trata de datos duplicados).
- El proceso de selección de los activos que deben importarse en el catálogo también se beneficia de cierta ayuda: nos esforzamos por identificar los objetos más apropiados para su integración en el catálogo (con una variedad de enfoques adicionales para realizar esta selección).
Para obtener más información sobre cómo Smart Data Inventorying mejora un catálogo de datos, descargue nuestro eBook: «¿Qué es un catálogo de datos inteligente?».