¿Qué hace que un catálogo de datos sea "inteligente"? #2 - El inventario de datos
Corporación Actian
16 de febrero de 2022

Un catálogo de datos aprovecha enormes cantidades de información muy diversa, y su volumen crecerá exponencialmente. Esto planteará dos grandes retos:
- ¿Cómo alimentar y mantener el volumen de información sin triplicar (o más) el coste de la gestión de metadatos?
- ¿Cómo encontrar los conjuntos de datos más pertinentes para un caso de uso específico?
Un catálogo de datos debe ser inteligente para responder a estas 2 preguntas, con características tecnológicas y conceptuales inteligentes que vayan más allá de la mera integración de algoritmos de IA.
En este sentido, hemos identificado 5 áreas en las que un catálogo de datos puede ser "inteligente", la mayoría de las cuales no implican aprendizaje automático:
- Metamodelado
- El inventario de datos
- Gestión de metadatos
- El motor de búsqueda
- Experiencia del usuario
La segunda forma de hacer que un catálogo de datos sea "inteligente" es a través de su inventario. Un catálogo de datos es esencialmente un inventario exhaustivo de los activos de información que incluye un montón de metadatos, lo que ayuda a aprovechar la información de la manera más eficiente posible. La creación de un catálogo de datos, por tanto, depende en primer lugar de un inventario de los activos de los distintos sistemas.
Automatizar el inventario: Los retos
Un enfoque declarativo de la creación del inventario no nos parece especialmente inteligente, por muy bien pensado que esté. Implica mucho trabajo en el lanzamiento y el mantenimiento del catálogo; en un panorama digital en rápida evolución, el esfuerzo inicial se vuelve rápidamente redundante.
El primer paso para crear un inventario inteligente es, por supuesto automatizarlo. Salvo contadas excepciones, los conjuntos de datos de las empresas son gestionados por especialistas en sistemas (que incluyen sistemas de archivo distribuidos, ERP, bases de datos relacionales, paquetes de software, almacenes de datos, etc.). Gestionan todos estos sistemas junto con todos los metadatos necesarios para que funcionen correctamente. No es necesario recrear esta información manualmente: basta con conectarse a los distintos registros y sincronizar el contenido del catálogo con los sistemas de origen.
En teoría, esto debería ser sencillo, pero llevarlo a la práctica es bastante difícil. El hecho es que no existe una norma universal a la que se ajusten las distintas tecnologías para un medio universal de acceso a sus metadatos.
El papel esencial de la conectividad con las fuentes del sistema
Una capa de conectividad inteligente es una parte clave del Catálogo de Datos Inteligente. Para una descripción más detallada de la tecnología de conectividad de Actian Data Intelligence Platform, recomiendo la lectura de nuestro eBook anterior, Los 5 avances tecnológicos de un catálogo de próxima generación, pero sus principales características son:
- Propietario - No dependemos de terceros para mantener una extracción altamente especializada de los metadatos.
- Distribuido - Para maximizar el alcance del catálogo.
- Abrir - Cualquiera que desee enriquecer el catálogo puede desarrollar su propio
- conectores con facilidad.
- Universal - Puede sincronizar cualquier fuente de metadatos.
Esta conectividad no sólo puede leer y sincronizar los metadatos contenidos en los registros de origen, sino que también puede producir metadatos.
Esta producción de metadatos requiere algo más que un simple acceso a los registros del sistema fuente. También requiere acceder a los propios datos, que serán analizados por nuestros escáneres para enriquecer el catálogo automáticamente.
Hasta la fecha, producimos 2 tipos de metadatos:
- Análisis estadístico: Para construir un perfil de los datos - distribución de valores, tasa de valores nulos, valores máximos, etc. (la naturaleza de los metadatos depende obviamente del tipo nativo de los datos analizados).
- Análisis estructural: Para determinar el tipo operativo de datos textuales específicos (correo electrónico, dirección postal, número de la seguridad social, código de cliente, etc. - el sistema es escalable y personalizable).
El mecanismo de inventario también debe ser inteligente
Nuestro mecanismo de inventario también es inteligente en varios sentidos:
- La detección de conjuntos de datos se basa en un amplio conocimiento de las estructuras de almacenamiento, especialmente en un contexto de Big Data. Por ejemplo, un conjunto de datos IoT compuesto por miles de archivos de medidas de series temporales puede identificarse como un conjunto de datos único (el número de archivos y su ubicación son solo metadatos).
- El inventario no está integrado por defecto en el catálogo para evitar la importación de conjuntos de datos técnicos o temporales que serían de poca utilidad (bien porque los datos no son explotables, bien porque se trata de datos duplicados).
- El proceso de selección de los activos que deben importarse en el catálogo también se beneficia de cierta ayuda: nos esforzamos por identificar los objetos más apropiados para su integración en el catálogo (con una variedad de enfoques adicionales para realizar esta selección).
Para más información sobre cómo inteligente Data Inventorying mejora un Catálogo de Datos, descargue nuestro eBook: "¿Qué es un Catálogo de Datos Inteligente?".
Suscríbase al blog de Actian
Suscríbase al blog de Actian para recibir información sobre datos directamente en su correo electrónico.
- Manténgase informado: reciba lo último en análisis de datos directamente en su bandeja de entrada.
- No se pierda ni una publicación: recibirá actualizaciones automáticas por correo electrónico que le avisarán cuando se publiquen nuevas publicaciones.
- Todo depende de usted: cambie sus preferencias de entrega para adaptarlas a sus necesidades.