Inteligencia de datos

¿Qué hace que un catálogo de datos sea "inteligente"? #2 - El inventario de datos

Corporación Actian

16 de febrero de 2022

smart-data-catalog-2-data-inventory

Un catálogo de datos aprovecha enormes cantidades de información muy diversa, y su volumen crecerá exponencialmente. Esto planteará dos grandes retos:

  • ¿Cómo alimentar y mantener el volumen de información sin triplicar (o más) el coste de la gestión de metadatos?
  • ¿Cómo encontrar los conjuntos de datos más pertinentes para un caso de uso específico?

Un catálogo de datos debe ser inteligente para responder a estas 2 preguntas, con características tecnológicas y conceptuales inteligentes que vayan más allá de la mera integración de algoritmos de IA.

En este sentido, hemos identificado 5 áreas en las que un catálogo de datos puede ser "inteligente", la mayoría de las cuales no implican aprendizaje automático:

  1. Metamodelado
  2. El inventario de datos
  3. Gestión de metadatos
  4. El motor de búsqueda
  5. Experiencia del usuario

La segunda forma de hacer que un catálogo de datos sea "inteligente" es a través de su inventario. Un catálogo de datos es esencialmente un inventario exhaustivo de los activos de información que incluye un montón de metadatos, lo que ayuda a aprovechar la información de la manera más eficiente posible. La creación de un catálogo de datos, por tanto, depende en primer lugar de un inventario de los activos de los distintos sistemas.

Automatizar el inventario: Los retos

Un enfoque declarativo de la creación del inventario no nos parece especialmente inteligente, por muy bien pensado que esté. Implica mucho trabajo en el lanzamiento y el mantenimiento del catálogo; en un panorama digital en rápida evolución, el esfuerzo inicial se vuelve rápidamente redundante.

El primer paso para crear un inventario inteligente es, por supuesto automatizarlo. Salvo contadas excepciones, los conjuntos de datos de las empresas son gestionados por especialistas en sistemas (que incluyen sistemas de archivo distribuidos, ERP, bases de datos relacionales, paquetes de software, almacenes de datos, etc.). Gestionan todos estos sistemas junto con todos los metadatos necesarios para que funcionen correctamente. No es necesario recrear esta información manualmente: basta con conectarse a los distintos registros y sincronizar el contenido del catálogo con los sistemas de origen.

En teoría, esto debería ser sencillo, pero llevarlo a la práctica es bastante difícil. El hecho es que no existe una norma universal a la que se ajusten las distintas tecnologías para un medio universal de acceso a sus metadatos.

El papel esencial de la conectividad con las fuentes del sistema

Una capa de conectividad inteligente es una parte clave del Catálogo de Datos Inteligente. Para una descripción más detallada de la tecnología de conectividad de Actian Data Intelligence Platform, recomiendo la lectura de nuestro eBook anterior, Los 5 avances tecnológicos de un catálogo de próxima generación, pero sus principales características son:

  • Propietario - No dependemos de terceros para mantener una extracción altamente especializada de los metadatos.
  • Distribuido - Para maximizar el alcance del catálogo.
  • Abrir - Cualquiera que desee enriquecer el catálogo puede desarrollar su propio
  • conectores con facilidad.
  • Universal - Puede sincronizar cualquier fuente de metadatos.

Esta conectividad no sólo puede leer y sincronizar los metadatos contenidos en los registros de origen, sino que también puede producir metadatos.

Esta producción de metadatos requiere algo más que un simple acceso a los registros del sistema fuente. También requiere acceder a los propios datos, que serán analizados por nuestros escáneres para enriquecer el catálogo automáticamente.

Hasta la fecha, producimos 2 tipos de metadatos:

  • Análisis estadístico: Para construir un perfil de los datos - distribución de valores, tasa de valores nulos, valores máximos, etc. (la naturaleza de los metadatos depende obviamente del tipo nativo de los datos analizados).
  • Análisis estructural: Para determinar el tipo operativo de datos textuales específicos (correo electrónico, dirección postal, número de la seguridad social, código de cliente, etc. - el sistema es escalable y personalizable).

El mecanismo de inventario también debe ser inteligente

Nuestro mecanismo de inventario también es inteligente en varios sentidos:

  • La detección de conjuntos de datos se basa en un amplio conocimiento de las estructuras de almacenamiento, especialmente en un contexto de Big Data. Por ejemplo, un conjunto de datos IoT compuesto por miles de archivos de medidas de series temporales puede identificarse como un conjunto de datos único (el número de archivos y su ubicación son solo metadatos).
  • El inventario no está integrado por defecto en el catálogo para evitar la importación de conjuntos de datos técnicos o temporales que serían de poca utilidad (bien porque los datos no son explotables, bien porque se trata de datos duplicados).
  • El proceso de selección de los activos que deben importarse en el catálogo también se beneficia de cierta ayuda: nos esforzamos por identificar los objetos más apropiados para su integración en el catálogo (con una variedad de enfoques adicionales para realizar esta selección).

Para más información sobre cómo inteligente Data Inventorying mejora un Catálogo de Datos, descargue nuestro eBook: "¿Qué es un Catálogo de Datos Inteligente?".

logo avatar actian

Acerca de Actian Corporation

Actian hace que los datos sean fáciles. Nuestra plataforma de datos simplifica el modo en que las personas conectan, gestionan y analizan los datos en entornos en la nube, híbridos y locales. Con décadas de experiencia en gestión de datos y análisis, Actian ofrece soluciones de alto rendimiento que permiten a las empresas tomar decisiones basadas en datos. Actian cuenta con el reconocimiento de los principales analistas y ha recibido premios del sector por su rendimiento e innovación. Nuestros equipos comparten casos de uso probados en conferencias (por ejemplo, Strata Data) y contribuyen a proyectos de código abierto. En el blog de Actian, tratamos temas que van desde la ingesta de datos en tiempo real hasta el análisis basado en IA. Conozca al equipo directivo https://www.actian.com/company/leadership-team/