Inteligencia de datos

Linaje de datos en un entorno de Big Data

Corporación Actian

1 de marzo de 2018

linaje de datos

El linaje de datos se define como un tipo de ciclo de vida de los datos. Es una representación detallada de cualquier dato a lo largo del tiempo: su origen, procesos y transformaciones. Aunque no se trata de un concepto nuevo, se está produciendo un cambio de paradigma.

Obtener el linaje de datos de un almacén de datos, por ejemplo, era una tarea bastante sencilla. Este sistema de almacenamiento centralizado permitía, "por diseño", obtener el linaje de datos a partir de los datos almacenados en el mismo lugar.

El ecosistema de datos ha evolucionado a un ritmo muy rápido desde la aparición del Big Data debido a la aparición de diversas tecnologías y sistemas de almacenamiento que complican los sistemas de información en las empresas.

Se ha hecho imposible mantener e imponer una única herramienta centralizada en las organizaciones. Los programas informáticos y métodos utilizados por los urbanistas y arquitectos de SI del "viejo mundo" son cada vez menos mantenibles, lo que convierte su trabajo en obsoleto e ilegible.

Entonces, ¿cómo se puede visualizar un linaje de datos eficiente en un entorno de Big Data?

Para tener una visión global de los datos de SI de una empresa, están surgiendo nuevas herramientas. Se trata de un catálogo de datos. Permite tratar la máxima cantidad de metadatos de todos los almacenamientos de datos a través de una interfaz de fácil manejo. Al centralizar toda esta información, es posible crear un linaje de datos en un entorno de Big Data a diferentes niveles:

A nivel de conjuntos de datos

Puede ser una tabla en Oracle, un tema en Kafka o incluso un directorio en el lago de datos. Un catálogo de datos destaca los procesos y conjuntos de datos que han hecho posible crear el conjunto de datos final.

Sin embargo, esta norma de linaje de datos por sí sola no permite a los usuarios de datos responder a todas sus preguntas. Entre otras, quedan estas preguntas ¿Qué ocurre con los datos sensibles? ¿Qué columnas se crearon y con qué procesos? etc.

A nivel de columna

Una forma más granular de abordar este tema es representar las diferentes etapas de transformación de un conjunto de datos en una línea de tiempo de acciones/eventos. Al seleccionar un campo específico, los usuarios podrán ver qué columnas y acciones lo crearon.

logo avatar actian

Acerca de Actian Corporation

Actian hace que trabajar con datos sea fácil. Nuestra plataforma de datos simplifica la forma en que las personas conectan, gestionan y analizan datos en entornos cloud, híbridos y locales. Con décadas de experiencia en gestión y analítica de datos, Actian ofrece soluciones de alto rendimiento que ayudan a las empresas a tomar decisiones basadas en datos. Estamos reconocidos por los principales analistas del sector y hemos recibido premios por nuestro rendimiento e innovación. Nuestros equipos comparten casos de éxito en conferencias (como Strata Data) y contribuyen activamente a proyectos de código abierto. En el blog de Actian tratamos temas como la ingesta de datos en tiempo real, el análisis de datos, la gobernanza y gestión de datos, la calidad de los datos, la inteligencia de datos y el análisis impulsado por IA.