Linaje de datos en un entorno de Big Data

#Big Data #Catálogo de datos #Almacén de datos

Resumen

El linaje de datos permite realizar un seguimiento del ciclo de vida de los datos, incluyendo su origen, sus transformaciones y sus destinos finales a lo largo del tiempo.
El auge del Big Data ha complicado el seguimiento centralizado, lo que ha hecho necesarias nuevas herramientas, como los catálogos de datos, para mantener la visibilidad.
El historial a nivel de conjunto de datos pone de relieve los procesos y las fuentes específicos que dan lugar a las tablas o directorios finales.
El historial a nivel de columna ofrece información detallada, mostrando cómo se modifican los campos individuales a través de diversas acciones.

El linaje de datos se define como un tipo de ciclo de vida de los datos. Es una representación detallada de cualquier dato a lo largo del tiempo: su origen, procesos y transformaciones. Aunque no se trata de un concepto nuevo, se está produciendo un cambio de paradigma.

Obtener el linaje de datos de un Data Warehouse, por ejemplo, era una tarea bastante sencilla. Este sistema de almacenamiento centralizado permitía, "por diseño", obtener el linaje de datos a partir de los datos almacenados en el mismo lugar.

El ecosistema de datos ha evolucionado a un ritmo muy rápido desde la aparición del Big Data debido a la aparición de diversas tecnologías y sistemas de almacenamiento que complican los sistemas de información en las empresas.

Se ha hecho imposible mantener e imponer una única herramienta centralizada en las organizaciones. Los programas informáticos y métodos utilizados por los urbanistas y arquitectos de SI del "viejo mundo" son cada vez menos mantenibles, lo que convierte su trabajo en obsoleto e ilegible.

Entonces, ¿cómo se puede visualizar un linaje de datos eficiente en un entorno de Big Data?

Para tener una visión global de los datos de SI de una empresa, están surgiendo nuevas herramientas. Se trata de un catálogo de datos. Permite tratar la máxima cantidad de metadatos de todo el almacenamiento de datos a través de una interfaz fácil de usar. Al centralizar toda esta información, es posible crear un linaje de datos en un entorno Big Data a diferentes niveles:

A nivel de conjuntos de datos

Puede ser una tabla en Oracle, un tema en Kafka o incluso un directorio en el lago de datos. Un catálogo de datos destaca los procesos y conjuntos de datos que han hecho posible crear el conjunto de datos final.

Sin embargo, esta norma de linaje de datos por sí sola no permite a los usuarios de datos responder a todas sus preguntas. Entre otras, quedan estas preguntas ¿Qué ocurre con los datos sensibles? ¿Qué columnas se crearon y con qué procesos? etc.

A nivel de columna

Una forma más granular de abordar este tema es representar las diferentes etapas de transformación de un conjunto de datos en una línea de tiempo de acciones/eventos. Al seleccionar un campo específico, los usuarios podrán ver qué columnas y acciones lo crearon.

Acerca del autor