Linaje de datos en un entorno de Big Data
El linaje de datos se define como un tipo de ciclo de vida de los datos. Es una representación detallada de cualquier dato a lo largo del tiempo: su origen, procesos y transformaciones. Aunque no se trata de un concepto nuevo, se está produciendo un cambio de paradigma.
Obtener el linaje de datos de un Data Warehouse, por ejemplo, era una tarea bastante sencilla. Este sistema de almacenamiento centralizado permitía, "por diseño", obtener el linaje de datos a partir de los datos almacenados en el mismo lugar.
El ecosistema de datos ha evolucionado a un ritmo muy rápido desde la aparición del Big Data debido a la aparición de diversas tecnologías y sistemas de almacenamiento que complican los sistemas de información en las empresas.
Se ha hecho imposible mantener e imponer una única herramienta centralizada en las organizaciones. Los programas informáticos y métodos utilizados por los urbanistas y arquitectos de SI del "viejo mundo" son cada vez menos mantenibles, lo que convierte su trabajo en obsoleto e ilegible.
Entonces, ¿cómo se puede visualizar un linaje de datos eficiente en un entorno de Big Data?
Para tener una visión global de los datos de SI de una empresa, están surgiendo nuevas herramientas. Se trata de un catálogo de datos. Permite tratar la máxima cantidad de metadatos de todo el almacenamiento de datos a través de una interfaz fácil de usar. Al centralizar toda esta información, es posible crear un linaje de datos en un entorno Big Data a diferentes niveles:
Sin embargo, esta norma de linaje de datos por sí sola no permite a los usuarios de datos responder a todas sus preguntas. Entre otras, quedan estas preguntas ¿Qué ocurre con los datos sensibles? ¿Qué columnas se crearon y con qué procesos? etc.