Bóveda de datos

Grupo de profesionales discutiendo estrategias de bóveda de datos en torno a un portátil en una oficina moderna.

Una bóveda de datos es una metodología para organizar datos analíticos que abarca el almacenamiento de datos brutos, reglas de negocio para apoyar la transformación de datos brutos y múltiples marts de datos. La arquitectura de bóveda de datos resuelve las deficiencias inherentes a otras alternativas, como latercera forma normal, los almacenes de datos empresariales y los enfoques de diseño dimensional.

Una bóveda de datos utiliza una estructura específica centrada en tres elementos principales: concentradores, enlaces y satélites. Aquí tienes un desglose de cada uno:

Hubs: Estas tablas almacenan entidades empresariales básicas como clientes, productos o ubicaciones. Contienen un identificador único (clave de negocio) y atributos descriptivos mínimos que probablemente no cambien con frecuencia.

Enlaces: Estas tablas representan las relaciones entre los nodos. Contienen claves externas que hacen referencia a las claves de negocio de los nodos conectados. Los enlaces proporcionan el contexto de cómo se asocian las entidades entre sí.

Satélites: Estas tablas contienen datos detallados asociados a concentradores o enlaces. Incluyen varios atributos descriptivos que pueden cambiar con el tiempo. Es importante destacar que los satélites también contienen metadatos como la fuente de los datos y la fecha de carga, lo que permite un seguimiento histórico.

¿Por qué es importante una bóveda de datos?

La bóveda de datos ofrece un enfoque más flexible del almacenamiento de datos que la tradicional forma normal (3NF) y el diseño dimensional, al conservar los datos brutos originales, lo que facilita la auditoría de los cambios a lo largo del tiempo. La bóveda de reglas de negocio almacena cualquier transformación, filtro o cálculo que pueda modificarse o ampliarse fácilmente, y los data marts son simplemente vistas y algunas tablas opcionales que facilitan su modificación.

La estructura de bóveda de datos permite a una organización empezar con un número reducido de conjuntos de datos sin procesar e ir creciendo a medida que aumentan sus necesidades empresariales. La disponibilidad inmediata de la bóveda de datos sin procesar aclara el linaje de los datos. En general, este enfoque es más adecuado cuando los objetivos empresariales cambian a menudo y se necesita un control de versiones integrado.

Ventajas del diseño de una bóveda de datos

Los diseños de bóvedas de datos ofrecen varias ventajas sobre los enfoques tradicionales de almacén de datos:.

Flexibilidad

La estructura de un almacén de datos está diseñada para ser adaptable. Las nuevas fuentes de datos y campos pueden incorporarse fácilmente sin afectar al modelo existente, a diferencia de los modelos dimensionales tradicionales que requieren una refactorización significativa para los cambios.

Escalabilidad

Los almacenes de datos están diseñados para manejar volúmenes de datos cada vez mayores. Su diseño modular permite ampliarlas fácilmente a medida que aumentan las necesidades de almacenamiento de datos.

Linaje de datos

Los almacenes de datos son excelentes para seguir el historial de los datos. Cada registro se conserva, con indicadores que señalan los cambios a lo largo del tiempo. Esto es crucial para el cumplimiento de la normativa y con fines de auditoría.

Carga más rápida

Las arquitecturas de bóvedas de datos suelen permitir la carga paralela de datos debido a la ausencia de relaciones complejas entre tablas. Esto puede mejorar significativamente la velocidad de ingestión de datos.

Procesos ETL simplificados

Como la bóveda de datos no requiere un modelado previo de los datos, el proceso de extracción, transformación y carga(ETL) se agiliza. Esto reduce el tiempo de desarrollo y los esfuerzos de mantenimiento.

Actian Data Platform y Data Vault

La Plataforma de Datos Actian puede alojar un esquema de bóveda de datos con un repositorio para almacenar datos en bruto con un formato mínimo, un segundo conjunto de tablas que contienen las reglas de negocio con datos de linaje, y múltiples data marts que contienen vistas y tablas que analizan el acceso de los usuarios. La base de datos vectorial columnar proporciona funciones SQL para aplicar filtros y transformaciones a las tablas de datos brutos. Esta funcionalidad se asemeja al uso de las capacidades ELT (extraer, cargar y transformar).

Los mercados de datos resultantes pueden vincularse a soluciones de inteligencia empresarial para facilitar el análisis y la visualización de los datos. La base de datos Vector permite un alto rendimiento gracias a funciones como las consultas paralelas vectorizadas que aprovechan la aceleración a nivel de chip para ofrecer multiprocesamiento entre núcleos y almacenamiento en caché entre procesadores.