Data Lakehouse

Un data lakehouse combina el repositorio de almacenamiento de datos de un lakehouse con un data warehouse integrado para el procesamiento analítico. métadonnées y un atalogue de données que describe los conjuntos de datos y sus interrelaciones vinculan el data lake y el data warehouse.
¿Por qué es importante el Data Lakehouse?
Antes del desarrollo del data lakehouse, los data lakes y los data warehouses existían en silos. Los usuarios tenían dificultades para encontrar los datos que necesitaban sin métadonnées y un atalogue de données. Esto llevó a la infrautilización de los almacenes de datos y los lagos de datos que alimentaban de datos a los almacenes de datos. Los ingenieros de datos trasladaban los datos de los lagos a los almacenes mediante complejas canalizaciones de extracción, transformación y carga (ETL). Cuando se unifican, se facilita una mejor utilización de los datos, lo que hace que la empresa obtenga más valor de sus datos.
¿Quiénes son los usuarios?
Los principales usuarios son ingenieros de datos y científicos de datos. Gracias a métadonnées calidad, los analistas de datos también pueden utilizarlo porque pueden encontrar más fácilmente los datos para el análisis.
¿Cuáles son los elementos clave de un Data Lakehouse?
Almacenamiento
Contiene datos estructurados almacenados en una base de datos en forma de tablas y formatos de datos semiestructurados como cadenas JSON. Los archivos planos almacenan datos no estructurados como secuencias de vídeo, audio y texto.
atalogue de données
El atalogue de données almacena métadonnées que describen el formato de los datos, el linaje de las etiquetas, etc.
Conectores de datos
Los conectores de datos proporcionan acceso a todas las fuentes de datos para ello.
APIs
Las aplicaciones, utilidades y herramientas informatique décisionnelle (BI) utilizan interfaces de programación de aplicaciones (API) para acceder a los datos que contiene.
Establecer la integridad de los datos
El almacén de datos utiliza claves primarias y foráneas para mantener la coherencia de las relaciones entre los datos, de modo que cuando se realicen cambios en los datos de un lugar, dichos cambios se reflejen en otros registros relacionados. Los datos contenidos en un sistema de archivos se basan en reglas de nettoyage des données, validación y transformación para establecer si los valores NULL son válidos. Las exploraciones de validación pueden detectar la corrupción lógica de los datos.
Gobernanza de datos
Ayuda a gouvernance datos al registrar quién es el responsable de los datos, rastrear la frescura de los datos y calificar la autoridad de los datos.
Calidad de los datos
La calidad de los datos garantiza que los usuarios puedan confiar en ellos. La calidad de los datos mide hasta qué punto un jeu de données cumple los criterios de exactitud, exhaustividad, validez, cohérence, unicidad, actualidad y adecuación a su finalidad.
Ventajas de Data Lakehouse
Proporciona muchas ventajas, entre ellas las siguientes
- La empresa obtiene más valor de los datos documentados utilizando métadonnées porque los usuarios pueden encontrarlos y utilizarlos.
- Es más accesible que un lago de datos porque éste proporciona contexto sobre cómo se relacionan los distintos conjuntos de datos.
- Fomenta una mayor gouvernance los datos, lo que mejora el cumplimiento y reduce los riesgos.
- Los controles de acceso basados en roles (RBAC) ayudan a proteger los datos en el data lakehouse.
- Centraliza la administración frente a los almacenes de datos federados y distribuidos.
- El data lakehouse fomenta el análisis de autoservicio gracias al atalogue de données integrado.
- A diferencia de un lago de datos, el data lakehouse dispone de un atalogue de données que documenta cómo se interrelacionan los distintos conjuntos de datos.
- El aprendizaje automático (ML) a menudo puede hacer mejores predicciones utilizando un lago de datos que almacene conjuntos de datos completos.
Actian y el Data Lakehouse
Actian Data Platform facilita la creación de un data lakehouse de haute performance . Su base de datos vectorizada e integrada en columnas utiliza una capacidad de consulta paralela superior a la de un almacén de datos tradicional.
Actian Data Platform es compatible con la nube híbrida y múltiple con despliegues sur site, AWS, Azure y Google Cloud. La base de datos vectorial puede acceder a datos almacenados en sistemas de archivos mediante su conector Spark y puede acceder a varias instancias de bases de datos distribuidas en una sola consulta.
Las funciones de integración de datos incorporadas pueden perfilar datos, automatizar pasos de preparación de datos y admitir fuentes de datos en streaming. Las funciones de integración de datos que ofrece Actian Data Platform funcionan con las estructuras de almacenamiento de datos más populares, como los buckets de S3, las carpetas de Google Drive y el almacenamiento Azure Blob.