Un data lakehouse combina el repositorio de almacenamiento de datos para la función de datos brutos de un lago de datos con un almacén de datos integrado para el procesamiento analítico. Se consideran entidades separadas, pero el data lakehouse combina los dos sistemas utilizando métadonnées y un atalogue de données para describir los conjuntos de datos y sus interrelaciones.
¿Por qué es importante el Data Lakehouse?
Antes de la aparición de la arquitectura data lakehouse, los lagos de datos y los almacenes de datos existían en silos separados, los datos debían trasladarse y transformarse de los lagos de datos a los almacenes de datos mediante canalizaciones de datos a veces complejas. Los usuarios tenían dificultades para encontrar los datos que necesitaban, lo que provocaba la infrautilización de los almacenes de datos y los lagos de datos que los alimentaban. La integración del repositorio de datos brutos y el almacén de datos en un lago de datos unificado aumenta la utilización de los datos, de modo que la empresa obtiene mucho más valor de sus activos de datos.
El data lakehouse es una respuesta a los lagos de datos, que a menudo se descuidan y olvidan, convirtiéndose en pantanos de datos. Muchas organizaciones crearon lagos de datos Hadoop en su apogeo, solo para perder administradores cualificados cuando el entusiasmo por el concepto se desvaneció, lo que llevó a su desaparición.
¿Cuáles son los componentes de un Data Lakehouse?
Almacenamiento
Un lago de datos es un repositorio de datos estructurados almacenados en un almacén de datos en forma de tablas y formatos de datos semiestructurados como cadenas JSON. Los archivos planos almacenan datos no estructurados como vídeos, archivos de audio y documentos de texto almacenados en sistemas de archivos. Estos pueden ser sistemas de archivos tradicionales en las instalaciones o almacenes de archivos en la nube como AWS S3.
El atalogue de données
El atalogue de données almacena métadonnées que describen el formato de los datos, el linaje de las etiquetas, etc. El catálogo ayuda a los usuarios a encontrar los datos que necesitan, gracias a descripciones que permiten realizar búsquedas.
Conectores de datos
Los conectores de datos proporcionan los medios para acceder a todos los tipos de datos del lago de datos. Conectores como Spark pueden acceder a múltiples formatos de datos utilizando una interfaz estándar.
Interfaces de programación de aplicaciones - API
Las aplicaciones, utilidades y herramientas informatique décisionnelle (BI) utilizan API para acceder a los datos del lago de datos.
Consumidores de Data Lakehouse
Grâce à la qualité des métadonnées contenues dans le lakehouse de données, les analysteurs de données citoyens peuvent facilement exécuter des query BI pour générer des rapports et pouvoir pouvoir en populer des dashboards visuels. Los datos son más fáciles de encontrar y cargar en el almacén de datos para su análisis. Les données liées sont liées pour qu'ils puissent les explorer sans l'aide de professionnels des données.
Controles de integridad de los datos
Los datos fiables pueden excluirse del almacén de datos o marcarse como de baja calidad en la descripción de métadonnées . Los controles de integridad referencial en el almacén de datos que aplican restricciones de claves primarias y foráneas ayudan a mantener la coherencia de las relaciones entre los datos. Los datos contenidos en sistemas de archivos pueden escanearse para detectar las corrupciones lógicas que pueden introducirse.
Gobernanza de datos
La construcción del lago de datos apoya las iniciativas de gouvernance de datos registrando quién es responsable de los datos, haciendo un seguimiento de la calidad y frescura de los datos y calificando su autoridad. La gouvernance proactiva de los datos garantiza que la organización controle la dispersión de datos al centrar a los usuarios en datos fiables.
Calidad de los datos
Los datos de baja calidad son peores que la ausencia de datos, ya que pueden dar lugar a percepciones erróneas. Los datos de alta calidad no tienen lagunas, utilizan formatos uniformes y están verificados. Mantener la calidad de los datos es un requisito fundamental de un administrador de datos.
Ventajas de un Data Lakehouse
El concepto de data lakehouse está ganando popularidad por muchas de las razones que se exponen a continuación:
- Los datos bien documentados y fáciles de encontrar tienen más probabilidades de ser utilizados en el análisis y la prise de décision.
- Al poner los datos en un lago de datos, los usuarios pueden confiar en ellos.
- Las relaciones entre distintos conjuntos de datos se detallan en un lago de datos, lo que hace más probable su consumo.
- Cumplimiento, gouvernance datos y gestion des données aumentando la confianza y reduciendo los riesgos.
- Se puede aumentar la seguridad mediante controles de acceso basados en roles y autenticación de los usuarios del lago de datos.
- Los costes de administración son menores para un único repositorio unificado que para múltiples almacenes de datos distribuidos en silos.
- El lago de datos fomenta el análisis de autoservicio porque los datos están descritos y catalogados.
- El acceso a la API hace que el lago de datos sea accesible para los modelos de aprendizaje automático (ML).
Acerca de Actian Data Platform
La flexibilidad de déploiement Actian Data Platform permite gestionar y analizar los datos in situ y en múltiples plataformas de nube pública.