Plataforma de datos

Plataforma Data Lakehouse

encontrar abundante información en un lago de datos

¿Qué es una plataforma Data Lakehouse y por qué es importante?

Si se almacenan todos los conjuntos de datos en un único repositorio sin descripciones adecuadas, se corre el riesgo de acabar con un "pantano de datos" en desuso. Los conjuntos de datos necesitan información descriptiva —como metadatos— que permita a los usuarios encontrarlos, utilizarlos y, en última instancia, confiar en ellos. Mantener lagos de datos y almacenes de datos en silos resulta ineficiente, ya que los datos deben trasladarse al almacén para poder analizarlos. Unificar ambas funciones en una única plataforma de tipo data lakehouse permite agilizar los flujos de datos y ofrece un acceso más inmediato a la información del repositorio.

¿Quién utiliza la plataforma Data Lakehouse?

Los ingenieros de datos utilizan el lago de datos para preparar los datos para los científicos de datos que analizan los datos utilizando el almacén de datos integrado. Los analistas de datos y los analistas de datos ciudadanos pueden utilizar el data lakehouse en virtud de los métadonnées que hace que los conjuntos de datos sean fáciles de encontrar, acceder y relacionar.

¿Cuáles son los componentes de la Plataforma Lakehouse?

Almacenamiento de datos

El lago de datos almacena una gran variedad de tipos de datos. Los conjuntos de datos pueden ser tablas de bases de datos para datos estructurados y semiestructurados, planos, estructurados y no estructurados.

métadonnées Catálogo

métadonnées en el lago de datos etiquetan y describen los distintos conjuntos de datos para facilitar su localización y uso.

Conectores de datos

Es fácil acceder a los datos estructurados del lago de datos mediante un lenguaje de consulta estructurado (SQL). Los datos semiestructurados, no estructurados y propietarios requieren conectores como Spark para acceder a ellos.

Acceso a las API

Las herramientas de informatique décisionnelle (BI) para el análisis de datos y los programas de aplicación requieren interfaces de programación de aplicaciones (API) para acceder a los datos almacenados en el lago de datos. Por ejemplo, SQL, REST y ODBC.

¿Cómo se compara una plataforma Data Lakehouse con una malla de datos y un tejido de datos?

Los lagos de datos eran una idea candente hace diez años. Aparecieron como una evolución del almacén de datos empresarial centralizado porque podían almacenar más tipos de datos, como vídeo, transcripciones, imágenes de gran tamaño y archivos de audio. Sin embargo, las empresas descubrieron que limitarse a recopilar datos sin catalogarlos adecuadamente los convertía en un vertedero de datos.

El data lakehouse es un enfoque más reciente que pretende crear un repositorio más utilizable que un lago de datos, que perfila los datos y los documenta para hacerlos más susceptibles de ser utilizados.

El tejido de datos mantiene los datos distribuidos, proporcionando una única interfaz de usuario virtual centralizada con propiedad y administración de datos centralizadas.

Una malla de datos utiliza un conjunto federado de servicios de productos de datos específicos de un dominio con administración y propiedad de datos a nivel de dominio. La malla de datos es un modelo entre iguales en el que los dominios comparten datos horizontalmente.

Integridad de los datos

Mantener la integridad de los datos es importante, lo que significa que los datos deben cumplir las propiedades de atomicité, cohérence, isolement, y durabilité (ACID). Las relaciones entre los datos deben expresarse indicando los valores clave para evitar resultados engañosos en las consultas de unión. Los cambios en los conjuntos de datos deben supervisarse y gestionarse para mantener la integridad de los datos y evitar la corrupción lógica de los mismos.

Calidad de los datos y gouvernance

Una avantage de la buena gouvernance los datos es su calidad. Los datos deben estar actualizados y actualizados para garantizar que se corrigen y depuran los errores. Los datos de alta calidad se convierten en datos fiables.

Ventajas de una plataforma Data Lakehouse

El concepto de data lakehouse ha ganado popularidad debido a muchas de las ventajas que se enumeran a continuación:

  • Las organizaciones pueden utilizar el lago de datos para extraer más valor de sus activos de datos existentes.
  • Los usuarios del data lakehouse disfrutan de una mayor calidad de datos que los de un data lake porque los datos se perfilan para obtener información sobre su volumen, puntualidad y precisión.
  • El lago de datos puede imponer la gouvernance los datos.
  • El repositorio centralizado puede aumentar la seguridad al permitir el acceso basado en funciones.
  • Un lago de datos es más fácil de administrar y utiliza los recursos de forma más eficiente que los almacenes de datos distribuidos.
  • La plataforma Data Lakehouse promueve el autoservicio analítico proporcionando un catálogo y métadonnées para ayudar a los usuarios a encontrar los conjuntos de datos adecuados para su análisis.
  • La tecnología de bases de datos adecuada puede mejorar significativamente la velocidad de acceso a los datos en comparación con un lago de datos.
  • Los distintos conjuntos de datos pueden relacionarse entre sí en un data lakehouse, a diferencia de lo que ocurre en un lago de datos.
  • El aprendizaje automático se beneficia de un lago de datos en la medida en que se pueden extraer conjuntos de datos completos frente a subconjuntos o agregaciones que suelen encontrarse en un almacén de datos tradicional.

Creación de un lago de datos con Actian

Actian Data Platform facilita la creación de un lakehouse que se puede implementar on-premise, en AWS, Azure y Google Cloud. La analítica de datos de la plataforma Actian utiliza un motor de base de datos de procesamiento vectorial en columnas para agilizar las consultas. Los datos pueden centralizarse o distribuirse gracias a consultas que pueden abarcar instancias de bases de datos.

Las funciones de integración de datos incorporadas pueden perfilar datos, automatizar pasos de preparación de datos y admitir fuentes de datos en flujo. Las capacidades de integración de datos integradas en Actian Data Platform incluyen un conector Spark para acceder a datos no estructurados y trabajar con estructuras de almacenamiento de datos populares, incluidos buckets S3, carpetas de Google Drive y almacenamiento Azure Blob.