Sin categoría

Integración de lagos de datos

Gráfico de montañas hecho a partir de patrones de código binario digital, que representa la integración de un lago de datos en un paisaje tecnológico.

Un lago de datos es un repositorio de almacenamiento de datos que almacena los datos en su totalidad -los archivos de datos se conservan en su formato nativo- hasta que se necesitan para el análisis. La integración de un lago de datos es el proceso de mover, preparar y cargar datos para su análisis en un almacén de datos. Una de las avantage de un lago de datos es que puede almacenar de forma rentable grandes cantidades de datos sin procesar, incluidos datos estructurados, semiestructurados y no estructurados, hasta que estén listos para su uso.

¿Por qué es importante la integración de los lagos de datos?

Los lagos de datos son muy útiles como depósitos de almacenamiento. La tecnología de integración hace que los datos almacenados en un lago de datos sean útiles para la empresa al crear una ruta automatizada hacia un sistema de análisis. El lago de datos proporciona una ubicación central para recopilar datos de todo tipo que pueden utilizarse para el análisis cuando sea necesario. Un lago de datos es diferente de un almacén de datos, que es ideal para analizar datos estructurados almacenados internamente. Con la tecnología de base de datos analítica adecuada, las consultas pueden ampliarse para acceder a los datos, incluidos los no estructurados, almacenados externamente en un lago de datos. En este caso, el archivo externo se registra en la base de datos y un conector envía la solicitud a la fuente de datos externa.

Integración de un lago de datos con una plateforme d'analyse

A continuación se presentan algunos enfoques que han adoptado las empresas para conectar sus lagos de datos a una solución de análisis de datos:

Almacén de datos tradicional

Para trasladar datos de un lago de datos a un almacén de datos tradicional, lo ideal es utilizar una solución de integración de datos como Actian DataConnect, que gestiona los movimientos de datos, las transformaciones y el filtrado necesarios para poner los datos en un formato adecuado para un análisis significativo.

Almacén de datos ampliado

Cuando los datos de origen en el lago de datos están en un formato listo para el análisis, como es el caso de muchos formatos de datos Hadoop, una tecnología de análisis puede ser beneficiosa. Por ejemplo, la base de datos Actian Vector puede utilizar su conector Spark integrado para acceder a más de 50 formatos de datos, incluidos los datos de archivos con formato Hadoop. Del mismo modo, Actian Data Platform puede alojar proyectos de almacén de datos y sus integraciones de datos necesarias.

Data Lakehouse

El concepto de data lakehouse combina las capacidades de análisis de datos de un almacén de datos con la función de lago de datos, que no requiere una tecnología de integración independiente. Un data lakehouse es un repositorio de datos estructurados almacenados en una base de datos en forma de tablas y también puede almacenar formatos de datos semiestructurados como cadenas JSON. Los archivos planos almacenan datos no estructurados como secuencias de vídeo, audio y texto en uno o varios sistemas de archivos. Un atalogue de données integrado almacena métadonnées que describen el formato de los datos, el linaje de las etiquetas, etc. Les connectants de données fournissent les moyens d'accéder à tous les types de données du lakehouse de données.

Funciones de integración de datos

A continuación se enumeran las capacidades esenciales de la tecnología de integración de datos:

Conectores de datos

Los lagos de datos almacenan multitud de tipos de datos y formatos de archivo. La solución de integración de datos correspondiente necesita conectores que abarquen todos los formatos necesarios. La conectividad abierta de bases de datos (ODBC) proporciona una interfaz de programación de aplicaciones (API) abierta para formatos sencillos. Spark conecta con formatos de datos más complejos utilizados por los sistemas de archivos Hadoop. La tecnología de integración ideal debería ofrecer la posibilidad de crear conectores personalizados en caso necesario. Actian DataConnect soporta cientos de conectores y proporciona un conector universal para construir conexiones con aplicaciones caseras.

pipeline de données Orquestación

Actian DataConnect y KNIME ofrecen herramientas visuales de diseño de flujos de trabajo para construir flujos de datos que trasladen los datos del lago de datos al sistema analítico de destino. Actian DataFlow se conecta a KNIME para proporcionar funciones de transformación y análisis de datos que pueden funcionar como operaciones paralelas multihilo para reducir los tiempos de ejecución.

Programación

Las soluciones de integración deben ofrecer una visión centralizada de todas las canalizaciones de datos, lo que permite a TI programar y pausar los movimientos de datos.

Gestión central

Las soluciones de integración pueden supervisar las integraciones, registrar las excepciones, gestionar los reintentos y alertar a TI sobre los fallos.

Implementación flexible

Los lagos de datos pueden residir sur site y en plataformas en la nube. Una solución de integración híbrida ofrece la máxima flexibilidad déploiement .

Ventajas de la integración de datos basada en la nube

Las ventajas de utilizar una solución de integración de datos con un lago de datos incluyen:

  • Facilita la preparación de los activos de datos en el lago de datos para su análisis.
  • Proporciona conectores listos para usar a cientos de formatos de archivo, API de aplicaciones y gestores de datos en flujo.
  • Simplifica la gestión de las canalizaciones de datos mediante la supervisión y administración centralizadas.
  • Reduce los costes de administración gracias a la posibilidad de reutilizar scripts y tener una visibilidad centralizada de los movimientos de datos.

La arquitectura data lakehouse ofrece otras ventajas, como la de proporcionar un catálogo métadonnées que describa los formatos, el linaje y la forma en que se interrelacionan los distintos conjuntos de datos.

Cómo permite Actian la integración de lagos de datos

Actian Data Platform facilita la creación de lagos de datos de haute performance con integración de datos. La plataforma utiliza una base de datos vectorizada en columnas integrada que proporciona capacidades de almacén de datos con una fracción de la sobrecarga de administración.

Actian Data Platform puede utilizar varias plataformas en la nube, incluidas AWS, Azure Cloud y Google Cloud, junto con implementaciones sur site y en entornos híbridos. La base de datos analítica Actian Vector puede acceder a datos almacenados en sistemas de archivos mediante su conector Spark, que también admite los formatos Hadoop ORC y Parquet. Se puede acceder a varias instancias de bases de datos distribuidas mediante una única consulta SQL distribuida.

La integración de datos integrada basada en Actian DataConnect puede perfilar datos, automatizar pasos de preparación de datos y admitir fuentes de datos en streaming. Los sistemas de archivos compatibles con Actian Data Platform incluyen cubos de AWS S3, carpetas de Google Drive y almacenamiento Azure Blob.