¿Qué es un pipeline de données?
Un pipeline de données données es un conjunto de pasos de procesamiento que mueven datos de un sistema de origen a un sistema de destino. Los pasos del pipeline de données données son secuenciales porque la salida de un paso es la entrada de los pasos siguientes. El procesamiento de datos dentro de cada paso puede realizarse en paralelo para reducir el tiempo de procesamiento. La primera etapa del pipeline de données données suele ser la ingesta. El último paso es la inserción o carga en una base de datos analítica en tiempo real. base de données analytique.
Los conductos de datos controlan el flujo de datos como un proceso bien definido que apoya gouvernance datos. También crean oportunidades de reutilización a la hora de construir futuras canalizaciones. Los componentes reutilizables pueden perfeccionarse con el tiempo, lo que agiliza déploiement y mejora la fiabilidad. Las canalizaciones de datos permiten instrumentar y supervisar de forma centralizada todo el flujo de datos para reducir los gastos generales de gestión. La automatización del flujo de datos también reduce la carga de trabajo.
pipeline de données Ejemplo
Los pasos pipeline de données nées variarán en función del tipo de datos y de las herramientas utilizadas. A continuación se presenta una secuencia representativa de los pasos para identificar las fuentes adecuadas y los pasos del proceso de pipeline de données :
- Identificación de datos - Los catálogos de datos ayudan a identificar posibles fuentes de datos para el análisis requerido. En general, se utilizan para poblar un almacén de datos específico, como un plateforme de données client cuyas fuentes de datos son bien conocidas. Los catálogos de datos también contienen métadonnées sobre la calidad y fiabilidad de los datos, que pueden utilizarse como criterios de selección.
- Creación de perfiles - La creación de perfiles ayuda a comprender los formatos de los datos y a generar las secuencias de comandos adecuadas para la ingestion de données. En ocasiones, los datos brutos deben exportarse al formato delimitado por comas, ya que el acceso directo es complicado.
- ingestion de données - Las fuentes de datos pueden incluir sistemas operativos, clics web, publicaciones en redes sociales y archivos de registro. La tecnología de integración de datos puede proporcionar conectores predefinidos, lotes y API de flujo. Los archivos semiestructurados pueden necesitar formatos especiales de registro JSON o XML. La ingesta puede realizarse por lotes o microlotes, ya que los registros se crean como flujos.
- Normalización - Se pueden filtrar los duplicados y rellenar los huecos con valores por defecto o calculados. Los datos pueden clasificarse en orden de clave primaria, convirtiéndose más tarde en la clave natural de una tabla de base de datos por columnas. En este paso pueden tratarse los valores atípicos y nulos.
- Formato - Los datos tienen que ser coherentes utilizando un formato uniforme. Los retos de formato incluyen cómo se escriben los estados de EE.UU., deletreados o como un par de letras.
- Fusión - Es posible que se necesiten varios ficheros para construir un único registro. Cualquier conflicto debe gestionarse durante el paso de fusión y reconciliación de datos.
- Carga - El repositorio de análisis o la base de datos es el objetivo habitual de este último paso pipeline de données . Se pueden utilizar cargadores paralelos para cargar datos como múltiples flujos. El archivo de entrada debe dividirse antes de una carga paralela para evitar que el archivo único sea un cuello de botella para el rendimiento. Deben asignarse suficientes núcleos de processeur a la carga para maximizar el rendimiento y reducir el tiempo total transcurrido para la operación de carga.
Aspectos esenciales para un robusto pipeline de données
A continuación se indican algunas características deseables de la plataforma tecnológica que utiliza el pipeline de données :
-
- déploiement híbrido en la nube y en local.
- Trabaja con herramientas CDC para sincronizar con las fuentes de datos.
- Compatibilidad con múltiples proveedores de nube.
- Compatibilidad con formatos de archivo de big data heredados, como Hadoop.
- La tecnología de integración de datos incluye conectores a las fuentes de datos más populares.
- Herramientas de supervisión para ver y ejecutar pasos pipeline de données .
- Procesamiento paralelo en cada paso del proceso.
- Tecnología de perfilado de datos para construir flujos de trabajo de big data más rápidamente.
- Capacidades ETL y ELT para que los datos puedan manipularse dentro y fuera del almacén de datos de destino.
- Funciones de transformación de datos.
- Generación de valores por defecto.
- Gestión de excepciones para procesos fallidos.
- Comprobación de la integridad de los datos para validar que están completos al final de cada paso.
- Herramientas gráficas para construir canalizaciones.
- Facilidad de mantenimiento.
- Codification des données au repos et en volant.
- Enmascaramiento de datos para el cumplimiento de la normativa.
Ventajas del uso de canalizaciones de datos
Algunas de las ventajas de utilizar un pipeline de données son las siguientes:
- Las canalizaciones fomentan la reutilización de componentes y el perfeccionamiento gradual.
- Permite instrumentar, supervisar y gestionar el proceso de principio a fin. Los pasos fallidos pueden alertarse, mitigarse y reintentarse.
- La reutilización acelera los tiempos de desarrollo y prueba de las tuberías.
- La utilización de las fuentes de datos puede controlarse para retirar los datos no utilizados.
- Se puede catalogar el uso de los datos, así como a los consumidores.
- Los futuros proyectos de integración de datos pueden evaluar los conductos existentes para las conexiones basadas en bus o hub.
- Las canalizaciones de datos fomentan la calidad y la gouvernance los datos.
- Unas canalizaciones de datos sólidasdécisions éclairées tomar mejores decisiones.
pipeline de données FAQs
A continuación encontrará las respuestas a algunas de las preguntas más frecuentes sobre la arquitectura de pipeline de données y pipeline de données .
¿Cuál es la diferencia entre ETL y un pipeline de données?
"ETL" es un proceso que consiste en extraer, transformar y cargar información. En lugar de ser diferente de los pipelines pipeline de données datos, el proceso ETL es simplemente una forma en que un pipeline de données puede obtener datos desde la fuente hasta su destino final.
¿Cuáles son las tres etapas principales de un pipeline de données?
Las principales etapas de un pipeline de données son la obtención, el tratamiento y la carga. Esto significa esencialmente encontrar la fuente de información, procesar esa información para que esté en consonancia con la forma en que almacena sus datos, y transferir esa información a su destino.
la forma en que almacenas tus datos, y transferir esa información a su destino.
¿Cómo será el futuro de las canalizaciones de datos?
Las innovaciones pueden llevar a las canalizaciones de datos en una variedad de nuevas direcciones. Actualmente, el futuro previsto incluirá una mayor integración de la inteligencia artificial (IA), la descentralización del almacenamiento de datos para facilitar el acceso y la rápida escalabilidad, y la introducción de modelos informáticos sin servidor.
para facilitar el acceso y la escalabilidad rápida, y la introducción de modelos informáticos sin servidor.
Canalización de datos en Actian
Actian Data Platform cuenta con una sofisticada tecnología de integración de datos para la creación de canalizaciones de datos. Los conectores incluidos pueden acceder a cientos de fuentes de datos. Un estudio de diseño gráfico le permite diseñar canalizaciones de datos para conectar, perfilar, extraer, transformar y cargar (proceso ETL) datos. Actian Data Platform utiliza una base de datos columnar para ofrecer respuestas más rápidas sin tener que preocuparse por la creación previa y el mantenimiento de índices para una velocidad de consulta óptima.
Actian es compatible con clústeres y funciona in situ y en múltiples plataformas de almacenamiento en la nube pública, como Google Cloud, Azure y AWS. Póngase en contacto con nosotros hoy mismo para obtener más información sobre cómo podemos satisfacer sus necesidades pipeline de données .
Principales conclusiones