Las canalizaciones de datos forman un proceso de varios pasos que mueve y refina los datos desde los sistemas de origen, incluido un lago de datos, hasta una plataforma de datos de destino. Los pasos están en una serie donde cada uno puede ser paralelizado para acelerar el movimiento de datos a través del pipeline de données. Las canalizaciones de datos automatizan el movimiento, la transformación y la limpieza de los datos desde una fuente de datos, en su viaje hacia el repositorio de datos de destino.
¿Por qué utilizar canalizaciones de datos?
Las canalizaciones de datos proporcionan visibilidad de extremo a extremo y control sobre el flujo de datos. Esto permite crear elementos de automatización reutilizables y mejora la procedencia de los datos. El uso de procesos y herramientas estandarizados también contribuye a la gouvernance los datos.
Diferencia entre ETL Pipelines y Data Pipelines
Un pipeline de données de amplio alcance puede contener pasos de extracción, transformación y carga (ETL). Los procesos ETL terminan invariablemente en una base de datos. Puede terminar en una etapa intermedia de refinamiento, como un lago de datos.
Ventajas del uso de canalizaciones de datos
A continuación se enumeran algunas de las ventajas de utilizar canalizaciones de datos:
- Apoya un enfoque sistemático que puede automatizarse.
- Los componentes del flujo de datos pueden reutilizarse para reducir los costes de desarrollo.
- Las fuentes de datos pueden rastrearse para apoyar la procedencia de los datos.
- La visibilidad de extremo a extremo de un flujo de datos ayuda a catalogar las fuentes y los consumidores de datos.
- cohérence del proceso automatizado. Los flujos de trabajo manuales y ad hoc son más propensos a errores.
- Las canalizaciones de datos pueden anidarse para casos de uso complejos.
- Mejoran la calidad de los datos a medida que maduran los procesos.
- La confianza en las decisiones aumenta cuando se utilizan datos procedentes de canalizaciones sólidas.
Canalizaciones de datos en Actian Data Platform
La plataforma de datos Actian puede crear y programar canalizaciones de datos y cuenta con cientos de conectores predefinidos a fuentes, como Marketo, Salesforce y ServiceNow. La plataforma de datos Actian utiliza una base de datos vectorizada en columnas que supera a las alternativas en 7,9 veces. La tecnología de integración de datos está integrada para admitir canalizaciones de datos que incluyen un diseñador gráfico que permite diseñar canalizaciones de datos para conectar, perfilar, transformar y cargar datos. Los pasos de la canalización pueden programarse y ejecutarse en paralelo.
Más información sobre Actian Data Platform en: https://www.actian.com/data-platform
pipeline de données Steps
El pipeline de données consta de múltiples pasos que suelen incluir las siguientes funciones:
Acceda a
Para un análisis eficaz, las organizaciones deben recopilar datos de múltiples fuentes de datos en toda su empresa. Las fuentes de datos incluyen sistemas transaccionales, archivos de registro, sistemas de ventas y marketing, conjuntos de datos de terceros, etc. Una vez que la empresa ha decidido a qué preguntas deben responder sus análisis, necesitará identificar los repositorios de datos fuente que contienen los datos. La tecnología de integración de datos proporciona los mecanismos para conectarse a estas diversas fuentes de datos.
Perfiles de datos
Cada fuente de datos requiere un perfilado para determinar la mejor utilidad y método de acceso para su extracción. Las organizaciones acceden a los datos mediante API como ODBC y exportaciones de datos a un formato delimitado por comas desde repositorios propios. Las herramientas de creación de perfiles ayudan a determinar los volúmenes de datos, la cardinalidad y el mejor formato de datos para cada campo de datos.
ingestion de données
Los datos que aún puedan estar en varios archivos deben trasladarse ahora a un repositorio común. Los ficheros estructurados y semiestructurados pueden tener distintos formatos, como los basados en registros, los basados en documentos y los XML. Es importante que los formatos de los documentos sean lo más uniformes posible para evitar que el procesamiento pipeline de données resulte excesivamente complejo.
nettoyage des données
En este paso se abordan las lagunas e incoherencias de los datos. Antes de procesarlos, los datos se clasifican por fecha y hora. El filtrado de datos elimina los registros que no son relevantes para el análisis. Las lagunas en los datos pueden rellenarse utilizando valores por defecto apropiados o cálculos mediante extrapolación o interpolación de valores de datos adyacentes. Los valores fuera de rango y nulos pueden sesgar los resultados del análisis. Estos valores atípicos deben tratarse con cuidado para garantizar la integridad del análisis de los datos.
Formato
Cualquier variación de datos restante, como las decisiones sobre formatos de fecha, debe estandarizarse para facilitar su carga en el repositorio de plateforme d'analyse . Entre los problemas de formato más comunes se encuentran los formatos de los estados de EE.UU., cuyos nombres se escriben en un sistema mientras que en otros se utilizan abreviaturas. Las herramientas de integración de datos suelen proporcionar funciones para cambiar estos formatos, o existen rutinas sencillas de Python en GitHub para que las utilicen los ingenieros de datos.
Combinación de
Cuando los conjuntos de datos se dividen en archivos, deben fusionarse y los valores duplicados deben conciliarse.
Cargando
Los datos pueden auditarse y cargarse en la plataforma de datos de destino. Los cargadores rápidos pueden paralelizar el proceso de carga. Los datos de entrada deben ser compatibles con el modelo lógico de datos, incluidas las restricciones de integridad referencial y el diseño del esquema de la base de datos.
Paralelismo de tuberías
La paralelización se realiza dentro de una etapa del canal, ya que una etapa anterior debe completarse antes de que pueda comenzar una nueva. Los datos descienden por una tubería, etapa por etapa, hasta llegar a su destino. La subtarea más lenta limita el paralelismo de la canalización, ya que su resultado debe fusionarse con la salida de todas las demás subtareas.