Gestión de datos

Orquestación de datos

Representación abstracta de la orquestación de datos con varias formas geométricas y gráficos que simbolizan procesos de datos integrados sobre un fondo azul.

La orquestación de datos se refiere al proceso de coordinar y gestionar el flujo de datos para garantizar una interacción e integración sin fisuras entre diferentes fuentes y sistemas de datos. Una orquestación de datos eficaz mejora la accesibilidad, la calidad y la cohérence de los datos en todo el ecosistema de datos.

¿Por qué es importante la orquestación de datos?

En los primeros tiempos de la informática, los programadores de sistemas escribían utilidades para automatizar tareas que los operarios de la sala de máquinas solían realizar manualmente. Por ejemplo, montar carretes de cinta magnética, responder a las indicaciones de la consola del operador e iniciar aplicaciones. Con el tiempo, el software de automatización ha permitido a los departamentos de TI escalar eliminando la necesidad de intervención manual humana.

Los sistemas operativos ahora ejecutan secuencias de comandos de inicio para preparar los entornos informáticos para alojar aplicaciones. Las máquinas virtuales pueden emular hardware, y los contenedores han hecho que las máquinas virtuales sean portátiles entre plataformas de nube, sistemas operativos y hardware. El software de orquestación puede encadenar múltiples tareas y programar actividades, de modo que los humanos solo tengan que preocuparse de los fallos y las excepciones. Esto permite a los departamentos de TI seguir el ritmo del rápido crecimiento del volumen y la complejidad de las aplicaciones. A medida que las aplicaciones evolucionen y se basen más en componentes, su número seguirá creciendo, y la necesidad de gestionar su infraestructura será aún más crítica.

El almacenamiento de datos se basa en datos dispares procedentes de sistemas operativos internos y fuentes externas de análisis web y redes sociales. Conseguir que el almacén de datos se llene de datos limpios requiere un proceso de varios pasos. Las herramientas de orquestación ayudan a organizar y programar el pipeline de données que engloba el proceso ETL (extracción, transformación y carga).

Tareas de orquestación de datos para una aplicación de almacenamiento de datos

A continuación se presenta una selección de tareas que deben orquestarse en un flujo de trabajo de almacenamiento de datos. DataConnect es una solución de integración de datos que proporciona herramientas para construir visualmente un flujo de trabajo de orquestación de datos, como el del ejemplo siguiente.

Tareas de perfilado de datos

El perfilado de los conjuntos de datos de origen implica el análisis de los datos para comprender su tamaño, variabilidad, estructura y contenido. Las subtareas pueden incluir la identificación de registros duplicados, la agrupación de valores de datos en rangos y el cálculo previo de estadísticas de Mín, Máx, Media, Mediana, Modo, Desviación estándar, Suma y Varianza.

Paso de limpieza de datos

El perfilado de datos ayudará a identificar los delimitadores de campo, que el proceso de nettoyage des données utilizará para dar coherencia a los campos y registros de datos mediante la normalización de los tipos de datos y los formatos de archivo.

Paso de filtrado

Los valores periféricos y los datos innecesarios pueden eliminarse para evitar sesgar los resultados del análisis.

Transformación de datos Paso

A menudo es necesario transformar los datos para solucionar diversos problemas, como los campos de fecha incoherentes, como los campos numéricos que contienen símbolos de moneda y valores numéricos expresados con un número diferente de decimales. La transformación de datos puede corregir estas incoherencias. Los espacios iniciales o finales pueden uniformizarse. Los datos sensibles pueden enmascararse u ofuscarse para proteger la privacidad del cliente.

Paso de aumento de datos

Los conjuntos de datos pueden enriquecerse añadiendo valores calculados y fusionando datos relacionados de múltiples fuentes. Las lagunas también pueden colmarse añadiendo valores por defecto, extrapolando o interpolando valores de campo. Los datos de los sistemas internos pueden combinarse con datos externos de terceros para ofrecer un contexto de mercado.

Partición de datos de aprendizaje automático

Cuando los conjuntos de datos son demasiado grandes para ser leídos por un único proceso, pueden dividirse en subconjuntos y colocarse en diferentes dispositivos para una ingestión más rápida mediante ejecución paralela. Los datos pueden particionarse utilizando un rango de valores clave de alta cardinalidad o valores hash para obtener una distribución aleatoria y uniforme de los registros.

Paso de validación de datos

La validación de datos es el último paso antes de que el proceso de orquestación cargue los datos en el almacén de datos.

Paso de carga de datos

La carga de datos puede realizarse como un único subproceso para volúmenes más pequeños y como subprocesos paralelos para objetos de base de datos de gran tamaño. El proceso de carga en paralelo es en sí mismo un proceso de orquestación en el que un proceso maestro subdivide el trabajo entre varios procesos o trabajadores, cada uno de los cuales carga un subconjunto de los datos de origen.

Tareas de organización para déploiement aplicaciones

El objetivo del déploiement aplicaciones o servicios informáticos es reducir la incidencia de errores. El desarrollo moderno de aplicaciones utiliza procesos de integración y déploiement continuos (CD/CI) que garantizan el despliegue fiable de versiones de software probadas. Las metodologías de desarrollo ágil despliegan incrementos más pequeños con frecuencia.

El software de orquestación utiliza una serie de scripts para aprovisionar servidores como imágenes de hardware virtual en la nube o en las instalaciones. Las imágenes preconfiguradas del sistema operativo se recuperan a partir de copias validadas en los servidores virtuales. Los servicios de apoyo, como los servidores de aplicaciones web, se inician antes de lanzar la aplicación.

Los desarrolladores tienen la opción de utilizar servicios de contenedores como Google GKE, que pueden utilizarse para suministrar rápidamente servicios en ejecución que han sido empaquetados con todos los recursos informáticos que necesitan.

Ventajas de la orquestación de datos

Algunas de las ventajas de la orquestación son:

  • Servicios informáticos y pipeline de données más fiables gracias a la automatización.
  • La gestión basada en excepciones hace un uso eficiente de los limitados recursos informáticos.
  • Facilita la creación de nuevos procesos de orquestación utilizando los componentes existentes.

Actian y orquestación

Actian Data Platform facilita la orquestación del preprocesamiento de datos gracias a sus capacidades integradas de integración de datos. Las organizaciones pueden obtener el máximo valor de sus activos de datos disponibles porque la plataforma Actian facilita la unificación, transformación y orquestación de canalizaciones de datos.

DataConnect proporciona una plataforma de integración inteligente y de bajo código para abordar casos de uso complejos con integraciones automatizadas, intuitivas y reutilizables. DataConnect incluye un estudio gráfico para diseñar visualmente canalizaciones de datos, asignar campos de datos y transformar datos. Las canalizaciones de preparación de datos pueden gestionarse de forma centralizada, lo que reduce los costes de administración.

La base de datos Vector facilita el análisis de datos a alta velocidad gracias a su capacidad de stockage en colonnes , que minimiza la necesidad de índices de datos preexistentes.

Actian Data Platform se ejecuta sur site y en múltiples plataformas en la nube, incluidas AWS, Azure y Google Cloud, para que pueda ejecutar sus análisis dondequiera que residan sus datos.