ingestion de données

Formas y gráficos de datos SaaS sobre la imagen de una mujer en la tecnología

¿Qué es ingestion de données?

Antes de que los datos puedan procesarse o analizarse, deben ser ingeridos por un programa de aplicación, una plataforma de integración de datos o un sistema de gestión de bases de datos. Todas las aplicaciones funcionan en tres fases: ingesta de datos, procesamiento y salida.

Ingestión de datos en Data Warehousing y Data Science

Los almacenes de datos y el aprendizaje automático realizan análisis de datos utilizando datos que deben extraerse de uno o varios sistemas fuente. Para llevar los datos a la base de datos de análisis se utilizan procesos de preparación de datos y ETL. Los conductos de preparación de datos ingieren los datos antes de trasladarlos a los sistemas analíticos de destino. Del mismo modo, el proceso ETL(Extracción, Transformación y Carga) incluye la ingesta de datos cuando se extraen de los sistemas de datos de origen y se cargan los datos transformados en una base de datos de análisis.

Ejemplos de ingestión de datos

Ingestión de parámetros por programas de aplicación

Los programas de aplicación, las funciones y los microservicios reciben datos cuando son invocados o llamados. A la función SUMA se le puede pasar una cadena de números, que suma para devolver un valor total. Las interfaces de programación de aplicaciones (API) más modernas empleadas por las aplicaciones web pueden interrogarse para facilitar la ingestión de datos. JSON y XML permiten pasar números variables de elementos junto con una cadena delimitadora declarada.

Entrada de datos

Los datos pueden validarse a medida que las personas los introducen en formularios antes de que un programa de aplicación los acepte. La introducción manual de datos es habitual hoy en día para recoger datos de encuestas, para que las carreras registren datos médicos y para los formularios en línea.

Ingesta de registros de transacciones

Los sistemas ERP como Oracle y SAP crean registros diarios para anotar las transacciones. Los sistemas por lotes ingieren estos datos para resumir las transacciones diarias con fines de elaboración de informes y conciliación al final del día.

Datos de registro

Los sistemas informáticos, como los sitios web, registran las visitas mediante URL y datos de cookies. Los sistemas de automatización de marketing y ventas, como HubSpot, ingieren estos datos y los utilizan para asignar estas URL a empresas y relacionar los datos de las cookies con las listas de clientes potenciales existentes.

Ingestión de datos basada en la nube

El almacenamiento basado en la nube, como los buckets S3 de AWS, emulan los paradigmas de acceso a archivos del sistema operativo local y presentan API familiares para que las aplicaciones puedan ingerir datos en la nube de forma transparente como si residieran localmente.

Datos en tiempo real

Los sistemas de juegos y de negociación de acciones tienden a evitar las API de archivos y prefieren obtener los datos directamente de colas de mensajes en memoria.

Ingesta de registros de bases de datos

Los sistemas de bases de datos funcionan aceptando y analizando consultas escritas en SQL o utilizando valores clave y devolviendo como resultado un conjunto de registros que coinciden con los criterios de selección. Los registros son procesados uno a uno por la aplicación que los solicita.

Carga de datos en una base de datos

La mayoría de los proveedores de bases de datos proporcionan cargadores rápidos para cargar datos a granel utilizando múltiples flujos paralelos o pasando por alto SQL para obtener el mejor rendimiento.

Ingestión de datos en flujo

Una alternativa popular a las ingestas de datos tradicionales basadas en archivos son las fuentes de datos de flujo como AWS SNS, IBM MQ, Apache Flink y Kafka. A medida que se crean nuevos registros, se ponen inmediatamente a disposición de las aplicaciones suscritas al flujo de datos.

Ingestión de datos Edge

Los dispositivos IoT generan masas de datos que saturarían las redes corporativas y la capacidad de los servidores centrales. Los servidores de puerta de enlace o de borde ingieren datos de sensores, por ejemplo, descartan los datos menos interesantes y comprimen los datos interesantes antes de transmitirlos a los servidores centrales. Esta es una forma de pre-ingestión para optimizar la utilización de los recursos y aumentar el rendimiento de los datos en redes congestionadas.

Actian e ingestion de données

Actian Data Platform gestiona sus activos de datos desde el borde hasta la nube. La integración de datos integrada facilita la ingesta de datos proporcionando conectores preconfigurados a cientos de fuentes de datos para gestionar el canal de datos desde la ingesta de datos de origen hasta la información visualizada. Actian DataConnect admite la ingesta basada en archivos y en flujos desde JMS, Kafka, MSMQ, RabbitMQ y WebSphere MQ. La gestión centralizada de la integración de datos proporciona una orquestación centralizada de las canalizaciones de datos. El análisis de datos utiliza una ejecución de consultas altamente paralelizada para un análisis rápido.

Descargue instancias de bases de datos autogestionadas que se ejecutan on-prem o utilice Actian Data Platform en las nubes públicas de AWS, Google Cloud y Microsoft Azure.