Ingesta de datos
¿Qué es ingestion de données?
Antes de que los datos puedan procesarse o analizarse, deben ser ingeridos por un programa de aplicación, una plataforma de integración de datos o un sistema de gestión de bases de datos. Todas las aplicaciones funcionan en tres fases: ingesta de datos, procesamiento y salida.
Ingestión de datos en Data Warehousing y Data Science
Los almacenes de datos y el aprendizaje automático realizan análisis de datos utilizando datos que deben extraerse de uno o varios sistemas fuente. Para llevar los datos a la base de datos de análisis se utilizan procesos de preparación de datos y ETL. Los conductos de preparación de datos ingieren los datos antes de trasladarlos a los sistemas analíticos de destino. Del mismo modo, el proceso ETL(Extracción, Transformación y Carga) incluye la ingesta de datos cuando se extraen de los sistemas de datos de origen y se cargan los datos transformados en una base de datos de análisis.
Ejemplos de ingestión de datos
Ingestión de parámetros por programas de aplicación
Los programas de aplicación, las funciones y los microservicios reciben datos cuando son invocados o llamados. A la función SUMA se le puede pasar una cadena de números, que suma para devolver un valor total. Las interfaces de programación de aplicaciones (API) más modernas empleadas por las aplicaciones web pueden interrogarse para facilitar la ingestión de datos. JSON y XML permiten pasar números variables de elementos junto con una cadena delimitadora declarada.
Entrada de datos
Los datos pueden validarse a medida que las personas los introducen en formularios antes de que un programa de aplicación los acepte. La introducción manual de datos es habitual hoy en día para recoger datos de encuestas, para que las carreras registren datos médicos y para los formularios en línea.
Ingesta de registros de transacciones
Los sistemas ERP como Oracle y SAP crean registros diarios para anotar las transacciones. Los sistemas por lotes ingieren estos datos para resumir las transacciones diarias con fines de elaboración de informes y conciliación al final del día.
Datos de registro
Los sistemas informáticos, como los sitios web, registran las visitas mediante URL y datos de cookies. Los sistemas de automatización de marketing y ventas, como HubSpot, ingieren estos datos y los utilizan para asignar estas URL a empresas y relacionar los datos de las cookies con las listas de clientes potenciales existentes.
Ingestión de datos basada en la nube
El almacenamiento basado en la nube, como los buckets S3 de AWS, emulan los paradigmas de acceso a archivos del sistema operativo local y presentan API familiares para que las aplicaciones puedan ingerir datos en la nube de forma transparente como si residieran localmente.
Datos en tiempo real
Los sistemas de juegos y de negociación de acciones tienden a evitar las API de archivos y prefieren obtener los datos directamente de colas de mensajes en memoria.
Ingesta de registros de bases de datos
Los sistemas de bases de datos funcionan aceptando y analizando consultas escritas en SQL o utilizando valores clave y devolviendo como resultado un conjunto de registros que coinciden con los criterios de selección. Los registros son procesados uno a uno por la aplicación que los solicita.
Carga de datos en una base de datos
La mayoría de los proveedores de bases de datos proporcionan cargadores rápidos para cargar datos a granel utilizando múltiples flujos paralelos o pasando por alto SQL para obtener el mejor rendimiento.
Ingestión de datos en flujo
Una alternativa popular a las ingestas de datos tradicionales basadas en archivos son las fuentes de datos de flujo como AWS SNS, IBM MQ, Apache Flink y Kafka. A medida que se crean nuevos registros, se ponen inmediatamente a disposición de las aplicaciones suscritas al flujo de datos.
Ingestión de datos Edge
Los dispositivos IoT generan masas de datos que saturarían las redes corporativas y la capacidad de los servidores centrales. Los servidores de puerta de enlace o de borde ingieren datos de sensores, por ejemplo, descartan los datos menos interesantes y comprimen los datos interesantes antes de transmitirlos a los servidores centrales. Esta es una forma de pre-ingestión para optimizar la utilización de los recursos y aumentar el rendimiento de los datos en redes congestionadas.
Actian e ingestion de données
Actian Data Intelligence Platform está diseñada para ayudar a las organizaciones a unificar, gestionar y comprender sus datos en entornos híbridos. Reúne la gestión de metadatos, la gobernanza, el linaje, la supervisión de la calidad y la automatización en una única plataforma. Esto permite a los equipos ver de dónde proceden los datos, cómo se utilizan y si cumplen los requisitos internos y externos.
A través de su interfaz centralizada, Actian permite conocer en tiempo real las estructuras y flujos de datos, lo que facilita la aplicación de políticas, la resolución de problemas y la colaboración entre departamentos. La plataforma también ayuda a conectar los datos con el contexto empresarial, lo que permite a los equipos utilizar los datos de forma más eficaz y responsable. La plataforma de Actian está diseñada para escalar con ecosistemas de datos en evolución, apoyando un uso de datos consistente, inteligente y seguro en toda la empresa. Solicite su demostración personalizada.
PREGUNTAS FRECUENTES
La ingesta de datos es el proceso de recopilar datos de diversas fuentes y trasladarlos a un sistema de almacenamiento, base de datos, lago de datos o plataforma de análisis para su procesamiento y análisis.
Los dos métodos principales son ingesta por lotesque mueve los datos en intervalos programados, y la ingesta en flujoque mueve los datos continuamente en tiempo real a medida que se producen nuevos eventos.
Las fuentes incluyen bases de datos, aplicaciones SaaS, API, dispositivos IoT, archivos de registro, flujos de eventos, sistemas on-prem, plataformas en la nube y salidas de captura de datos de cambios (CDC).
Una ingesta fiable garantiza que los análisis posteriores, los cuadros de mando y los modelos de aprendizaje automático reciban datos precisos y oportunos. Permite obtener información en tiempo real, reduce la latencia y admite arquitecturas de ingeniería de datos escalables.
Entre las herramientas más comunes se incluyen Apache Kafka, Apache NiFi, Amazon Kinesis, Google Pub/Sub, Fivetran, Airbyte, sistemas ETL de streaming y marcos CDC que capturan eventos de cambios en las bases de datos.
Los retos incluyen la gestión de grandes volúmenes de datos, la desviación de esquemas, los problemas de calidad de los datos, la escalabilidad en tiempo real, el mantenimiento de la coherencia entre sistemas distribuidos y la garantía de un movimiento seguro y conforme de los datos confidenciales.