¿Qué es la ingestión de flujo continuo?

qué es la ingestión de streaming

La ingesta de flujo implica análisis en tiempo real que proporcionan información a partir de datos en movimiento que necesitan ingerir datos de forma continua desde una cola de mensajes suscritos. Dado que los grandes volúmenes de mensajes pueden saturar las aplicaciones que consumen datos, los microlotes pueden recopilar mensajes y proporcionárselos a la aplicación consumidora en intervalos cortos y regulares. Si la fuente de datos es un archivo de datos tradicional, puede utilizarse la ingesta por lotes tradicional.

Fuentes de datos

Entre los ejemplos de transmisión de datos se incluyen la salida de sensores IoT, archivos de registro, secuencias de clics, transacciones comerciales basadas en mensajes e interacciones de aplicaciones de juegos.

¿Por qué utilizar la ingestión de flujo en tiempo real?

Las aplicaciones tradicionales procesan los datos por lotes, lo que retrasa la presentación y el análisis de los acontecimientos. Este ligero retraso puede hacer que se pierdan oportunidades de sacar partido de acontecimientos en los que el tiempo es un factor crítico. Las aplicaciones de streaming pueden procesar los eventos en tiempo real para que una empresa pueda responder a ellos de inmediato.

Marcos de procesamiento de flujos

Los pioneros de los sistemas de eventos basados en mensajes son IBM con MQSeries y TIBCO en Open Systems. A continuación se presentan algunos ejemplos comerciales y de código abierto:

  • Apache Flink soporta computación con estado sobre flujos de datos para flujos de eventos y ETL.
  • Apache Ignite para computación de alto rendimiento con velocidad en memoria se utiliza para añadir velocidad a las aplicaciones existentes.
  • Apache Samza para aplicaciones con estado que procesan datos en tiempo real, ejecutándose como librería independiente o bajo YARN.
  • Apache Spark soporta de forma nativa aplicaciones de streaming escalables y tolerantes a fallos.
  • Apache Storm para el cálculo de tareas paralelas distribuidas en tiempo real.
  • Amazon Kinesis Data Streams a medida que llegan los datos para aplicaciones de streaming de datos administrados en tiempo real.
  • Los Microsoft Azure Event Hubs proporcionan un servicio de ingesta de streaming altamente escalable que funciona con cualquier proveedor de análisis en tiempo real.
  • Microsoft Azure IoT Hub está diseñado para proporcionar comunicación bidireccional máquina-nube para flujos IoT.
  • Apache Kafka en HDInsight es ideal para aplicaciones de Big Data al estilo Hadoop.

Ejemplos de aplicaciones de streaming en tiempo real

Antes de que los usuarios puedan extraer significado o información de los datos, es necesario procesar los flujos de datos procedentes de múltiples fuentes. Los ejemplos siguientes se benefician del procesamiento de flujos de datos en tiempo real:

  • Los sistemas de detección de fraudes recopilan datos en tiempo real para responder a actividades sospechosas.
  • Es necesario contrarrestar las ciberamenazas antes de que amenacen a la empresa. Los sistemas de gestión de eventos e información de seguridad (SIEM) analizan los registros y supervisan la actividad de la red para detectar y acabar con cualquier amenaza potencial.
  • Los sistemas de piloto automático para controlar máquinas como aviones, drones o vehículos de carretera recogen datos de múltiples sensores como GPS, Lidar, altímetros, sonares y cámaras. Estos datos deben procesarse mediante procesadores a bordo para controlar la velocidad, la altitud y la dirección del vehículo.
  • Los sistemas de negociación de valores deben controlar en tiempo real la evolución de las cotizaciones para cumplir las órdenes de compra y venta preestablecidas. Por ejemplo, si usted tiene una orden preestablecida para vender una acción si el precio cae por debajo de 20 dólares y la acción fluctúa entre 22 y 19 dólares durante una fracción de segundo, una agencia de valores tiene que ejecutar la operación dentro de una ventana de tiempo de sub-segundo para retener el negocio de ese comerciante.
  • El análisis del sentimiento de los flujos de las redes sociales permite a una organización reaccionar ante cambios repentinos en la percepción de los clientes. Los directivos deben estar atentos a las noticias que afectan a sus clientes.
  • Los minoristas recopilan y procesan datos en tiempo real de los sistemas de balizas de las tiendas que identifican a los clientes que han visitado su sitio web interesados en un determinado producto y que se encuentran cerca de una tienda física. En respuesta a estos datos, puede enviarse en segundos una oferta por SMS o correo electrónico para atraer al cliente potencial y convertirlo en cliente.
  • Los sistemas de ventas y marketing pueden utilizar los datos del flujo de clics para desencadenar una interacción con un chatbot o un agente.
  • Las empresas de juegos utilizan el análisis del comportamiento dentro del juego para sugerir nuevos juegos u ofrecer los anuncios más relevantes para las compras dentro del juego.

Actian y la plataforma de inteligencia de datos

Actian Data Intelligence Platform está diseñada para ayudar a las organizaciones a unificar, gestionar y comprender sus datos en entornos híbridos. Reúne la gestión de metadatos, la gobernanza, el linaje, la supervisión de la calidad y la automatización en una única plataforma. Esto permite a los equipos ver de dónde proceden los datos, cómo se utilizan y si cumplen los requisitos internos y externos.

A través de su interfaz centralizada, Actian permite conocer en tiempo real las estructuras y flujos de datos, lo que facilita la aplicación de políticas, la resolución de problemas y la colaboración entre departamentos. La plataforma también ayuda a conectar los datos con el contexto empresarial, lo que permite a los equipos utilizar los datos de forma más eficaz y responsable. La plataforma de Actian está diseñada para escalar con ecosistemas de datos en evolución, apoyando un uso de datos consistente, inteligente y seguro en toda la empresa. Solicite su demostración personalizada.

Preguntas frecuentes

La ingesta de flujos es el proceso continuo y en tiempo real de capturar datos de fuentes como aplicaciones, dispositivos IoT, registros y flujos de eventos y cargarlos en una plataforma de datos para su procesamiento y análisis inmediatos. Permite obtener información de baja latencia y facilita la toma de decisiones en función del tiempo.

La ingesta por lotes procesa los datos a intervalos grandes y programados, mientras que la ingesta de flujo mueve los datos continuamente a medida que se producen los eventos. La ingesta en flujo es compatible con análisis en tiempo real y cargas de trabajo operativas, mientras que la ingesta por lotes es mejor para informes periódicos y grandes actualizaciones de datos.

La ingesta de secuencias se utiliza en:

  • Cuadros de mando y sistemas de supervisión en tiempo real.
  • Canalizaciones de detección de fraudes y anomalías.
  • Análisis de sensores IoT.
  • Arquitecturas basadas en eventos.
  • Personalización de clientes y motores de recomendación.
  • Plataformas de agregación de registros y observabilidad.

Entre las herramientas y marcos de trabajo más comunes se encuentran Apache Kafka, Amazon Kinesis, Google Pub/Sub, Apache Pulsar y las canalizaciones de captura de datos de cambios (CDC). Estos sistemas capturan flujos de eventos continuos y los introducen en bases de datos, almacenes de datos o motores de análisis de flujo.

Los retos incluyen garantizar:

  • Entrega garantizada y procesamiento "exactamente una vez".
  • Escalabilidad a medida que aumentan los volúmenes de eventos.
  • Procesamiento de baja latencia en sistemas distribuidos.
  • Evolución del esquema y tratamiento de mensajes malformados.
  • Ordenación y coherencia de los datos.
  • Integración con herramientas de análisis posteriores.

La ingestión de flujos garantiza que los modelos de IA, los cuadros de mando y los motores de decisión reciban datos frescos y actualizados. Las canalizaciones en tiempo real permiten predicciones más rápidas, detección de anomalías más precisa, alertas oportunas y automatización mejorada en todas las cargas de trabajo operativas y de cara al cliente.