¿Qué es la ingestión de flujo continuo?

Formas y gráficos de datos SaaS sobre la imagen de una mujer en la tecnología

La ingesta de flujo implica análisis en tiempo real que proporcionan información a partir de datos en movimiento que necesitan ingerir datos de forma continua desde una cola de mensajes suscritos. Dado que los grandes volúmenes de mensajes pueden saturar las aplicaciones que consumen datos, los microlotes pueden recopilar mensajes y proporcionárselos a la aplicación consumidora en intervalos cortos y regulares. Si la fuente de datos es un archivo de datos tradicional, puede utilizarse la ingesta por lotes tradicional.

Fuentes de datos

Entre los ejemplos de transmisión de datos se incluyen la salida de sensores IoT, archivos de registro, secuencias de clics, transacciones comerciales basadas en mensajes e interacciones de aplicaciones de juegos.

¿Por qué utilizar la ingestión de flujo en tiempo real?

Las aplicaciones tradicionales procesan los datos por lotes, lo que retrasa la presentación y el análisis de los acontecimientos. Este ligero retraso puede hacer que se pierdan oportunidades de sacar partido de acontecimientos en los que el tiempo es un factor crítico. Las aplicaciones de streaming pueden procesar los eventos en tiempo real para que una empresa pueda responder a ellos de inmediato.

Marcos de procesamiento de flujos

Los pioneros de los sistemas de eventos basados en mensajes son IBM con MQSeries y TIBCO en Open Systems. A continuación se presentan algunos ejemplos comerciales y de código abierto:

  • Apache Flink soporta computación con estado sobre flujos de datos para flujos de eventos y ETL.
  • Apache Ignite para computación de alto rendimiento con velocidad en memoria se utiliza para añadir velocidad a las aplicaciones existentes.
  • Apache Samza para aplicaciones con estado que procesan datos en tiempo real, ejecutándose como librería independiente o bajo YARN.
  • Apache Spark soporta de forma nativa aplicaciones de streaming escalables y tolerantes a fallos.
  • Apache Storm para el cálculo de tareas paralelas distribuidas en tiempo real.
  • Amazon Kinesis Data Streams a medida que llegan los datos para aplicaciones de streaming de datos administrados en tiempo real.
  • Los Microsoft Azure Event Hubs proporcionan un servicio de ingesta de streaming altamente escalable que funciona con cualquier proveedor de análisis en tiempo real.
  • Microsoft Azure IoT Hub está diseñado para proporcionar comunicación bidireccional máquina-nube para flujos IoT.
  • Apache Kafka en HDInsight es ideal para aplicaciones de Big Data al estilo Hadoop.

Ejemplos de aplicaciones de streaming en tiempo real

Antes de que los usuarios puedan extraer significado o información de los datos, es necesario procesar los flujos de datos procedentes de múltiples fuentes. Los ejemplos siguientes se benefician del procesamiento de flujos de datos en tiempo real:

  • Los sistemas de detección de fraudes recopilan datos en tiempo real para responder a actividades sospechosas.
  • Es necesario contrarrestar las ciberamenazas antes de que amenacen a la empresa. Los sistemas de gestión de eventos e información de seguridad (SIEM) analizan los registros y supervisan la actividad de la red para detectar y acabar con cualquier amenaza potencial.
  • Los sistemas de piloto automático para controlar máquinas como aviones, drones o vehículos de carretera recogen datos de múltiples sensores como GPS, Lidar, altímetros, sonares y cámaras. Estos datos deben procesarse mediante procesadores a bordo para controlar la velocidad, la altitud y la dirección del vehículo.
  • Los sistemas de negociación de valores deben controlar en tiempo real la evolución de las cotizaciones para cumplir las órdenes de compra y venta preestablecidas. Por ejemplo, si usted tiene una orden preestablecida para vender una acción si el precio cae por debajo de 20 dólares y la acción fluctúa entre 22 y 19 dólares durante una fracción de segundo, una agencia de valores tiene que ejecutar la operación dentro de una ventana de tiempo de sub-segundo para retener el negocio de ese comerciante.
  • El análisis del sentimiento de los flujos de las redes sociales permite a una organización reaccionar ante cambios repentinos en la percepción de los clientes. Los directivos deben estar atentos a las noticias que afectan a sus clientes.
  • Los minoristas recopilan y procesan datos en tiempo real de los sistemas de balizas de las tiendas que identifican a los clientes que han visitado su sitio web interesados en un determinado producto y que se encuentran cerca de una tienda física. En respuesta a estos datos, puede enviarse en segundos una oferta por SMS o correo electrónico para atraer al cliente potencial y convertirlo en cliente.
  • Los sistemas de ventas y marketing pueden utilizar los datos del flujo de clics para desencadenar una interacción con un chatbot o un agente.
  • Las empresas de juegos utilizan el análisis del comportamiento dentro del juego para sugerir nuevos juegos u ofrecer los anuncios más relevantes para las compras dentro del juego.

Cómo gestiona Actian la ingestión de flujos de datos

Gracias a su tecnología de integración de datos incorporada, Actian Data Platform puede proporcionar información en tiempo real basada en datos en streaming. Actian Data Platform se ejecuta en las instalaciones y en plataformas en la nube, como AWS, Google Cloud y Microsoft Azure. DataConnect admite la ingesta basada en archivos y en flujos desde fuentes como JMS, Kafka, MSMQ, RabbitMQ y WebSphere MQ.