Données Streaming

Le Streaming données est le processus par lequel un flux continu de données provenant d'une ou de plusieurs sources est traité en temps quasi réel. En fonction de la criticité du temps ou des contraintes de ressources du serveur, les flux de données peuvent être traités après de petits intervalles sous forme de micro-lots.
Trois formes de partage des données
Les trois grandes catégories de partage des données sont les suivantes :
- Un flux de données tel qu'une application de suivi du cours des actions crée un enregistrement données chaque fois que le cours des actions change. L'enregistrement est stocké dans une file d'attente qui est immédiatement lue par une application s'abonnant à cette file d'attente. Les abonnés obtiennent ainsi les derniers cours de la bourse dès qu'ils changent, avec un temps de latence mesuré en millisecondes.
- Les données par lots sont produites périodiquement, par exemple chaque nuit, sous la forme d'un nouveau fichier de données. Les données sont traitées pendant la nuit. Un processus de fin de journée dans une agence bancaire produirait un journal quotidien des transactions utilisé pour calculer l'encaisse, qui est ensuite reportée sur le solde d'ouverture du jour suivant.
- partage des données incrémental partage des données. Dans ce cas, l'application réceptrice conserve une copie des données antérieures qui est mise à jour pour refléter les changements survenus depuis la mise à jour précédente. Cette forme de capture des données modifiées est couramment utilisée pour les sauvegardes de données sur un site distant ou pour conserver plusieurs copies de l'ensemble de données source.
Caractéristiques
Les données de flux ou d'événements présentent généralement les caractéristiques suivantes :
- Les flux de données sont continus en ce sens qu'un flux d'événements est incomplet sans début ni fin de l'ensemble de données.
- Les flux de données peuvent être configurés pour être résilients, c'est-à-dire que chaque événement est capturé et stocké jusqu'à ce que chaque récepteur ait accusé réception.
- Les événements de données Streaming sont horodatés, ce qui permet de les analyser sur une ligne de temps. Par exemple, les données des capteurs d'une usine pilotent les opérations en aval en fonction de ce qui est identifié dans le flux.
- Les flux de données peuvent contenir des formats mixtes comme les flux IoT. Les processus de passerelle à la périphérie peuvent filtrer et normaliser les formats.
- Les flux de données peuvent présenter des lacunes et ne pas être ordonnés en raison des différents temps de latence des réseaux de connexion.
- Les flux peuvent être incomplets car un événement peut remplacer un événement précédent avant que le lecteur ne l'ait traité. Dans les cas d'utilisation en temps réel, comme le suivi des cotes d'un casino ou d'un événement sportif, seule la dernière valeur compte, de sorte que les valeurs précédentes peuvent être immédiatement abandonnées.
Logiciel de Streaming données Streaming
Il existe toute une gamme d'outils classés comme processeurs de flux :
- Beaucoup sont issus de systèmes de traitement des messages tels que IBM MQ et Tibco Spotfire.
- Apache Spark fournit une API de streaming sur les grappes Hadoop. Spark est bien adapté au traitement des données par groupes de lignes.
- Apache Kafka et Apache NiFi sont des services open-source basés sur des courtiers qui traitent les événements un enregistrement à la fois et fonctionnent avec une latence inférieure à celle de Spark. Kafka utilise un modèle de publication et d'abonnement pour connecter les flux de données aux applications consommatrices.
- Les plateformes partage de données en temps réel, comme les données de diffusion, utilisent des systèmes qui envoient des données en continu aux clients.
Exemples de données Streaming
plateformes négociation financière l'utilisent pour fournir des changements de prix en temps réel pour les actions et les devises. Les services d'information boursière utilisent le streaming Les services d'information boursière utilisent les données en continu pour partager les informations sur les entreprises au fur et à mesure de leur publication, aidant ainsi les investisseurs institutionnels et individuels à prendre des décisions commerciales plus éclairées.
Les entreprises de jeux doivent maintenir l'intérêt des joueurs, c'est pourquoi elles utilisent les données streaming pour savoir quelles équipes les intéressent, afin d'adapter leur expérience en leur proposant des offres et des promotions pertinentes. Ces données sont également utilisées pour partager les cotes et les résultats des paris sportifs.
Les systèmes de sécurité utilisent des capteurs pour détecter les activités suspectes. Les capteurs collectent des flux vidéo qui sont analysés et des alertes sont générées lorsque des menaces potentielles sont observées.
La conduite autonome utilise des capteurs en temps réel pour contrôler la vitesse du véhicule et les systèmes de sécurité. Les caméras, les sonars et les lidars génèrent des flux de données que les logiciels de traitement d'images analysent.
Les systèmes industriels utilisent des capteurs pour surveiller les systèmes de fabrication à des fins de contrôle de la qualité et pour stimuler la production. Les flux numériques permettent aux fabricants de surveiller à distance l'état de santé de systèmes tels que les moteurs de locomotives afin de prendre des décisions en matière de maintenance préventive, de commande de pièces et de modification des performances pour maximiser la durée de vie utile de l'équipement.
Les systèmes de marketing utilisent les données de parcours pour analyser les publicités et les pages web consultées par un prospect, afin que les chatbots puissent proposer les tactiques d'engagement en temps réel les plus convaincantes.
Le commerce de détail a diffusé des données provenant de systèmes de balisage en magasin pour informer des offres par texte et par courrier électronique en fonction de l'emplacement de l'acheteur.
Streaming données avec les solutions Actian
La plateforme de données Actian dispose d'un support intégré pour l'intégration de données en continu.