Streaming
Beim Streaming wird ein kontinuierlicher Datenstrom aus einer oder mehreren Quellen nahezu in Echtzeit verarbeitet. Je nach Zeitkritikalität oder Beschränkung der Serverressourcen können Datenströme in kleinen Intervallen als Mikrobatches verarbeitet werden.
Drei Formen der Data Sharing
Im Folgenden werden die drei großen Kategorien der data sharing beschrieben:
- Ein Datenstrom, wie z. B. eine Anwendung zur Verfolgung von Aktienkursen, erstellt jedes Mal eine Aufzeichnung , wenn sich der Aktienkurs ändert. Die Aufzeichnung wird in einer Warteschlange gespeichert, die sofort von einer Anwendung gelesen wird, die diese Warteschlange abonniert hat. Auf diese Weise erhalten die Abonnenten die letzten Aktienkurse, sobald sie sich ändern, wobei die Latenzzeit in Millisekunden gemessen wird.
- Stapeldaten werden in regelmäßigen Abständen, z. B. nachts, als neue Datendatei erstellt. Die Daten werden über Nacht verarbeitet. Ein Tagesabschlussprozess in einer Bankfiliale würde ein tägliches Journal der Transaktionen erstellen, das zur Berechnung des Kassenbestands verwendet wird, der dann in den Eröffnungssaldo des nächsten Tages übertragen wird.
- Inkrementeller data sharing. In diesem Fall unterhält die empfangende Anwendung eine Kopie der früheren Daten, die aktualisiert wird, um die Änderungen seit der letzten Aktualisierung widerzuspiegeln. Diese Form der Erfassung von geänderten Daten wird üblicherweise für Datensicherungen an einem entfernten Standort oder zur Verwaltung mehrerer Kopien des Quelldatensatzes verwendet.
Merkmale
Strom- oder Ereignisdaten weisen in der Regel die folgenden Merkmale auf:
- Datenströme sind insofern kontinuierlich, als ein Ereignisstrom ohne einen Anfang oder ein Ende des Datensatzes unvollständig ist.
- Datenströme können so konfiguriert werden, dass sie belastbar sind, d. h. jedes Ereignis wird erfasst und gespeichert, bis jeder Empfänger den Empfang bestätigt hat.
- Streaming werden mit einem Zeitstempel versehen, damit sie auf einer Zeitachse analysiert werden können. So können z. B. Sensordaten in einer Fabrik nachgelagerte Vorgänge auf der Grundlage der im Datenstrom identifizierten Ereignisse steuern.
- Datenströme können gemischte Formate wie IoT enthalten. Gateway-Prozesse an der Grenze können Formate filtern und standardisieren.
- Datenströme können aufgrund unterschiedlicher Latenzzeiten der Verbindungsnetze Lücken aufweisen und ungeordnet sein.
- Datenströme können unvollständig sein, da ein Ereignis ein vorheriges Ereignis ersetzen kann, bevor der Leser es verarbeitet hat. In Echtzeit-Anwendungsfällen wie der Verfolgung von Quoten für ein Kasino oder ein Sportereignis ist nur der letzte Wert von Bedeutung, so dass frühere Werte sofort gelöscht werden können.
Software für Streaming
Es gibt ein Spektrum von Tools, die als Stream-Prozessoren eingestuft werden:
- Viele haben sich aus Nachrichtenverarbeitungssystemen wie IBM MQ und Tibco Spotfire entwickelt.
- Apache Spark bietet eine Streaming auf Hadoop-Clustern. Spark eignet sich gut für die Verarbeitung von Daten in Gruppen von Zeilen.
- Apache Kafka und Apache NiFi sind Open-Source-Broker-basierte Dienste, die Ereignisse einzeln Aufzeichnung und mit einer geringeren Latenz als Spark arbeiten. Kafka verwendet ein Publish-Subscribe-Modell für die Verbindung von Datenströmen mit konsumierenden Anwendungen.
- Plattformen zur gemeinsamen Nutzung von Echtzeitdaten wie Diffusionsdaten verwenden Systeme, die Datenströme an Kunden weiterleiten.
Beispiele für Streaming
Finanzhandelsplattformen nutzen es, um Echtzeit-Kursänderungen für Aktien und Währungen zu liefern. Aktieninformationsdienste nutzen Streaming Daten, um Unternehmensnachrichten zeitnah zu verbreiten und institutionellen und privaten Anlegern zu helfen, fundiertere Handelsentscheidungen zu treffen.
Glücksspielunternehmen müssen die Spieler bei der Stange halten und nutzen daher Streaming , um herauszufinden, welche Teams sie interessieren, damit sie ihr Spielerlebnis anpassen können, indem sie ihnen relevante Angebote und Werbeaktionen unterbreiten. Sie werden auch verwendet, um Quoten und Ergebnisse für Wetten auf Sportereignisse zu teilen.
Sicherheitssysteme verwenden Sensoren, um verdächtige Aktivitäten zu erkennen. Die Sensoren sammeln Videoströme, die analysiert werden, und es werden Warnungen erzeugt, wenn potenzielle Bedrohungen beobachtet werden.
Das autonome Fahren nutzt Echtzeit-Sensoreingaben zur Steuerung der Fahrzeuggeschwindigkeit und der Sicherheitssysteme. Kameras, Sonar- und Lidar-Sensoren erzeugen Datenströme, die von Bildverarbeitungssoftware analysiert werden.
Industrielle Systeme verwenden Sensoren zur Überwachung von Fertigungssystemen für die Qualitätskontrolle und zur Steuerung der Produktion. Digitale Datenströme ermöglichen es den Herstellern, den Zustand von Systemen wie Lokomotivmotoren aus der Ferne zu überwachen, um Entscheidungen über die Zeitplanung für die vorbeugende Wartung und die Bestellung von Ersatzteilen zu treffen und die Leistung zu ändern, um die Nutzungsdauer der Ausrüstung zu maximieren.
Marketingsysteme verwenden Clickstream-Daten, um zu analysieren, welche Anzeigen und Webseiten ein potenzieller Kunde ansieht, damit Chatbots die überzeugendsten Taktiken zur Echtzeit-Einbindung anbieten können.
Der Einzelhandel hat Daten von Beaconing-Systemen in den Geschäften gestreamt, um Text- und E-Mail-Angebote auf der Grundlage des Standorts des Käufers zu erstellen.
Actian und die Data Intelligence Plattform
Die Actian Data Intelligence Platform wurde speziell dafür entwickelt, Unternehmen bei der Vereinheitlichung, verwalten und dem Verständnis ihrer Daten in hybriden Umgebungen zu unterstützen. Sie vereint Metadaten , Governance, Lineage, Qualitätsüberwachung und Automatisierung in einer einzigen Plattform. So können Teams sehen, woher die Daten kommen, wie sie verwendet werden und ob sie internen und externen Anforderungen entsprechen.
Durch seine zentrale Schnittstelle unterstützt Actian Erkenntnis über Datenstrukturen und -flüsse und erleichtert so die Anwendung von Richtlinien, die Lösung von Problemen und die abteilungsübergreifende Zusammenarbeit. Die Plattform hilft auch dabei, Daten mit dem geschäftlichen Kontext zu verbinden, damit Teams Daten effektiver und verantwortungsvoller nutzen können. Die Plattform von Actian ist so konzipiert, dass sie mit sich entwickelnden Datenökosystemen skaliert und eine konsistente, intelligente und sichere Datennutzung im gesamten Unternehmen unterstützt. Fordern Sie Ihr persönliches Demo an.
FAQ
Streaming sind kontinuierliche Echtzeitdaten, die von Quellen wie Anwendungen, IoT , Sensoren, Protokollen und Ereignisströmen erzeugt werden. Sie werden sofort verarbeitet, wenn sie eintreffen, und nicht in geplanten Stapeln.
Batch-Daten werden periodisch in großen Gruppen verarbeitet, während Streaming sofort aufgenommen und analysiert werden. Streaming unterstützt Echtzeitanalysen und Alerting; Batch unterstützt historische Berichte und groß angelegte Verarbeitung.
Zu den Streaming gehören Apache Kafka, Apache Pulsar, Amazon Kinesis, Google Pub/Sub, Flink, Spark Streaming und CDC-Pipelines (Change Data Capture), die Datenbankaktualisierungen in Echtzeit erfassen.
Zu den Anwendungsfällen gehören Echtzeitüberwachung, Betrugserkennung, IoT , supply chain , Clickstream-Analyse, Beobachtbarkeit, Personalisierungs-Engines und die Versorgung von KI-Modellen mit Live-Daten.
Streaming ermöglichen niedrige Latenz , automatisierte Entscheidungsfindung, Anomalie , operative Intelligenz und Echtzeit-Einblicke in Kundenverhalten, Systemleistung und Geschäftsabläufe.
Zu den Herausforderungen gehören die Sicherstellung der Datenqualität, die Aufrechterhaltung der Nachrichtenreihenfolge, die Skalierung für Ereignisse mit hohem Durchsatz, die Verwaltung des Gegendrucks, die Handhabung der Schemaentwicklung und die Integration von Echtzeit-Streams in bestehende Analyseplattformen.