Ausfallsicherer verteilter Datensatz

Lächelnde Frau mit Tablet, die im Team einen belastbaren verteilten Datensatz diskutiert.

Das Open-Source-Projekt Apache Spark verwendet eineRDDResilient Distributed Datensatz ). Dabei handelt es sich um eine unveränderliche verteilte Sammlung von Objekten, die auf verschiedene Knoten verteilt sind. Der RDD kann parallel auf einem Cluster von Computern verarbeitet werden und ist fehlertolerant, d. h. er kann sich automatisch von Knotenausfällen erholen. RDDs können mit einer einfachen Anwendungsprogrammierschnittstelle (API), die Transformationen und Aktionen bietet, parallel betrieben werden.

Warum ist ein stabiler verteilter Datensatz wichtig?

Resiliente verteilte Datensätze sind von entscheidender Bedeutung, da sie ein robustes Framework für die verteilte Datenverarbeitung mit integrierten Fähigkeiten wie Fehlertoleranz, Parallelverarbeitung und Flexibilität bei der Verarbeitung verschiedener Datentypen bieten. Sie bilden das Rückgrat vieler Unternehmensanwendungen und ML-Workloads, die eine zuverlässige und effiziente Verarbeitung großer Datensätze erfordern.

Anwendungen für belastbare verteilte Datensätze

RDDs werden durch das Spark-System dargestellt, um iterative Algorithmen und interaktive Data Mining Werkzeuge. Im Folgenden finden Sie einige Beispiele dafür, wie RDDs in der realen Welt* verwendet werden.

Streaming

Ein Streaming verwendete ein RDD , um Nutzungsanalysen zu erstellen. Kundenabfragen wurden als Teilmengen gruppierter Daten geladen, die den Suchkriterien entsprachen, die für die Bereitstellung von Aggregationen wie Durchschnittswerten, Perzentilen und COUNT DISTINCT-Funktionen erforderlich waren. Die gefilterten Daten wurden einmal in ein RDD geladen, damit die Transformation auf das gesamte RDD angewendet werden konnte.

Stauvorhersage

In einer Studie der University of California - Berkley wurde ein RDD verwendet, um einen Lernalgorithmus zu parallelisieren, mit dem aus sporadischen GPS-Messungen von Autos auf Verkehrsstaus geschlossen werden kann. Mithilfe eines Verkehrsmodells kann das System Staus abschätzen, indem es die erwartete Reisezeit für einzelne Straßenverbindungen ableitet.

Klassifizierung von Social Media Spam

Das Monarch-Projekt in Berkeley verwendete Spark, um Link-Spam in Twitter-Nachrichten zu identifizieren. Sie implementierten einen logistischen Regressionsklassifikator auf Spark und verwendeten reduceByKey, um die Gradientenvektoren parallel auf dem Cluster zu summieren.

Eingebaute RDD

Im Folgenden finden Sie ein Beispiel für die Arten von Funktionen, die für in ein RDD geladene Daten verfügbar sind:

Gibt die Vereinigung dieses und eines anderen RDD zurück.
Aggregieren Sie die Elemente jeder Partition und dann die Ergebnisse für alle Partitionen.
Persistieren Sie diesen RDD.
Gibt das kartesische Produkt dieses RDD zurück.
Gibt ein Array zurück, das alle Elemente in diesem RDD enthält.
Das Datum und die Uhrzeit der RDD .
Gibt die Anzahl der Elemente im RDD zurück.
Rückgabe der Anzahl jedes eindeutigen Wertes in diesem RDD als Karte von (Wert, Anzahl) Paaren.
Gibt ein neues RDD zurück, das die eindeutigen Elemente in diesem RDD enthält.
Gibt ein neues RDD zurück, das nur die Elemente enthält, die ein Prädikat erfüllen.
Gibt das erste Element in diesem RDD zurück.
Aggregieren Sie die Elemente jeder Partition und dann die Ergebnisse für alle Partitionen.
Gibt ein RDD mit gruppierten Elementen zurück.
Interne Methode zu diesem RDD liest aus dem Cache, falls zutreffend, oder berechnet ihn andernfalls.
Rückgabe eines neuen RDD durch Anwendung einer Funktion auf alle Elemente dieses RDD.
Rückgabe eines neuen RDD durch Anwendung einer Funktion auf jede Partition dieses RDD.
Rückgabe einer gesampelten Teilmenge dieses RDD.
Speichern Sie dieses RDD als Textdatei mit String-Darstellungen der Elemente.
Gibt ein Array zurück, das alle Elemente in diesem RDD enthält.
Gibt die Vereinigung dieses und eines anderen RDD zurück.

Actian und die Data Intelligence Platform

DieActianData Intelligence Platformwurde speziell entwickelt, um Unternehmen dabei zu unterstützen, ihre Daten in hybriden Umgebungen zu vereinheitlichen, verwalten und zu verstehen. Sie vereint Metadaten , Governance, Datenherkunft, Qualitätsüberwachung und Automatisierung auf einer einzigen Plattform. So können Teams nachvollziehen, woher Daten stammen, wie sie genutzt werden und ob sie internen und externen Anforderungen entsprechen.

Über seine zentralisierte Schnittstelle ermöglicht Actian Erkenntnis Datenstrukturen und -flüsse, wodurch die Umsetzung von Richtlinien, die Behebung von Problemen und die abteilungsübergreifende Zusammenarbeit vereinfacht werden. Die Plattform hilft zudem dabei, Daten mit dem geschäftlichen Kontext zu verknüpfen, sodass Teams Daten effektiver und verantwortungsbewusster nutzen können. Die Plattform von Actian ist darauf ausgelegt, mit sich entwickelnden Datenökosystemen mitzuwachsen und eine konsistente, intelligente und sichere Datennutzung im gesamten Unternehmen zu unterstützen.Fordern Sie Ihre persönliche Demo an.

*Quelle: Resilient Distributed Datasets: Eine fehlertolerante Abstraktion für In-Memory Cluster Computing. Elektrotechnik und Computerwissenschaften Universität von Kalifornien in Berkeley.

FAQ

Ein Resilient Distributed Datensatz RDD) ist eine unveränderliche, verteilte Sammlung von Objekten, Apache Spark in Apache Spark auf verschiedene Knoten verteilt ist, parallel über einen Cluster verarbeitet werden kann und fehlertolerant ausgelegt ist.

RDDs bieten ein robustes Framework die verteilte Datenverarbeitung mit integrierten Fähigkeiten Fehlertoleranz, paralleler Verarbeitung und Flexibilität beim Umgang mit verschiedenen Datentypen und bilden damit das Rückgrat vieler Unternehmensanwendungen und Maschinelles Lernen im Bereich Maschinelles Lernen .

RDDs sind so konzipiert, dass sie sich automatisch von Knotenausfällen erholen und so eine zuverlässige Verarbeitung großer Datensätze in verteilten Systemen gewährleisten.

RDDs werden in Streaming für Nutzungsberichte, in Systemen zur Vorhersage von Überlastungen, die GPS-Daten analysieren, sowie in Projekten social media eingesetzt, beispielsweise zur Erkennung von Link-Spam in Twitter-Nachrichten.

RDDs unterstützen Operationen wie die Rückgabe von Vereinigungen mit anderen RDDs, die Aggregation von Elementen über Partitionen hinweg, die Persistenz von Daten, das Filtern von Elementen, Abbildungsfunktionen, das Zählen von Elementen und das Speichern von Ergebnissen als Textdateien.

RDDs werden über das Spark-System bereitgestellt, um iterative Algorithmen und interaktive Data Mining zu unterstützen, und bieten eine Low-Level-API mit Transformationen und Aktionen, die parallel ausgeführt werden können.

Ja, RDDs verfügen über integrierte Funktionen zur Datenspeicherung, sodass gefilterte oder transformierte Daten einmal geladen und für mehrere Operationen wiederverwendet werden können, was die Effizienz steigert.

Actian Data Intelligence-Plattform Neu

KernFähigkeitenetenzen

KernFähigkeitenetenzen

Actian Data Beobachtbarkeit Neu

KernFähigkeitenetenzen

Datenbanken

Produkte

Actian Data Platform

KernFähigkeitenetenzen

Datenintegration

Produkte

Produktübersicht

Alle Produkte

Ausfallsicherer verteilter Datensatz

Warum ist ein stabiler verteilter Datensatz wichtig?

Anwendungen für belastbare verteilte Datensätze

Streaming

Stauvorhersage

Klassifizierung von Social Media Spam

Eingebaute RDD

Actian und die Data Intelligence Platform

FAQ

Ausfallsicherer verteilter Datensatz

Warum ist ein stabiler verteilter Datensatz wichtig?

Anwendungen für belastbare verteilte Datensätze

Streaming

Stauvorhersage

Klassifizierung von Social Media Spam

Eingebaute RDD

Actian und die Data Intelligence Platform

FAQ

Was ist ein Resilient Distributed Datensatz RDD)?

Warum sind Resilient Distributed Datasets wichtig?

Wie erreichen RDDs Fehlertoleranz?

In welchen Anwendungsbereichen kommen Resilient Distributed Datasets zum Einsatz?

Welche Operationen können Sie an RDDs durchführen?

Wie werden RDDs in Apache Spark verwendet?

Können RDDs zur Wiederverwendung gespeichert werden?

Mehr erfahren

Was ist Edge Analytics?

7 Kundenanalyse-Techniken, um Ihre Kunden besser kennenzulernen

Was ist eine moderne Datenplattform?