Ausfallsicherer verteilter Datensatz
Das Open-Source-Projekt Apache Spark verwendet eineRDDResilient Distributed Datensatz ). Dabei handelt es sich um eine unveränderliche verteilte Sammlung von Objekten, die auf verschiedene Knoten verteilt sind. Der RDD kann parallel auf einem Cluster von Computern verarbeitet werden und ist fehlertolerant, d. h. er kann sich automatisch von Knotenausfällen erholen. RDDs können mit einer einfachen Anwendungsprogrammierschnittstelle (API), die Transformationen und Aktionen bietet, parallel betrieben werden.
Warum ist ein stabiler verteilter Datensatz wichtig?
Resiliente verteilte Datensätze sind von entscheidender Bedeutung, da sie ein robustes Framework für die verteilte Datenverarbeitung mit integrierten Fähigkeiten wie Fehlertoleranz, Parallelverarbeitung und Flexibilität bei der Verarbeitung verschiedener Datentypen bieten. Sie bilden das Rückgrat vieler Unternehmensanwendungen und ML-Workloads, die eine zuverlässige und effiziente Verarbeitung großer Datensätze erfordern.
Anwendungen für belastbare verteilte Datensätze
RDDs werden durch das Spark-System dargestellt, um iterative Algorithmen und interaktive Data Mining Werkzeuge. Im Folgenden finden Sie einige Beispiele dafür, wie RDDs in der realen Welt* verwendet werden.
Streaming
Ein Streaming verwendete ein RDD , um Nutzungsanalysen zu erstellen. Kundenabfragen wurden als Teilmengen gruppierter Daten geladen, die den Suchkriterien entsprachen, die für die Bereitstellung von Aggregationen wie Durchschnittswerten, Perzentilen und COUNT DISTINCT-Funktionen erforderlich waren. Die gefilterten Daten wurden einmal in ein RDD geladen, damit die Transformation auf das gesamte RDD angewendet werden konnte.
Stauvorhersage
In einer Studie der University of California - Berkley wurde ein RDD verwendet, um einen Lernalgorithmus zu parallelisieren, mit dem aus sporadischen GPS-Messungen von Autos auf Verkehrsstaus geschlossen werden kann. Mithilfe eines Verkehrsmodells kann das System Staus abschätzen, indem es die erwartete Reisezeit für einzelne Straßenverbindungen ableitet.
Klassifizierung von Social Media Spam
Das Monarch-Projekt in Berkeley verwendete Spark, um Link-Spam in Twitter-Nachrichten zu identifizieren. Sie implementierten einen logistischen Regressionsklassifikator auf Spark und verwendeten reduceByKey, um die Gradientenvektoren parallel auf dem Cluster zu summieren.
Eingebaute RDD
Im Folgenden finden Sie ein Beispiel für die Arten von Funktionen, die für in ein RDD geladene Daten verfügbar sind:
- Gibt die Vereinigung dieses und eines anderen RDD zurück.
- Aggregieren Sie die Elemente jeder Partition und dann die Ergebnisse für alle Partitionen.
- Persistieren Sie diesen RDD.
- Gibt das kartesische Produkt dieses RDD zurück.
- Gibt ein Array zurück, das alle Elemente in diesem RDD enthält.
- Das Datum und die Uhrzeit der RDD .
- Gibt die Anzahl der Elemente im RDD zurück.
- Rückgabe der Anzahl jedes eindeutigen Wertes in diesem RDD als Karte von (Wert, Anzahl) Paaren.
- Gibt ein neues RDD zurück, das die eindeutigen Elemente in diesem RDD enthält.
- Gibt ein neues RDD zurück, das nur die Elemente enthält, die ein Prädikat erfüllen.
- Gibt das erste Element in diesem RDD zurück.
- Aggregieren Sie die Elemente jeder Partition und dann die Ergebnisse für alle Partitionen.
- Gibt ein RDD mit gruppierten Elementen zurück.
- Interne Methode zu diesem RDD liest aus dem Cache, falls zutreffend, oder berechnet ihn andernfalls.
- Rückgabe eines neuen RDD durch Anwendung einer Funktion auf alle Elemente dieses RDD.
- Rückgabe eines neuen RDD durch Anwendung einer Funktion auf jede Partition dieses RDD.
- Rückgabe einer gesampelten Teilmenge dieses RDD.
- Speichern Sie dieses RDD als Textdatei mit String-Darstellungen der Elemente.
- Gibt ein Array zurück, das alle Elemente in diesem RDD enthält.
- Gibt die Vereinigung dieses und eines anderen RDD zurück.
Actian und die Data Intelligence Plattform
Die Actian Data Intelligence Platform wurde speziell dafür entwickelt, Unternehmen bei der Vereinheitlichung, verwalten und dem Verständnis ihrer Daten in hybriden Umgebungen zu unterstützen. Sie vereint Metadaten , Governance, Lineage, Qualitätsüberwachung und Automatisierung in einer einzigen Plattform. So können Teams sehen, woher die Daten kommen, wie sie verwendet werden und ob sie internen und externen Anforderungen entsprechen.
Durch seine zentrale Schnittstelle unterstützt Actian Erkenntnis über Datenstrukturen und -flüsse und erleichtert so die Anwendung von Richtlinien, die Lösung von Problemen und die abteilungsübergreifende Zusammenarbeit. Die Plattform hilft auch dabei, Daten mit dem geschäftlichen Kontext zu verbinden, damit Teams Daten effektiver und verantwortungsvoller nutzen können. Die Plattform von Actian ist so konzipiert, dass sie mit sich entwickelnden Datenökosystemen skaliert und eine konsistente, intelligente und sichere Datennutzung im gesamten Unternehmen unterstützt. Fordern Sie Ihr persönliches Demo an.
*Quelle: Resilient Distributed Datasets: Eine fehlertolerante Abstraktion für In-Memory Cluster Computing. Elektrotechnik und Computerwissenschaften Universität von Kalifornien in Berkeley.
FAQ
Ein Resilient Distributed Datensatz RDD) ist eine unveränderliche, verteilte Sammlung von Objekten, Apache Spark in Apache Spark auf verschiedene Knoten verteilt ist, parallel über einen Cluster verarbeitet werden kann und fehlertolerant ausgelegt ist.
RDDs bieten ein robustes Framework die verteilte Datenverarbeitung mit integrierten Fähigkeiten Fehlertoleranz, paralleler Verarbeitung und Flexibilität beim Umgang mit verschiedenen Datentypen und bilden damit das Rückgrat vieler Unternehmensanwendungen und Maschinelles Lernen im Bereich Maschinelles Lernen .
RDDs sind so konzipiert, dass sie sich automatisch von Knotenausfällen erholen und so eine zuverlässige Verarbeitung großer Datensätze in verteilten Systemen gewährleisten.
RDDs werden in Streaming für Nutzungsberichte, in Systemen zur Vorhersage von Überlastungen, die GPS-Daten analysieren, sowie in Projekten social media eingesetzt, beispielsweise zur Erkennung von Link-Spam in Twitter-Nachrichten.
RDDs unterstützen Operationen wie die Rückgabe von Vereinigungen mit anderen RDDs, die Aggregation von Elementen über Partitionen hinweg, die Persistenz von Daten, das Filtern von Elementen, Abbildungsfunktionen, das Zählen von Elementen und das Speichern von Ergebnissen als Textdateien.
RDDs werden über das Spark-System bereitgestellt, um iterative Algorithmen und interaktive Data Mining zu unterstützen, und bieten eine Low-Level-API mit Transformationen und Aktionen, die parallel ausgeführt werden können.
Ja, RDDs verfügen über integrierte Funktionen zur Datenspeicherung, sodass gefilterte oder transformierte Daten einmal geladen und für mehrere Operationen wiederverwendet werden können, was die Effizienz steigert.