Ausfallsicherer verteilter Datensatz

Lächelnde Frau mit Tablet, die im Team einen belastbaren verteilten Datensatz diskutiert.

Das Open-Source-Projekt Apache Spark verwendet eineRDDResilient Distributed Datensatz ). Dabei handelt es sich um eine unveränderliche verteilte Sammlung von Objekten, die auf verschiedene Knoten verteilt sind. Der RDD kann parallel auf einem Cluster von Computern verarbeitet werden und ist fehlertolerant, d. h. er kann sich automatisch von Knotenausfällen erholen. RDDs können mit einer einfachen Anwendungsprogrammierschnittstelle (API), die Transformationen und Aktionen bietet, parallel betrieben werden.

Warum ist ein stabiler verteilter Datensatz wichtig?

Resiliente verteilte Datensätze sind von entscheidender Bedeutung, da sie ein robustes Framework für die verteilte Datenverarbeitung mit integrierten Funktionen wie Fehlertoleranz, Parallelverarbeitung und Flexibilität bei der Verarbeitung verschiedener Datentypen bieten. Sie bilden das Rückgrat vieler Unternehmensanwendungen und ML-Workloads, die eine zuverlässige und effiziente Verarbeitung großer Datensätze erfordern.

Anwendungen für belastbare verteilte Datensätze

RDDs werden durch das Spark-System dargestellt, um iterative Algorithmen und interaktives data mining Werkzeuge. Im Folgenden finden Sie einige Beispiele dafür, wie RDDs in der realen Welt* verwendet werden.

Streaming

Ein Streaming verwendete ein RDD , um Nutzungsanalysen zu erstellen. Kundenabfragen wurden als Teilmengen gruppierter Daten geladen, die den Suchkriterien entsprachen, die für die Bereitstellung von Aggregationen wie Durchschnittswerten, Perzentilen und COUNT DISTINCT-Funktionen erforderlich waren. Die gefilterten Daten wurden einmal in ein RDD geladen, damit die Transformation auf das gesamte RDD angewendet werden konnte.

Stauvorhersage

In einer Studie der University of California - Berkley wurde ein RDD verwendet, um einen Lernalgorithmus zu parallelisieren, mit dem aus sporadischen GPS-Messungen von Autos auf Verkehrsstaus geschlossen werden kann. Mithilfe eines Verkehrsmodells kann das System Staus abschätzen, indem es die erwartete Reisezeit für einzelne Straßenverbindungen ableitet.

Klassifizierung von Social Media Spam

Das Monarch-Projekt in Berkeley verwendete Spark, um Link-Spam in Twitter-Nachrichten zu identifizieren. Sie implementierten einen logistischen Regressionsklassifikator auf Spark und verwendeten reduceByKey, um die Gradientenvektoren parallel auf dem Cluster zu summieren.

Eingebaute RDD

Im Folgenden finden Sie ein Beispiel für die Arten von Funktionen, die für in ein RDD geladene Daten verfügbar sind:

  • Gibt die Vereinigung dieses und eines anderen RDD zurück.
  • Aggregieren Sie die Elemente jeder Partition und dann die Ergebnisse für alle Partitionen.
  • Persistieren Sie diesen RDD.
  • Gibt das kartesische Produkt dieses RDD zurück.
  • Gibt ein Array zurück, das alle Elemente in diesem RDD enthält.
  • Das Datum und die Uhrzeit der RDD .
  • Gibt die Anzahl der Elemente im RDD zurück.
  • Rückgabe der Anzahl jedes eindeutigen Wertes in diesem RDD als Karte von (Wert, Anzahl) Paaren.
  • Gibt ein neues RDD zurück, das die eindeutigen Elemente in diesem RDD enthält.
  • Gibt ein neues RDD zurück, das nur die Elemente enthält, die ein Prädikat erfüllen.
  • Gibt das erste Element in diesem RDD zurück.
  • Aggregieren Sie die Elemente jeder Partition und dann die Ergebnisse für alle Partitionen.
  • Gibt ein RDD mit gruppierten Elementen zurück.
  • Interne Methode zu diesem RDD liest aus dem Cache, falls zutreffend, oder berechnet ihn andernfalls.
  • Rückgabe eines neuen RDD durch Anwendung einer Funktion auf alle Elemente dieses RDD.
  • Rückgabe eines neuen RDD durch Anwendung einer Funktion auf jede Partition dieses RDD.
  • Rückgabe einer gesampelten Teilmenge dieses RDD.
  • Speichern Sie dieses RDD als Textdatei mit String-Darstellungen der Elemente.
  • Gibt ein Array zurück, das alle Elemente in diesem RDD enthält.
  • Gibt die Vereinigung dieses und eines anderen RDD zurück.

Verwendung von RDDs mit Actian Data Platform

Die Actian Data Platform verwendet RDDs über den integrierten Spark Konnektor. Die Vektordatenbank kann auf Daten in jedem der über 50 Formate zugreifen, die der Konnektor bereitstellt. Auf Daten in Formaten wie PARQ und ORC wird als externe Tabellen zugegriffen. Prädikate können in externe Tabellen verschoben werden, um einen selektiven Zugriff zu ermöglichen.

*Quelle: Resilient Distributed Datasets: Eine fehlertolerante Abstraktion für In-Memory Cluster Computing. Elektrotechnik und Computerwissenschaften Universität von Kalifornien in Berkeley.