What is a Resilient Distributed Dataset?

Femme souriante tenant une tablette, équipe discutant d'un jeu de données distribué et résilient.

Le projet open-source Apache Spark utilise une structureRDDResilient Distributed jeu de données ). Il s'agit d'une collection distribuée immuable d'objets répartis entre les nœuds. Le RDD peut être traité en parallèle sur une grappe d'ordinateurs et est conçu pour être tolérant aux pannes, ce qui signifie qu'il peut se rétablir automatiquement en cas de défaillance d'un nœud. Les RDD peuvent être exploités en parallèle à l'aide d'une interface de programmation d'applications (API) de bas niveau qui propose des transformations et des actions.

Pourquoi un jeu de données distribué et résilient est-il important ?

Les jeux de données distribués résilients sont essentiels car ils fournissent un cadre robuste pour le traitement des données distribuées avec des Fonctionnalités intégrées telles que la tolérance aux pannes, le traitement parallèle et la flexibilité dans le traitement de différents types de données. Ils constituent l'épine dorsale de nombreuses applications d'entreprise et de charges de travail ML qui nécessitent un traitement fiable et efficace de jeux de données volumineux.

Applications pour les jeux de données distribués et résilients

Les RDD sont présentés à travers le système Spark pour support algorithmes itératifs et interactifs. exploration de données interactifs. Vous trouverez ci-dessous quelques exemples d'utilisation des RDD dans le monde réel*.

Analyse de la Streaming vidéo Streaming

Une société de streaming vidéo a utilisé un RDD pour fournir des analyses d'utilisation. Les requêtes des clients étaient chargées sous forme de sous-ensembles de données groupées correspondant aux critères de recherche nécessaires pour fournir des agrégations telles que les moyennes, les percentiles et les fonctions COUNT DISTINCT. Les données filtrées ont été chargées une seule fois dans un RDD afin que la transformation puisse être appliquée à l'ensemble du RDD.

Prévision de l'encombrement

Une étude de l'Université de Californie - Berkley a utilisé un RDD pour paralléliser un algorithme d'apprentissage permettant de déduire la congestion du trafic routier à partir de mesures GPS automobiles sporadiques. À l'aide d'un modèle de trafic, le système peut estimer l'encombrement en déduisant le temps de trajet prévu sur les différentes liaisons routières.

réseaux sociaux Classification des spams

Le projet Monarch à Berkeley a utilisé Spark pour identifier les spams de liens dans les messages Twitter. Ils ont mis en œuvre un classificateur de régression logistique sur Spark en utilisant reduceByKey pour additionner les vecteurs de gradient en parallèle sur le cluster Spark.

Fonctions intégrées de RDD

Voici un exemple des types de fonctions disponibles pour les données chargées dans un RDD:

Retourne l'union de ce RDD et d'un autre.
Agréger les éléments de chaque partition puis les résultats de toutes les partitions.
Persister ce RDD.
Renvoie le produit cartésien de ce RDD.
Renvoie un tableau contenant tous les éléments de ce RDD.
La date et l'heure de création du RDD .
Renvoie le nombre d'éléments dans le RDD.
Renvoie le nombre de chaque valeur unique dans ce RDD sous la forme d'une carte de paires (valeur, nombre).
Renvoie un nouveau RDD contenant les éléments distincts de ce RDD.
Renvoie un nouveau RDD contenant uniquement les éléments qui satisfont un prédicat.
Renvoie le premier élément de ce RDD.
Agréger les éléments de chaque partition puis les résultats de toutes les partitions.
Renvoie un RDD d'éléments groupés.
La méthode interne à ce RDD lira le cache, le cas échéant, ou le calculera.
Renvoie un nouveau RDD en appliquant une fonction à tous les éléments de ce RDD.
Renvoie un nouveau RDD en appliquant une fonction à chaque partition de ce RDD.
Renvoie un sous-ensemble échantillonné de ce RDD.
Enregistrez ce RDD sous la forme d'un fichier texte en utilisant des représentations sous forme de chaînes de caractères des éléments.
Renvoie un tableau contenant tous les éléments de ce RDD.
Retourne l'union de ce RDD et d'un autre.

Actian et la plateforme d'intelligence des données

La plateformeActianData Intelligencea été spécialement conçue pour aider les organisations à unifier, gérer et comprendre leurs données dans des environnements hybrides. Elle regroupe métadonnées , gouvernance, la traçabilité, le contrôle de la qualité et l'automatisation au sein d'une seule et même plateforme. Cela permet aux équipes de savoir d'où proviennent les données, comment elles sont utilisées et si elles répondent aux exigences internes et externes.

Grâce à son interface centralisée, Actian offre insight en temps réel insight les structures et les flux de données, ce qui facilite l'application des politiques, la résolution des problèmes et la collaboration entre les services. La plateforme aide également à replacer les données dans leur contexte métier, permettant ainsi aux équipes de les exploiter de manière plus efficace et responsable. La plateforme Actian est conçue pour s'adapter à l'évolution des écosystèmes de données, garantissant une utilisation cohérente, intelligente et sécurisée des données à l'échelle de l'entreprise.Demandez votre démonstration personnalisée.

*Source : Resilient Distributed jeux de données: Une abstraction tolérante aux fautes pour l'informatique in-memory grappe in-memory . Ingénierie électrique et sciences informatiques Université de Californie à Berkeley.

FAQ

jeu de données distribué résilient jeu de données RDD) est un ensemble distribué et immuable d'objets répartis entre les nœuds d'Apache Spark, qui peut être traité en parallèle sur un cluster d'ordinateurs et qui est conçu pour être tolérant aux pannes.

Les RDD offrent un cadre robuste pour le traitement distribué des données, avec Fonctionnalités intégrées Fonctionnalités la tolérance aux pannes, le traitement parallèle et la flexibilité dans la gestion de divers types de données ; ils constituent ainsi la colonne vertébrale de nombreuses applications d'entreprise et charges de travail d'apprentissage automatique.

Les RDD sont conçus pour se remettre automatiquement des pannes de nœuds, garantissant ainsi un traitement fiable de grands jeux de données des systèmes distribués.

Les RDD sont utilisés dans streaming vidéo pour établir des rapports d'utilisation, dans les systèmes de prévision de congestion qui analysent les données GPS, ainsi que dans des projets de classification réseaux sociaux , comme l'identification des liens indésirables dans les messages Twitter.

Les RDD support telles que le renvoi d'unions avec d'autres RDD, l'agrégation d'éléments entre partitions, la persistance des données, le filtrage d'éléments, l'application de fonctions de mappage, le comptage d'éléments et l'enregistrement des résultats sous forme de fichiers texte.

Les RDD sont gérés par le système Spark afin de support les algorithmes support et exploration de données interactive exploration de données , offrant une API de bas niveau avec des transformations et des actions pouvant être exécutées en parallèle.

Oui, les RDD intègrent des fonctions permettant de persister les données, ce qui permet de charger une seule fois les données filtrées ou transformées et de les réutiliser dans plusieurs opérations, pour un gain d'efficacité.

Nouveau Plateforme Actian Data Intelligence

Fonctionnalités clés

Nouveau AI Analyst

Explorer AI Analyst

Nouveau Actian Data Observability

Fonctionnalités clés

Jaspersoft New

Bases de données

Produits

Analytics AI Platform

Fonctionnalités clés

Intégration de données

Produits

Vue d’ensemble des produits

Tous les produits

What is a Resilient Distributed Dataset?

Pourquoi un jeu de données distribué et résilient est-il important ?

Applications pour les jeux de données distribués et résilients

Analyse de la Streaming vidéo Streaming

Prévision de l'encombrement

réseaux sociaux Classification des spams

Fonctions intégrées de RDD

Actian et la plateforme d'intelligence des données

FAQ

What is a Resilient Distributed Dataset?

Pourquoi un jeu de données distribué et résilient est-il important ?

Applications pour les jeux de données distribués et résilients

Analyse de la Streaming vidéo Streaming

Prévision de l'encombrement

réseaux sociaux Classification des spams

Fonctions intégrées de RDD

Actian et la plateforme d'intelligence des données

FAQ

Qu'est-ce qu'un jeu de données distribué résilient jeu de données RDD) ?

Pourquoi jeux de données distribués résilients sont-ils jeux de données ?

Comment les RDD assurent-ils la tolérance aux pannes ?

Quels types d'applications utilisent jeux de données distribués résilients ?

Quelles opérations peut-on effectuer sur des RDD ?

Comment les RDD sont-ils utilisés dans Apache Spark ?

Les RDD peuvent-ils être enregistrés en vue d'une réutilisation ?

En savoir plus

Qu'est-ce que l'Edge Analytics ?

7 techniques d'analyse de la clientèle pour mieux la connaître

Qu'est-ce qu'une plateforme de données moderne ?