jeu de données distribué et résilient
Le projet open-source Apache Spark utilise une structureRDDResilient Distributed jeu de données ). Il s'agit d'une collection distribuée immuable d'objets répartis entre les nœuds. Le RDD peut être traité en parallèle sur une grappe d'ordinateurs et est conçu pour être tolérant aux pannes, ce qui signifie qu'il peut se rétablir automatiquement en cas de défaillance d'un nœud. Les RDD peuvent être exploités en parallèle à l'aide d'une interface de programmation d'applications (API) de bas niveau qui propose des transformations et des actions.
Pourquoi un jeu de données distribué et résilient est-il important ?
Les jeux de données distribués résilients sont essentiels car ils fournissent un cadre robuste pour le traitement des données distribuées avec des Fonctionnalités intégrées telles que la tolérance aux pannes, le traitement parallèle et la flexibilité dans le traitement de différents types de données. Ils constituent l'épine dorsale de nombreuses applications d'entreprise et de charges de travail ML qui nécessitent un traitement fiable et efficace de jeux de données volumineux.
Applications pour les jeux de données distribués et résilients
Les RDD sont présentés à travers le système Spark pour support algorithmes itératifs et interactifs. exploration de données interactifs. Vous trouverez ci-dessous quelques exemples d'utilisation des RDD dans le monde réel*.
Analyse de la Streaming vidéo Streaming
Une société de streaming vidéo a utilisé un RDD pour fournir des analyses d'utilisation. Les requêtes des clients étaient chargées sous forme de sous-ensembles de données groupées correspondant aux critères de recherche nécessaires pour fournir des agrégations telles que les moyennes, les percentiles et les fonctions COUNT DISTINCT. Les données filtrées ont été chargées une seule fois dans un RDD afin que la transformation puisse être appliquée à l'ensemble du RDD.
Prévision de l'encombrement
Une étude de l'Université de Californie - Berkley a utilisé un RDD pour paralléliser un algorithme d'apprentissage permettant de déduire la congestion du trafic routier à partir de mesures GPS automobiles sporadiques. À l'aide d'un modèle de trafic, le système peut estimer l'encombrement en déduisant le temps de trajet prévu sur les différentes liaisons routières.
réseaux sociaux Classification des spams
Le projet Monarch à Berkeley a utilisé Spark pour identifier les spams de liens dans les messages Twitter. Ils ont mis en œuvre un classificateur de régression logistique sur Spark en utilisant reduceByKey pour additionner les vecteurs de gradient en parallèle sur le cluster Spark.
Fonctions intégrées de RDD
Voici un exemple des types de fonctions disponibles pour les données chargées dans un RDD:
- Retourne l'union de ce RDD et d'un autre.
- Agréger les éléments de chaque partition puis les résultats de toutes les partitions.
- Persister ce RDD.
- Renvoie le produit cartésien de ce RDD.
- Renvoie un tableau contenant tous les éléments de ce RDD.
- La date et l'heure de création du RDD .
- Renvoie le nombre d'éléments dans le RDD.
- Renvoie le nombre de chaque valeur unique dans ce RDD sous la forme d'une carte de paires (valeur, nombre).
- Renvoie un nouveau RDD contenant les éléments distincts de ce RDD.
- Renvoie un nouveau RDD contenant uniquement les éléments qui satisfont un prédicat.
- Renvoie le premier élément de ce RDD.
- Agréger les éléments de chaque partition puis les résultats de toutes les partitions.
- Renvoie un RDD d'éléments groupés.
- La méthode interne à ce RDD lira le cache, le cas échéant, ou le calculera.
- Renvoie un nouveau RDD en appliquant une fonction à tous les éléments de ce RDD.
- Renvoie un nouveau RDD en appliquant une fonction à chaque partition de ce RDD.
- Renvoie un sous-ensemble échantillonné de ce RDD.
- Enregistrez ce RDD sous la forme d'un fichier texte en utilisant des représentations sous forme de chaînes de caractères des éléments.
- Renvoie un tableau contenant tous les éléments de ce RDD.
- Retourne l'union de ce RDD et d'un autre.
Actian et la plate-forme d'intelligence des données
Actian Data Intelligence Platform est conçue pour aider les entreprises à unifier, gérer et comprendre leurs données dans des environnements hybrides. Elle rassemble la gestion des métadonnées , la gouvernance, le lignage, le contrôle de la qualité et l'automatisation en une seule plateforme. Les équipes peuvent ainsi savoir d'où viennent les données, comment elles sont utilisées et si elles répondent aux exigences internes et externes.
Grâce à son interface centralisée, Actian offre une insight en temps réel des structures et des flux de données, ce qui facilite l'application des politiques, la résolution des problèmes et la collaboration entre les services. La plateforme aide également à relier les données au contexte commercial, ce qui permet aux équipes d'utiliser les données de manière plus efficace et plus responsable. La plateforme d'Actian est conçue pour s'adapter à l'évolution des écosystèmes de données, favorisant une utilisation cohérente, intelligente et sécurisée des données dans l'ensemble de l'entreprise. Demandez votre démo personnalisée.
*Source : Resilient Distributed jeux de données: Une abstraction tolérante aux fautes pour l'informatique in-memory grappe in-memory . Ingénierie électrique et sciences informatiques Université de Californie à Berkeley.
FAQ
jeu de données distribué résilient jeu de données RDD) est un ensemble distribué et immuable d'objets répartis entre les nœuds d'Apache Spark, qui peut être traité en parallèle sur un cluster d'ordinateurs et qui est conçu pour être tolérant aux pannes.
Les RDD offrent un cadre robuste pour le traitement distribué des données, avec Fonctionnalités intégrées Fonctionnalités la tolérance aux pannes, le traitement parallèle et la flexibilité dans la gestion de divers types de données ; ils constituent ainsi la colonne vertébrale de nombreuses applications d'entreprise et charges de travail d'apprentissage automatique.
Les RDD sont conçus pour se remettre automatiquement des pannes de nœuds, garantissant ainsi un traitement fiable de grands jeux de données des systèmes distribués.
Les RDD sont utilisés dans streaming vidéo pour établir des rapports d'utilisation, dans les systèmes de prévision de congestion qui analysent les données GPS, ainsi que dans des projets de classification réseaux sociaux , comme l'identification des liens indésirables dans les messages Twitter.
Les RDD support telles que le renvoi d'unions avec d'autres RDD, l'agrégation d'éléments entre partitions, la persistance des données, le filtrage d'éléments, l'application de fonctions de mappage, le comptage d'éléments et l'enregistrement des résultats sous forme de fichiers texte.
Les RDD sont gérés par le système Spark afin de support les algorithmes support et exploration de données interactive exploration de données , offrant une API de bas niveau avec des transformations et des actions pouvant être exécutées en parallèle.
Oui, les RDD intègrent des fonctions permettant de persister les données, ce qui permet de charger une seule fois les données filtrées ou transformées et de les réutiliser dans plusieurs opérations, pour un gain d'efficacité.