Metacat : Netflix rend ses Big Data accessibles et utiles
Actian Corporation
29 mars 2019

Comme beaucoup d'autres entreprises, Netflix dispose d'une grande quantité de données provenant de nombreuses sources différentes et dans des formats variés. En tant que leader de la vidéo à la demande en streaming (SVOD), l'exploitation des données est, bien entendu, un atout stratégique majeur. Compte tenu de la diversité de ses sources de données, la plateforme de streaming souhaitait disposer d'un moyen de fédérer et d'interagir avec ces actifs à l'aide d'un outil unique. C'est ainsi qu'est né Metacat.
Les chiffres clés de Netflix
Netflix a parcouru un long chemin depuis sa société de location de DVD dans les années 1990. La consommation de vidéos sur Netflix représente 15 % du trafic internet mondial. Mais aujourd'hui, Netflix est aussi :
-
130 millions d'abonnés payants dans le monde (augmentation de 400 % depuis 2011).
-
Chiffre d'affaires de 10 milliards de dollars, dont 403 millions de dollars de bénéfices.
-
La capitalisation boursière de ces entreprises s'élève à 100 milliards de dollars, soit la somme de tous les grands groupes de télévision en Europe.
-
Investissement de 6 milliards de dollars dans des créations originales (émissions de télévision et films).
Netflix, c'est aussi un entrepôt de données de 60 pétaoctets (60 millions de milliards d'octets), ce qui constitue un véritable défi pour l'entreprise d'exploiter et de fédérer ces données.
Architecture de la plateforme Big Data de Netflix
Son architecture de base comprend trois services clés. Il s'agit du service d'exécution (Genie), du service de métadonnées (Metacat) et du service d'événements (Microbot).
Afin d'opérer entre ses différentes langues et sources de données, qui ne sont pas très compatibles entre elles, Metacat est né. Cet outil agit comme une couche d'accès aux données et métadonnées des sources de données de Netflix. Un service centralisé accessible par tout utilisateur données afin de faciliter leur découverte, leur traitement et leur gestion.
Metacat et ses caractéristiques
Netflix dispose de requêtes de données, telles que Hive, Pig ou Spark, qui ne peuvent pas fonctionner ensemble. En introduisant une couche d'abstraction commune, Netflix peut fournir un accès aux données à ses utilisateurs, quels que soient leurs systèmes de stockage.
En outre, Metacat va jusqu'à simplifier le transfert d'un jeu de données données d'un datastore à un autre.
Entreprises métadonnées
Des métadonnées écrites à la main, utilisateur et orientées vers l'entreprise, en format libre, peuvent être ajoutées via Metacat. Les informations principales comprennent les connexions, les configurations, les métriques et les cycles de vie de chaque jeu de données.
découverte de données
En créant Metacat, Netflix permet aux consommateurs de trouver facilement des ensembles de données d'entreprise. L'outil publie les schémas et les métadonnées d'entreprise définis par ses utilisateurs dans Elasticsearch, ce qui facilite la recherche d'informations en texte intégral dans ses sources de données.
Modification des données et audit
En tant qu'outil transversal pour tous les magasins de données, Metacat enregistre et notifie toutes les modifications apportées aux métadonnées et aux données elles-mêmes à partir de ses systèmes de stockage.
Metacat et l'avenir de Netflix
Selon Netflix, la version actuelle de Metacat est une étape vers les nouvelles fonctionnalités sur lesquelles ils travaillent. Ils souhaitent encore améliorer la visualisation de leurs métadonnées, ce qui serait très utile à des fins de restauration.
Metacat, selon Netflix, devrait également pouvoir disposer d'une architecture plug-in. Ainsi, son outil pourrait valider et maintenir toutes ses métadonnées. En effet, les utilisateurs définissent les métadonnées sous forme libre. Netflix doit donc mettre en place un processus de validation avant de stocker les métadonnées.
En tant qu'outil de centralisation des données multi-sources et multi-formats, Metacat de Netflix a clairement progressé.
Le développement de ce service interne s'est adapté à tous les outils utilisés par l'entreprise, permettant à Netflix de devenir Data Driven.
Sources d'information
- Metacat : Faire en sorte que les Big Data puissent être découvertes et aient un sens sur le site de Netflix https://netflixtechblog.com/metacat-making-big-data-discoverable-and-meaningful-at-netflix-56fb36a53520
- La folie Netflix en cinq chiffres https://www.lesechos.fr/tech-medias/medias/la-folie-netflix-en-cinq-chiffres-1132022
S'abonner au blog d'Actian
Abonnez-vous au blogue d'Actian pour recevoir des renseignements sur les données directement à vous.
- Restez informé - Recevez les dernières informations sur l'analyse des données directement dans votre boîte de réception.
- Ne manquez jamais un article - Vous recevrez des mises à jour automatiques par courrier électronique pour vous avertir de la publication de nouveaux articles.
- Tout dépend de vous - Modifiez vos préférences de livraison en fonction de vos besoins.