Intelligence des données

Metacat : Netflix rend ses Big Data accessibles et utiles

Actian Corporation

29 mars 2019

metacat-netflix

Comme beaucoup d'autres entreprises, Netflix dispose d'une grande quantité de données provenant de nombreuses sources différentes et dans des formats variés. En tant que leader de la vidéo à la demande en streaming (SVOD), l'exploitation des données est, bien entendu, un atout stratégique majeur. Compte tenu de la diversité de ses sources de données, la plateforme de streaming souhaitait disposer d'un moyen de fédérer et d'interagir avec ces actifs à l'aide d'un outil unique. C'est ainsi qu'est né Metacat.

Cet article explique les motivations qui ont conduit à la création de Metacat, une solution métadonnées destinée à faciliter la découverte, le traitement et la gestion des données de Netflix.

Lisez nos articles précédents sur Google et AirBnB.

Les chiffres clés de Netflix

Netflix a parcouru un long chemin depuis sa société de location de DVD dans les années 1990. La consommation de vidéos sur Netflix représente 15 % du trafic internet mondial. Mais aujourd'hui, Netflix est aussi :

  • 130 millions d'abonnés payants dans le monde (augmentation de 400 % depuis 2011).
  • Chiffre d'affaires de 10 milliards de dollars, dont 403 millions de dollars de bénéfices.
  • La capitalisation boursière de ces entreprises s'élève à 100 milliards de dollars, soit la somme de tous les grands groupes de télévision en Europe.
  • Investissement de 6 milliards de dollars dans des créations originales (émissions de télévision et films).

Netflix, c'est aussi un entrepôt de données de 60 pétaoctets (60 millions de milliards d'octets), ce qui constitue un véritable défi pour l'entreprise d'exploiter et de fédérer ces données.

Architecture de la plateforme Big Data de Netflix

Son architecture de base comprend trois services clés. Il s'agit du service d'exécution (Genie), du service de métadonnées (Metacat) et du service d'événements (Microbot).

Afin d'opérer entre ses différentes langues et sources de données, qui ne sont pas très compatibles entre elles, Metacat est né. Cet outil agit comme une couche d'accès aux données et métadonnées des sources de données de Netflix. Un service centralisé accessible par tout utilisateur données afin de faciliter leur découverte, leur traitement et leur gestion.

Metacat et ses caractéristiques

Netflix dispose de requêtes de données, telles que Hive, Pig ou Spark, qui ne peuvent pas fonctionner ensemble. En introduisant une couche d'abstraction commune, Netflix peut fournir un accès aux données à ses utilisateurs, quels que soient leurs systèmes de stockage.

En outre, Metacat va jusqu'à simplifier le transfert d'un jeu de données données d'un datastore à un autre.

Entreprises métadonnées

Des métadonnées écrites à la main, utilisateur et orientées vers l'entreprise, en format libre, peuvent être ajoutées via Metacat. Les informations principales comprennent les connexions, les configurations, les métriques et les cycles de vie de chaque jeu de données.

découverte de données

En créant Metacat, Netflix permet aux consommateurs de trouver facilement des ensembles de données d'entreprise. L'outil publie les schémas et les métadonnées d'entreprise définis par ses utilisateurs dans Elasticsearch, ce qui facilite la recherche d'informations en texte intégral dans ses sources de données.

Modification des données et audit

En tant qu'outil transversal pour tous les magasins de données, Metacat enregistre et notifie toutes les modifications apportées aux métadonnées et aux données elles-mêmes à partir de ses systèmes de stockage.

Metacat et l'avenir de Netflix

Selon Netflix, la version actuelle de Metacat est une étape vers les nouvelles fonctionnalités sur lesquelles ils travaillent. Ils souhaitent encore améliorer la visualisation de leurs métadonnées, ce qui serait très utile à des fins de restauration.

Metacat, selon Netflix, devrait également pouvoir disposer d'une architecture plug-in. Ainsi, son outil pourrait valider et maintenir toutes ses métadonnées. En effet, les utilisateurs définissent les métadonnées sous forme libre. Netflix doit donc mettre en place un processus de validation avant de stocker les métadonnées.

En tant qu'outil de centralisation des données multi-sources et multi-formats, Metacat de Netflix a clairement progressé.

Le développement de ce service interne s'est adapté à tous les outils utilisés par l'entreprise, permettant à Netflix de devenir Data Driven.

Sources d'information

logo avatar actian

À propos d'Actian Corporation

Actian facilite l'accès aux données. Notre plateforme de données simplifie la façon dont les gens connectent, gèrent et analysent les données dans les environnements cloud, hybrides et sur site . Avec des décennies d'expérience dans la gestion des données et l'analyse, Actian fournit des solutions de de haute performance qui permettent aux entreprises de prendre des décisions basées sur les données. Actian est reconnu par les principaux analystes et a reçu des prix de l'industrie pour sa performance et son innovation. Nos équipes partagent des cas d'utilisation éprouvés lors de conférences (par exemple, Strata Data) et contribuent à des projets à code source ouvert. Sur le blog d'Actian, nous abordons des sujets tels que l'ingestion de données en temps réel, l'analyse de données, la gouvernance données, la gestion des données, la qualité des données, l'intelligence des données et l'analyse pilotée par l'IA.