Inteligencia de datos

Metacat: Netflix hace accesibles y útiles sus macrodatos

Corporación Actian

29 de marzo de 2019

metacat-netflix

Como muchas otras empresas, Netflix tiene una gran cantidad de datos que proceden de muchas fuentes de datos diferentes y en varios formatos. Como empresa líder en streaming de vídeo a la carta (SVOD), la explotación de datos es, por supuesto, un activo estratégico de primer orden. Dada la diversidad de sus fuentes de datos, la plataforma de streaming quería una forma de federar e interactuar con estos activos utilizando una única herramienta. Así nació Metacat.

Este artículo explica las motivaciones que llevaron a crear Metacat, una solución de metadatos destinada a facilitar el descubrimiento, el tratamiento y la gestión de los datos de Netflix.

Lea nuestros artículos anteriores sobre Google y AirBnB.

Cifras clave de Netflix

Netflix ha recorrido un largo camino desde su empresa de alquiler de DVD en los años noventa. El consumo de vídeo en Netflix representa el 15% del tráfico mundial de Internet. Pero Netflix hoy también lo es:

  • 130 millones de abonados de pago en todo el mundo (aumento del 400 % desde 2011).
  • 10.000 millones de facturación, incluidos 403 millones de beneficios.
  • 100.000 millones de dólares de capitalización bursátil, o la suma de todos los principales grupos de televisión de Europa.
  • Inversión de 6.000 millones de dólares en creaciones originales (programas de televisión y películas).

Netflix cuenta además con un almacén de datos de 60 petabytes (60 millones de billones de bytes), lo que supone un verdadero reto para la empresa a la hora de explotar y federar estos datos.

Arquitectura de la plataforma de Big Data de Netflix

Su arquitectura básica incluye tres servicios clave. Se trata del Servicio de Ejecución (Genie), el Servicio de Metadatos (Metacat) y el Servicio de Eventos (Microbot).

Para poder operar entre sus diferentes idiomas y fuentes de datos, poco compatibles entre sí, nació Metacat. Esta herramienta actúa como una capa de acceso a los datos y metadatos de las fuentes de datos de Netflix. Un servicio centralizado accesible por cualquier usuario de datos para facilitar su descubrimiento, tratamiento y gestión.

Metacat y sus características

Netflix tiene consultas de datos, como Hive, Pig o Spark, que no son operables conjuntamente. Al introducir una capa de abstracción común, Netflix puede proporcionar acceso a los datos a sus usuarios, independientemente de sus sistemas de almacenamiento.

Además, Metacat llega a simplificar la transferencia de un conjunto de datos de un almacén de datos a otro.

Metadatos empresariales

A través de Metacat pueden añadirse metadatos escritos a mano, definidos por el usuario y orientados a la empresa, en formato libre. Su información principal incluye las conexiones, configuraciones, métricas y ciclos de vida de cada conjunto de datos.

Descubrimiento de datos

Con la creación de Metacat, Netflix facilita a los consumidores la búsqueda de conjuntos de datos empresariales. La herramienta publica esquemas y metadatos empresariales definidos por sus usuarios en Elasticsearch, lo que facilita la búsqueda de información a texto completo en sus fuentes de datos.

Modificación y auditoría de datos

Como herramienta transversal para todos los almacenes de datos, Metacat registra y notifica todos los cambios realizados en los metadatos y en los propios datos de sus sistemas de almacenamiento.

Metacat y el futuro de Netflix

Según Netflix, la versión actual de Metacat es un paso hacia las nuevas funciones en las que están trabajando. Aún quieren mejorar la visualización de sus metadatos, ya que sería muy útil para la restauración.

Metacat, según Netflix, también debería poder tener una arquitectura plug-in. Así, su herramienta podría validar y mantener todos sus metadatos. Esto se debe a que los usuarios definen los metadatos de forma libre. Por lo tanto, Netflix necesita poner en marcha un proceso de validación que pueda realizarse antes de almacenar los metadatos.

Como herramienta centralizadora de datos de múltiples fuentes y formatos, Metacat de Netflix ha progresado claramente.

El desarrollo de este servicio interno se ha adaptado a todas las herramientas utilizadas por la empresa, permitiendo a Netflix convertirse en Data Driven.

Fuentes

logo avatar actian

Acerca de Actian Corporation

Actian hace que trabajar con datos sea fácil. Nuestra plataforma de datos simplifica la forma en que las personas conectan, gestionan y analizan datos en entornos cloud, híbridos y locales. Con décadas de experiencia en gestión y analítica de datos, Actian ofrece soluciones de alto rendimiento que ayudan a las empresas a tomar decisiones basadas en datos. Estamos reconocidos por los principales analistas del sector y hemos recibido premios por nuestro rendimiento e innovación. Nuestros equipos comparten casos de éxito en conferencias (como Strata Data) y contribuyen activamente a proyectos de código abierto. En el blog de Actian tratamos temas como la ingesta de datos en tiempo real, el análisis de datos, la gobernanza y gestión de datos, la calidad de los datos, la inteligencia de datos y el análisis impulsado por IA.