Metacat: Netflix hace accesibles y útiles sus macrodatos
Corporación Actian
29 de marzo de 2019

Como muchas otras empresas, Netflix tiene una gran cantidad de datos que proceden de muchas fuentes de datos diferentes y en varios formatos. Como empresa líder en streaming de vídeo a la carta (SVOD), la explotación de datos es, por supuesto, un activo estratégico de primer orden. Dada la diversidad de sus fuentes de datos, la plataforma de streaming quería una forma de federar e interactuar con estos activos utilizando una única herramienta. Así nació Metacat.
Cifras clave de Netflix
Netflix ha recorrido un largo camino desde su empresa de alquiler de DVD en los años noventa. El consumo de vídeo en Netflix representa el 15% del tráfico mundial de Internet. Pero Netflix hoy también lo es:
-
130 millones de abonados de pago en todo el mundo (aumento del 400 % desde 2011).
-
10.000 millones de facturación, incluidos 403 millones de beneficios.
-
100.000 millones de dólares de capitalización bursátil, o la suma de todos los principales grupos de televisión de Europa.
-
Inversión de 6.000 millones de dólares en creaciones originales (programas de televisión y películas).
Netflix cuenta además con un almacén de datos de 60 petabytes (60 millones de billones de bytes), lo que supone un verdadero reto para la empresa a la hora de explotar y federar estos datos.
Arquitectura de la plataforma de Big Data de Netflix
Su arquitectura básica incluye tres servicios clave. Se trata del Servicio de Ejecución (Genie), el Servicio de Metadatos (Metacat) y el Servicio de Eventos (Microbot).
Para poder operar entre sus diferentes idiomas y fuentes de datos, poco compatibles entre sí, nació Metacat. Esta herramienta actúa como una capa de acceso a los datos y metadatos de las fuentes de datos de Netflix. Un servicio centralizado accesible por cualquier usuario de datos para facilitar su descubrimiento, tratamiento y gestión.
Metacat y sus características
Netflix tiene consultas de datos, como Hive, Pig o Spark, que no son operables conjuntamente. Al introducir una capa de abstracción común, Netflix puede proporcionar acceso a los datos a sus usuarios, independientemente de sus sistemas de almacenamiento.
Además, Metacat llega a simplificar la transferencia de un conjunto de datos de un almacén de datos a otro.
Metadatos empresariales
A través de Metacat pueden añadirse metadatos escritos a mano, definidos por el usuario y orientados a la empresa, en formato libre. Su información principal incluye las conexiones, configuraciones, métricas y ciclos de vida de cada conjunto de datos.
Descubrimiento de datos
Con la creación de Metacat, Netflix facilita a los consumidores la búsqueda de conjuntos de datos empresariales. La herramienta publica esquemas y metadatos empresariales definidos por sus usuarios en Elasticsearch, lo que facilita la búsqueda de información a texto completo en sus fuentes de datos.
Modificación y auditoría de datos
Como herramienta transversal para todos los almacenes de datos, Metacat registra y notifica todos los cambios realizados en los metadatos y en los propios datos de sus sistemas de almacenamiento.
Metacat y el futuro de Netflix
Según Netflix, la versión actual de Metacat es un paso hacia las nuevas funciones en las que están trabajando. Aún quieren mejorar la visualización de sus metadatos, ya que sería muy útil para la restauración.
Metacat, según Netflix, también debería poder tener una arquitectura plug-in. Así, su herramienta podría validar y mantener todos sus metadatos. Esto se debe a que los usuarios definen los metadatos de forma libre. Por lo tanto, Netflix necesita poner en marcha un proceso de validación que pueda realizarse antes de almacenar los metadatos.
Como herramienta centralizadora de datos de múltiples fuentes y formatos, Metacat de Netflix ha progresado claramente.
El desarrollo de este servicio interno se ha adaptado a todas las herramientas utilizadas por la empresa, permitiendo a Netflix convertirse en Data Driven.
Fuentes
Suscríbase al blog de Actian
Suscríbase al blog de Actian para recibir información sobre datos directamente en su correo electrónico.
- Manténgase informado: reciba lo último en análisis de datos directamente en su bandeja de entrada.
- No se pierda ni una publicación: recibirá actualizaciones automáticas por correo electrónico que le avisarán cuando se publiquen nuevas publicaciones.
- Todo depende de usted: cambie sus preferencias de entrega para adaptarlas a sus necesidades.