Los metadatos a través de los ojos de los gigantes de la web
Corporación Actian
17 de marzo de 2020

El análisis del ciclo de vida de los datos es un elemento de la gestión de datos que las empresas siguen luchando por implantar.
Organizaciones a la vanguardia de la innovación de datos como Uber, LinkedIn, Netflix, Airbnb y Lyft también han visto el valor de los metadatos en la magnitud de este reto.
Así, desarrollaron una estrategia de gestión de metadatos mediante plataformas específicas. Desarrolladas a menudo a medida, facilitan la ingestión, indexación, búsqueda, anotación y descubrimiento de datos para mantener conjuntos de datos de alta calidad.
Los siguientes ejemplos ponen de relieve una constante compartida: la dificultad, acrecentada por el volumen y la variedad, de transformar los datos empresariales en conocimientos explotables.
Veamos el análisis y el contexto de estos gigantes de la Web:
Uber
Cada interacción en la plataforma de Uber, desde sus servicios de transporte compartido hasta sus entregas de comida, se basa en datos. A través del análisis, sus datos permiten experiencias de usuario más fiables y relevantes.
Estadísticas clave de Uber:
- Miles de miles de millones de mensajes Kafka al día.
- Cientos de petabytes de datos en HDFS en centros de datos.
- Millones de consultas analíticas semanales.
Sin embargo, el volumen de datos generados por sí solo no basta para aprovechar la información que representan; para ser utilizados con eficacia y eficiencia, los datos requieren más contexto para tomar decisiones empresariales óptimas.
Para proporcionar información adicional, Uber desarrolló "Databook", la plataforma interna de la empresa que recopila y gestiona metadatos sobre conjuntos de datos internos con el fin de transformar los datos en conocimiento.
Databook está diseñado para permitir a los empleados de Uber explorar, descubrir y utilizar eficazmente los datos de Uber. Databook da contexto a sus datos (su significado, calidad, etc.) y garantiza que se mantenga en su plataforma para los miles de empleados que quieren analizar los datos. En resumen, los metadatos de Databook permiten a los líderes de datos pasar de la visualización de datos en bruto al conocimiento procesable.
En el artículo Databook: Turning Big Data into Knowledge with Metadata at Uber, el artículo concluye que uno de los mayores retos de Databook fue pasar de la actualización manual del repositorio de metadatos a la automatización.
Airbnb
En una conferencia celebrada en mayo de 2017, John Bodley, ingeniero de datos de AirBnB, expuso los nuevos problemas derivados del crecimiento de la empresa: un panorama confuso y no unificado que no permitía acceder a una información cada vez más importante.
¿Qué podemos hacer con todos estos datos recopilados a diario? ¿Cómo los convertimos en activos para todos los empleados de Airbnb?
Un equipo especializado se propuso desarrollar una herramienta que democratizara el acceso a los datos dentro de la empresa. Su trabajo se basó tanto en los conocimientos de los analistas y su capacidad para comprender los puntos críticos, como en los de los ingenieros, capaces de ofrecer una visión más técnica. En el núcleo del proyecto se realizaron entrevistas a los empleados sobre sus problemas.
Lo que se desprende de esta encuesta es la dificultad para encontrar la información que los empleados necesitan para trabajar, y un enfoque todavía demasiado tribal a la hora de compartir y conservar la información.
Para hacer frente a estos retos, AirBnB creó Data Portal, una plataforma de gestión de metadatos. Data Portal centraliza y comparte esta información a través de esta plataforma de autoservicio.
Lyft
Lyft es un servicio de viajes compartidos y el principal competidor de Uber en el mercado norteamericano.
La empresa se dio cuenta de que proporcionaban un acceso ineficaz a los datos para sus perfiles analíticos. Sus reflexiones se centraban en poner a disposición el conocimiento de los datos para optimizar sus procesos. En solo unos meses, su objetivo de crear una interfaz para investigar datos presentaba estos dos grandes retos:
- Productividad - Ya sea para crear un nuevo modelo, instrumentar una nueva métrica o realizar un análisis ad hoc, ¿cómo puede Lyft utilizar estos datos de la forma más productiva y eficiente posible?
- Cumplimiento - Al recopilar datos sobre los usuarios de una organización, ¿cómo puede Lyft cumplir con los crecientes requisitos normativos y mantener la confianza de sus usuarios?
En su artículo Amundsen - Lyft's data discovery & metadata engine, Lyft afirma que la clave no está en los datos, sino en los metadatos.
Netflix
Como líder mundial del streaming de vídeo, la explotación de datos en Netflix es, por supuesto, un importante foco estratégico.
Dada la diversidad de sus fuentes de datos, la plataforma de vídeo quería ofrecer una forma de federar e interactuar con estos activos desde una única herramienta. Esta búsqueda de una solución desembocó en Metacat.
Esta herramienta actúa como una capa de acceso a los datos y metadatos de las fuentes de datos de Netflix. Permite a sus usuarios acceder a datos de cualquier sistema de almacenamiento a través de tres funciones diferentes:
- Añadir metadatos empresariales: A mano o definidos por el usuario, los metadatos de negocio se pueden añadir a través de Metacat.
- Descubrimiento de datos: La herramienta publica esquemas y metadatos de negocio definidos por sus usuarios en Elasticsearch, facilitando la búsqueda de texto completo de información en fuentes de datos.
- Notificación de cambios en los datos y auditoría: Metacat registra y notifica todos los cambios en los metadatos de los sistemas de almacenamiento.
En el artículo de su blog, "Metacat: Making Big Data Discoverable and Meaningful", en Netflix, la empresa confirma que están lejos de haber terminado de trabajar en su solución.
Hay algunas características más en las que todavía tienen que trabajar para mejorar la experiencia de almacenamiento de datos:
- Visión de esquemas y metadatos para proporcionar el historial de las tablas.
- Proporcionar información contextual sobre las matrices para mejorar el linaje de los datos.
- Añade soporte para almacenes de datos como Elasticsearch y Kafka.
Suscríbase al blog de Actian
Suscríbase al blog de Actian para recibir información sobre datos directamente en su correo electrónico.
- Manténgase informado: reciba lo último en análisis de datos directamente en su bandeja de entrada.
- No se pierda ni una publicación: recibirá actualizaciones automáticas por correo electrónico que le avisarán cuando se publiquen nuevas publicaciones.
- Todo depende de usted: cambie sus preferencias de entrega para adaptarlas a sus necesidades.