Inteligencia de datos

Los metadatos a través de los ojos de los gigantes de la web

Corporación Actian

17 de marzo de 2020

metadatos-ojos-cubierta

El análisis del ciclo de vida de los datos es un elemento de la gestión de datos que las empresas siguen luchando por implantar.

Organizaciones a la vanguardia de la innovación de datos como Uber, LinkedIn, Netflix, Airbnb y Lyft también han visto el valor de los metadatos en la magnitud de este reto.

Así, desarrollaron una estrategia de gestión de metadatos mediante plataformas específicas. Desarrolladas a menudo a medida, facilitan la ingestión, indexación, búsqueda, anotación y descubrimiento de datos para mantener conjuntos de datos de alta calidad.

Los siguientes ejemplos ponen de relieve una constante compartida: la dificultad, acrecentada por el volumen y la variedad, de transformar los datos empresariales en conocimientos explotables.

Veamos el análisis y el contexto de estos gigantes de la Web:

Uber

Cada interacción en la plataforma de Uber, desde sus servicios de transporte compartido hasta sus entregas de comida, se basa en datos. A través del análisis, sus datos permiten experiencias de usuario más fiables y relevantes.

Estadísticas clave de Uber:

  • Miles de miles de millones de mensajes Kafka al día.
  • Cientos de petabytes de datos en HDFS en centros de datos.
  • Millones de consultas analíticas semanales.

Sin embargo, el volumen de datos generados por sí solo no basta para aprovechar la información que representan; para ser utilizados con eficacia y eficiencia, los datos requieren más contexto para tomar decisiones empresariales óptimas.

Para proporcionar información adicional, Uber desarrolló "Databook", la plataforma interna de la empresa que recopila y gestiona metadatos sobre conjuntos de datos internos con el fin de transformar los datos en conocimiento.

Databook está diseñado para permitir a los empleados de Uber explorar, descubrir y utilizar eficazmente los datos de Uber. Databook da contexto a sus datos (su significado, calidad, etc.) y garantiza que se mantenga en su plataforma para los miles de empleados que quieren analizar los datos. En resumen, los metadatos de Databook permiten a los líderes de datos pasar de la visualización de datos en bruto al conocimiento procesable.

En el artículo Databook: Turning Big Data into Knowledge with Metadata at Uber, el artículo concluye que uno de los mayores retos de Databook fue pasar de la actualización manual del repositorio de metadatos a la automatización.

Airbnb

En una conferencia celebrada en mayo de 2017, John Bodley, ingeniero de datos de AirBnB, expuso los nuevos problemas derivados del crecimiento de la empresa: un panorama confuso y no unificado que no permitía acceder a una información cada vez más importante.
¿Qué podemos hacer con todos estos datos recopilados a diario? ¿Cómo los convertimos en activos para todos los empleados de Airbnb?

Un equipo especializado se propuso desarrollar una herramienta que democratizara el acceso a los datos dentro de la empresa. Su trabajo se basó tanto en los conocimientos de los analistas y su capacidad para comprender los puntos críticos, como en los de los ingenieros, capaces de ofrecer una visión más técnica. En el núcleo del proyecto se realizaron entrevistas a los empleados sobre sus problemas.

Lo que se desprende de esta encuesta es la dificultad para encontrar la información que los empleados necesitan para trabajar, y un enfoque todavía demasiado tribal a la hora de compartir y conservar la información.

Para hacer frente a estos retos, AirBnB creó Data Portal, una plataforma de gestión de metadatos. Data Portal centraliza y comparte esta información a través de esta plataforma de autoservicio.

Lyft

Lyft es un servicio de viajes compartidos y el principal competidor de Uber en el mercado norteamericano.

La empresa se dio cuenta de que proporcionaban un acceso ineficaz a los datos para sus perfiles analíticos. Sus reflexiones se centraban en poner a disposición el conocimiento de los datos para optimizar sus procesos. En solo unos meses, su objetivo de crear una interfaz para investigar datos presentaba estos dos grandes retos:

  • Productividad - Ya sea para crear un nuevo modelo, instrumentar una nueva métrica o realizar un análisis ad hoc, ¿cómo puede Lyft utilizar estos datos de la forma más productiva y eficiente posible?
  • Cumplimiento - Al recopilar datos sobre los usuarios de una organización, ¿cómo puede Lyft cumplir con los crecientes requisitos normativos y mantener la confianza de sus usuarios?

En su artículo Amundsen - Lyft's data discovery & metadata engine, Lyft afirma que la clave no está en los datos, sino en los metadatos.

Netflix

Como líder mundial del streaming de vídeo, la explotación de datos en Netflix es, por supuesto, un importante foco estratégico.

Dada la diversidad de sus fuentes de datos, la plataforma de vídeo quería ofrecer una forma de federar e interactuar con estos activos desde una única herramienta. Esta búsqueda de una solución desembocó en Metacat.

Esta herramienta actúa como una capa de acceso a los datos y metadatos de las fuentes de datos de Netflix. Permite a sus usuarios acceder a datos de cualquier sistema de almacenamiento a través de tres funciones diferentes:

  1. Añadir metadatos empresariales: A mano o definidos por el usuario, los metadatos de negocio se pueden añadir a través de Metacat.
  2. Descubrimiento de datos: La herramienta publica esquemas y metadatos de negocio definidos por sus usuarios en Elasticsearch, facilitando la búsqueda de texto completo de información en fuentes de datos.
  3. Notificación de cambios en los datos y auditoría: Metacat registra y notifica todos los cambios en los metadatos de los sistemas de almacenamiento.

En el artículo de su blog, "Metacat: Making Big Data Discoverable and Meaningful", en Netflix, la empresa confirma que están lejos de haber terminado de trabajar en su solución.

Hay algunas características más en las que todavía tienen que trabajar para mejorar la experiencia de almacenamiento de datos:

  • Visión de esquemas y metadatos para proporcionar el historial de las tablas.
  • Proporcionar información contextual sobre las matrices para mejorar el linaje de los datos.
  • Añade soporte para almacenes de datos como Elasticsearch y Kafka.
logo avatar actian

Acerca de Actian Corporation

Actian hace que los datos sean fáciles. Nuestra plataforma de datos simplifica el modo en que las personas conectan, gestionan y analizan los datos en entornos en la nube, híbridos y locales. Con décadas de experiencia en gestión de datos y análisis, Actian ofrece soluciones de alto rendimiento que permiten a las empresas tomar decisiones basadas en datos. Actian cuenta con el reconocimiento de los principales analistas y ha recibido premios del sector por su rendimiento e innovación. Nuestros equipos comparten casos de uso probados en conferencias (por ejemplo, Strata Data) y contribuyen a proyectos de código abierto. En el blog de Actian, cubrimos temas que van desde la ingestión de datos en tiempo real hasta el análisis impulsado por IA.