WhereHows: Un portal de descubrimiento de datos y linaje para LinkedIn
Corporación Actian
20 de abril de 2020

Los metadatos son cada vez más importantes para las empresas modernas basadas en datos. En un mundo en el que el panorama de los datos aumenta a un ritmo vertiginoso y los sistemas de información son cada vez más complejos, las organizaciones de todos los sectores han comprendido la importancia de ser capaces de descubrir, comprender y confiar en sus activos de datos.
Tanto si su empresa pertenece al sector del streaming, como Spotify o Netflix, al de los viajes compartidos, como Uber o Lyft, o incluso al de los alquileres, como Airbnb, es esencial que los equipos de datos cuenten con las herramientas y soluciones adecuadas que les permitan innovar y generar valor con sus datos. equipados con las herramientas y soluciones adecuadas que les permitan innovar y producir valor con sus datos.
En este artículo, nos centraremos en WhereHows, un proyecto de código abierto dirigido por el equipo de datos de LinkedIn, que funciona creando un repositorio central y un portal para personas, procesos y conocimientos en torno a los datos. Con más de 50 mil conjuntos de datos, 14 mil comentarios y 35 millones de ejecuciones de trabajo e información de linaje relacionada, está claro que el portal de descubrimiento de datos de LinkedIn es un éxito.
Estadísticas clave de LinkedIn
Fundada por Reid Hoffman, Allen Blue, Konstantin Guericke, Eric Ly y Jean-Luc Vaillant en 2003 en California, la empresa empezó muy lentamente. En 2007, por fin fueron rentables, y en 2011 contaban con más de 100 millones de miembros en todo el mundo.
A partir de 2020, LinkedIn creció significativamente:
- Más de 660 millones de miembros de LinkedIn en todo el mundo, con 206 millones de usuarios activos en Europa.
- Más de 80 millones de usuarios en LinkedIn Slideshare.
- Más de 9.000 millones de impresiones de contenidos.
- 30 millones de empresas registradas en todo el mundo.
LinkedIn es sin duda una aplicación de red social profesional imprescindible para reclutadores, vendedores e incluso profesionales de ventas. Entonces, ¿cómo consigue el Gigante de Internet mantener al día todos estos datos?
Cómo empezó todo
Como la mayoría de las empresas con un ecosistema de BI maduro, LinkedIn comenzó con un equipo de almacén de datos, responsable de integrar diversas fuentes de información en conjuntos de datos dorados consolidados. A medida que crecía el número de conjuntos de datos, productores y consumidores, el equipo se sentía cada vez más abrumado por la colosal cantidad de datos que se generaban cada día. Algunas de sus preguntas eran:
- ¿Quién es el propietario de este flujo de datos?
- ¿Cómo han llegado estos datos hasta aquí?
- ¿Dónde están los datos?
- ¿Qué datos se utilizan?
En respuesta, LinkedIn decidió crear un repositorio central de metadatos para capturar sus metadatos en todos los sistemas y mostrarlos a través de una plataforma única para simplificar el descubrimiento de datos: WhereHows.
¿Qué es WhereHows?
WhereHows se integra con todos los entornos de procesamiento de datos y extrae metadatos de ellos.
A continuación, saca a la superficie esta información a través de dos interfaces diferentes:
- Una aplicación web que permite navegación, búsqueda, visualización de linajes, debates y colaboración.
- Un punto final de API que permite la automatización de otros procesos y aplicaciones de datos.
Este repositorio permite a LinkedIn resolver problemas relacionados con el linaje de los datos, la propiedad de los datos, el descubrimiento de esquemas, la combinación de metadatos operativos, la creación de perfiles de datos y la comparación entre clústeres. Además, implementaron detección y asociación de patrones basados en máquinas entre el glosario empresarial y sus conjuntos de datosy crearon una comunidad basada en la participación y la colaboración que les permite mantener la documentación de metadatos fomentando las conversaciones y el orgullo de propiedad.
WhereHows tiene tres componentes principales:
- Un repositorio de datos que almacena todos los metadatos.
- Un servidor web que muestra datos a través de la API y la interfaz de usuario.
- Un servidor backend que obtiene metadatos de otras fuentes de información.
¿Cómo funciona WhereHows?
La potencia de WhereHows proviene de los metadatos que recoge del ecosistema de datos de Linkedin. Recopila los siguientes metadatos:
- Metadatos operativos, como trabajos, flujos, etc.
- Información de linaje, que es lo que conecta los conjuntos de datos de los empleos.
- La información catalogada, como la ubicación del conjunto de datos, su estructura de esquema, la propiedad, la fecha de creación, etc.
Cómo utilizan los metadatos
WhereHows utiliza un modelo universal que permite a los equipos de datos aprovechar mejor el valor de los metadatos; por ejemplo, realizando una búsqueda en las distintas plataformas basada en diferentes aspectos de los conjuntos de datos.
Además, los metadatos de un conjunto de datos y los metadatos operativos del trabajo son dos puntos finales. La información de linaje los conecta y permite a los equipos de datos rastrear desde un conjunto de datos/trabajo hasta sus trabajos/conjuntos de datos anteriores/posteriores. Si todo el ecosistema de datos se recopila en WhereHows, pueden rastrear el flujo de datos de principio a fin.
Cómo recopilan los metadatos
El método utilizado para recopilar metadatos depende de la fuente. Por ejemplo, los conjuntos de datos de Hadoop tienen tareas de raspado que escanean las carpetas y archivos de HDFS, leen los metadatos y los vuelven a almacenar.
Para programadores como Azkaban, conectan su repositorio backend para obtener los metadatos, los agregan y los transforman al formato que necesitan, y luego los cargan en WhereHows. Para la información de linaje, analizan el registro de un trabajo MapReduce y el registro de ejecución de un programador, y combinan esa información para obtener el linaje.
¿Qué sigue para WhereHows?
En la actualidad, WhereHows se utiliza activamente en LinkedIn no solo como repositorio de metadatos, sino también para automatizar otros proyectos de datos, como la depuración automatizada de datos para el cumplimiento normativo. En 2016, se integraron con los sistemas de abajo:
En el futuro, los equipos de datos de LinkedIn esperan ampliar su cobertura de metadatos integrando más sistemas como Kafka o Samza. También planean integrarse con sistemas de gestión del ciclo de vida de los datos y de aprovisionamiento como Nuage o Goblin para enriquecer los metadatos. WhereHows no ha dicho su última palabra.
Fuentes:
Suscríbase al blog de Actian
Suscríbase al blog de Actian para recibir información sobre datos directamente en su correo electrónico.
- Manténgase informado: reciba lo último en análisis de datos directamente en su bandeja de entrada.
- No se pierda ni una publicación: recibirá actualizaciones automáticas por correo electrónico que le avisarán cuando se publiquen nuevas publicaciones.
- Todo depende de usted: cambie sus preferencias de entrega para adaptarlas a sus necesidades.