Inteligencia de datos

Cómo Spotify mejoró el descubrimiento de datos para sus científicos de datos

Corporación Actian

19 de marzo de 2020

spotify lexikin cover

Como líder mundial del mercado de la música en streaming, no cabe duda de que esta enorme empresa se mueve por los datos.

Spotify tiene acceso a las mayores colecciones de música del mundo, además de podcasts y otros contenidos de audio.

Tanto si están considerando un cambio en la estrategia del producto como si están decidiendo qué canciones deben añadir, Spotify afirma que "los datos proporcionan una base para la toma de decisiones acertadas".

Spotify en cifras

Fundada en 2006 en Estocolmo (Suecia) por Daniel Ek y Martin Lorentzon, la aplicación líder en música tenía como objetivo crear una plataforma de música legal para luchar contra la piratería de música en línea a principios de la década de 2000.

Aquí tienes algunas estadísticas y datos sobre Spotify en 2020:

  • 248 millones de usuarios activos en todo el mundo.
  • En su plataforma se añaden 20.000 canciones al día.
  • Spotify tiene una cuota del 40% del mercado mundial de música en streaming.
  • En 2015 se escucharon 20.000 millones de horas de música en streaming.

Estas cifras no sólo representan el éxito de Spotify, sino también la colosal cantidad de datos que se generan cada año, ¡por no hablar de cada día! Para que sus empleados, o como ellos los llaman, Spotifiers, puedan tomar decisiones más rápidas e inteligentes, Spotify desarrolló Lexikon.

Lexikon es una biblioteca de datos e información que ayuda a los empleados a encontrar y comprender los datos y conocimientos generados por su comunidad de expertos.

¿Cuáles fueron los problemas de datos en Spotify?

En su artículo How We Improved Data Discovery for Data Scientists at Spotify, Spotify explica que empezaron su estrategia de datos migrando los datos a la Google Cloud Platformy vieron una explosión de sus conjuntos de datos. También estaban en proceso de contratar a muchos especialistas en datos, como científicos de datos, analistas, etc. Sin embargo, explican que los conjuntos de datos carecían de una propiedad clara y tenían poca o ninguna documentación, lo que dificultaba su localización por parte de estos expertos.

Al año siguiente, lanzaron Lexikon, como solución a este problema.

Su primera versión permitía a sus Spotifiers buscar y navegar por las tablas de BigQuery disponibles, así como descubrir investigaciones y análisis anteriores. Sin embargo, meses después del lanzamiento, sus científicos de datos seguían informando de que el descubrimiento de datos era uno de los principales puntos débiles, ya que pasaban la mayor parte del tiempo intentando encontrar sus conjuntos de datos, lo que retrasaba la toma de decisiones informadas.

Spotify decidió entonces centrarse en este problema específico iterando sobre Lexikon, con el objetivo único de mejorar la experiencia de descubrimiento de datos para los científicos de datos.

¿Cómo funciona Lexikon Data Discovery?

Para que Lexikon funcionara, Spotify empezó investigando a sus usuarios, sus necesidades y sus puntos débiles. De este modo, la empresa pudo comprender mejor la intención de sus usuarios y utilizar este conocimiento para impulsar el desarrollo del producto.

Descubrimiento de datos de baja intención

Por ejemplo, estás de mal humor y te apetece escuchar música que te levante el ánimo. Así que abres Spotify, navegas por las diferentes listas de reproducción de estado de ánimo y pones la lista de reproducción "Mood Booster".

¡Tah-dah! Este es un ejemplo de descubrimiento de datos de baja intención, lo que significa que su objetivo se alcanzó sin exigencias extremadamente estrictas.

Para poner esto en el contexto de los científicos de datos de Spotify, especialmente los nuevos, su descubrimiento de datos de baja intención sería:

  • Encuentre conjuntos de datos populares utilizados ampliamente en la empresa.
  • Encontrar conjuntos de datos relevantes para el trabajo de mi equipo.
  • Encontrar conjuntos de datos que quizá no esté utilizando, pero que debería conocer.

Para satisfacer estas necesidades, Lexikon cuenta con una página de inicio personalizable que ofrece recomendaciones personalizadas a los usuarios. La página de inicio recomienda sugerencias potencialmente relevantes generadas automáticamente para conjuntos de datos como:

  • Conjuntos de datos populares utilizados en la empresa.
  • Conjunto de datos utilizado recientemente por el usuario.
  • Conjuntos de datos ampliamente utilizados por el equipo al que pertenece el usuario.

Descubrimiento de datos de alta intención

Para explicarlo de forma sencilla, Spotify utiliza el ejemplo de escuchar una canción e investigarla una y otra vez en la aplicación hasta que finalmente la encuentras y la escuchas una y otra vez. Esto es descubrimiento de datos de alta intención.

Un científico de datos en Spotify con alta intención tiene objetivos específicos y es probable que sepa exactamente lo que está buscando. Por ejemplo, podrían querer:

  • Buscar un conjunto de datos por su nombre.
  • Buscar un conjunto de datos que contenga un campo de esquema específico.
  • Buscar un conjunto de datos relacionado con un tema concreto.
  • Encuentra un conjunto de datos que haya utilizado un colega y del que no recuerde el nombre.
  • Encuentre los principales conjuntos de datos que un equipo ha utilizado con fines de colaboración.

Para satisfacer las necesidades de sus científicos de datos, Spotify se centró primero en su experiencia de búsqueda.

Crearon un algoritmo de clasificación de búsquedas basado en la popularidad. De este modo, los científicos de datos informaron de que los resultados de sus búsquedas eran más relevantes y tenían más confianza en los conjuntos de datos que descubrían porque podían ver qué conjunto de datos era más utilizado por la empresa.

Además de mejorar su rango de búsqueda, introdujeron nuevos tipos de propiedades (esquemas, campos, contacto, equipo, etc.) en Lexikon para representar mejor su panorama de datos.

Estas propiedades son capaces de abrir nuevas vías para el descubrimiento de datos. En el ejemplo siguiente, un científico de datos busca una "track_uri". Puede navegar por la página del campo de esquema "track_uri" y ver las tablas principales que contienen esta información. Desde que se añadió esta nueva función, ha demostrado ser una vía fundamental para el descubrimiento de datos, ya que el 44% de los usuarios de Lexikon visitan este tipo de páginas."

Reflexiones finales sobre Lexikon

Desde que se introdujeron estas mejoras, el uso de Lexikon entre los científicos de datos ha aumentado del 75% al 95%, ¡lo que la sitúa entre las 5 herramientas más utilizadas por los científicos de datos!

De este modo, la búsqueda de datos deja de ser un problema importante para sus Spotifiers.

Fuentes:

Estadísticas de uso e ingresos de Spotify (2019): https://www.businessofapps.com/data/spotify-statistics/
Cómo mejoramos el descubrimiento de datos para los científicos de datos en Spotify: https://labs.spotify.com/2020/02/27/how-we-improved-data-discovery-for-data-scientists-at-spotify/
75 estadísticas y hechos asombrosos de Spotify (2020): https://expandedramblings.com/index.php/spotify-statistics/

logo avatar actian

Acerca de Actian Corporation

Actian hace que los datos sean fáciles. Nuestra plataforma de datos simplifica el modo en que las personas conectan, gestionan y analizan los datos en entornos en la nube, híbridos y locales. Con décadas de experiencia en gestión de datos y análisis, Actian ofrece soluciones de alto rendimiento que permiten a las empresas tomar decisiones basadas en datos. Actian cuenta con el reconocimiento de los principales analistas y ha recibido premios del sector por su rendimiento e innovación. Nuestros equipos comparten casos de uso probados en conferencias (por ejemplo, Strata Data) y contribuyen a proyectos de código abierto. En el blog de Actian, cubrimos temas que van desde la ingestión de datos en tiempo real hasta el análisis impulsado por IA.