Inteligencia de datos

Google Goods: La herramienta de gestión y democratización de datos de Google

Corporación Actian

10 de abril de 2019

productos google

Cuando uno se llama Google, la cuestión de los datos es más que central. Todos los días se genera una cantidad colosal de información en todo el mundo por parte de todos los equipos de este imperio estadounidense. Google Goods, un catálogo de datos centralizado, se implementó para cruzar, priorizar y unificar datos.

Este artículo forma parte de una serie dedicada a las empresas impulsadas por los datos. Destacamos ejemplos de éxito de democratización y dominio de los datos en empresas inspiradoras. Puede encontrar el ejemplo de Airbnb aquí. Estas empresas pioneras demuestran la ambición de Actian Data Intelligence Platformy su catálogo de datos: ayudar a las organizaciones a comprender y utilizar mejor sus activos de datos.

Google en pocas cifras

El motor de búsqueda más utilizado del planeta no necesita presentación. Pero, ¿qué hay detrás de esta interfaz tan familiar? ¿Qué representa Google en términos de cuota de mercado, infraestructura, empleados y presencia mundial?

En 2018, Google tenía [1]:

  • 90,6% de cuota de mercado mundial.
  • 30 millones de sitios indexados.
  • 500 millones de nuevas solicitudes cada día.

En términos de infraestructuras y empleo, Google representó en 2017 [2]:

  • 70.053 empleados.
  • 21 oficinas en 11 países.
  • 2 millones de ordenadores en 60 centros de datos.
  • 850 terabytes para almacenar en caché todas las páginas indexadas.

Ante tal magnitud, la cantidad de datos generados es inevitablemente enorme. Ante la constante redundancia de datos y la necesidad de precisión para su uso, Google puso en marcha Google Goods, un catálogo de datos que trabaja entre bastidores para organizar y facilitar la comprensión de los datos.

Las ideas que llevaron a Google Goods

Google posee más de 26.000 millones de datos internos [3]. Y esto incluye sólo los datos accesibles a todos los empleados de la empresa.

Si se tienen en cuenta los datos sensibles que utilizan un acceso seguro, la cifra podría duplicarse. Esta cantidad de datos estaba destinada a generar problemas y preguntas, que Google enumeró como motivo para diseñar su herramienta:

Una enorme escala de datos

Teniendo en cuenta la cifra anteriormente mencionada, Google se enfrentaba a un problema que no podía ignorar. La enorme cantidad y tamaño de los datos hacía imposible procesarlos todos. De ahí que fuera esencial determinar cuáles son útiles y cuáles no.

El sistema ya excluye cierta información considerada innecesaria y consigue identificar algunas redundancias. Por lo tanto, es posible crear vías de acceso únicas a través de los datos sin que éstos se almacenen en distintos lugares dentro del catálogo.

Variedad de datos

Los conjuntos de datos se almacenan en varios formatos y en sistemas de almacenamiento muy diferentes. Esto dificulta la unificación de los datos. Para Goods, se trata de un verdadero reto con un objetivo crucial: ofrecer una forma coherente de consultar y acceder a la información sin revelar la complejidad de la infraestructura.

Relevancia de los datos

Google calcula que cada día se crean y borran un millón de datos. Esto subraya la necesidad de priorizar los datos y establecer su relevancia. Algunos son cruciales en las cadenas de procesamiento pero solo tienen valor durante unos días, otros tienen un final de vida programado que puede durar desde varias semanas a unas pocas horas.

La naturaleza incierta de los metadatos

Muchos de los datos catalogados proceden de protocolos diferentes, lo que complica la certificación de metadatos. Por ello, Goods procede por ensayo y error para crear hipótesis. Ello se debe a que funciona a posteriori. En otras palabras, los colaboradores no tienen que cambiar su forma de trabajar. No se les pide que combinen conjuntos de datos con metadatos cuando se crean. Corresponde a Goods trabajar, recopilar y analizar los datos para reunirlos y clarificarlos para su uso futuro.

Una escala de prioridades

Después de trabajar en el descubrimiento y la catalogación, surge la cuestión de establecer prioridades. El reto consiste en saber responder a esta pregunta: "¿Qué hace que un dato sea importante?". Dar respuesta a esta pregunta es mucho menos sencillo para los datos de una empresa que priorizar la investigación web, por ejemplo. En un intento de establecer una clasificación relevante, Goods se basa en las interacciones entre datos, metadatos y otros criterios. Por ejemplo, la herramienta considera que los datos son más importantes si su autor les ha asociado una descripción, o si varios equipos los consultan, utilizan o anotan.

Análisis de datos semánticos

La realización de este análisis permite, en particular, clasificar y describir mejor los datos en la herramienta de búsqueda. De este modo, puede responder correctamente a la información solicitada en el catálogo. El ejemplo figura en el artículo de referencia Google Goods [3]: Supongamos que se conoce el esquema de un conjunto de datos y que determinados campos del esquema toman valores enteros. Gracias a la inferencia sobre el contenido del conjunto de datos, el usuario puede identificar que estos valores enteros son ID de hitos geográficos conocidos y, a continuación, utilizar este tipo de semántica de contenido para mejorar la búsqueda de datos geográficos en la herramienta.

Funciones de Google Goods

Google Goods cataloga y analiza los datos para presentarlos de forma unificada. La herramienta recopila los metadatos básicos e intenta enriquecerlos analizando una serie de parámetros. Al revisar repetidamente los datos y metadatos, Goods es capaz de enriquecerse y evolucionar.

Las principales funciones que se ofrecen a los usuarios son:

Un motor de búsqueda

Al igual que el Google que conocemos, Goods ofrece un motor de búsqueda por palabras clave para consultar un conjunto de datos. Es en este momento cuando se plantea el reto de la jerarquización de los datos. El motor de búsqueda ofrece datos clasificados según distintos criterios, como el número de cadenas de procesamiento implicadas, la presencia o ausencia de una descripción, etc.

Página de presentación de datos

Cada dato tiene a su disposición una página que contiene la mayor cantidad de información posible. Teniendo en cuenta que ciertos datos pueden estar vinculados a miles de otros, Google comprime los datos ascendentes reconocidos como más cruciales para hacerlos más comprensibles en una página de presentación. Si la versión comprimida sigue siendo demasiado grande, la información presentada conserva únicamente las entradas más recientes.

Juntas de equipo

Goods creó tableros para distribuir todos los datos generados por un equipo. Esto permite, por ejemplo, obtener diferentes métricas y conectar con otros tableros. El tablero se actualiza cada vez que Goods añade metadatos. El tablero puede integrarse fácilmente en distintos documentos para que los equipos puedan compartirlo.

Además, también es posible aplicar acciones de control y alertas sobre determinados datos. Goods se encarga de las verificaciones y puede avisar a los equipos en caso de alerta.

Uso de bienes por los empleados de Google

Con el tiempo, los equipos de Google se han dado cuenta de que el uso de su herramienta, así como su alcance, no era necesariamente el que la empresa esperaba.

De este modo, Google pudo determinar que los principales usos y características favoritas de Goods por parte de los empleados eran:

Búferes de protocolo de auditoría

Los búferes de protocolo son formatos de serialización con un lenguaje de descripción de interfaz desarrollado por Google. Su uso está muy extendido en Google para almacenar e intercambiar todo tipo de estructuras de información.

Ciertos procesos contienen información personal y forman parte de políticas de privacidad específicas. La auditoría de estos protocolos permite alertar a los propietarios de estos datos en caso de violación de la confidencialidad.

Recuperación de datos

Los ingenieros deben generar muchos datos en el marco de sus pruebas y a menudo olvidan su ubicación cuando necesitan volver a acceder a ellos. Gracias al motor de búsqueda, pueden encontrarlos fácilmente.

Comprender el código heredado

No es fácil encontrar información actualizada sobre el código o los conjuntos de datos. Goods gestiona los gráficos que los ingenieros pueden utilizar para rastrear ejecuciones anteriores de código, así como la entrada y salida de conjuntos de datos, y encontrar la lógica que los vincula.

Utilización del sistema de anotación

El sistema de marcadores de las páginas de datos está totalmente integrado para encontrar rápidamente la información importante y compartirla fácilmente.

Uso de marcadores de página

Es posible anotar datos y atribuirles distintos grados de confidencialidad. De este modo, otras personas de Google pueden comprender mejor los datos que tienen ante sí.

Con Goods, Google consigue priorizar y unificar el acceso a los datos de todos sus equipos. El sistema está pensado para no ser intrusivo, por lo que funciona de forma continua e invisible para los usuarios con el fin de proporcionarles datos organizados y explícitos. Gracias a ello, la empresa mejora el rendimiento de los equipos, evitando redundancias. Ahorra recursos y acelera el acceso a datos esenciales para el crecimiento y el desarrollo de la empresa..

[1] Blog del moderador: https://www.blogdumoderateur.com/chiffres-google/
[2] Web Rank Info: https://www.webrankinfo.com/dossiers/google/chiffres-cles
[3] https://static.googleusercontent.com/media/research.google.com/fr//pubs/archive/45390.pdf

logo avatar actian

Acerca de Actian Corporation

Actian hace que los datos sean fáciles. Nuestra plataforma de datos simplifica el modo en que las personas conectan, gestionan y analizan los datos en entornos en la nube, híbridos y locales. Con décadas de experiencia en gestión de datos y análisis, Actian ofrece soluciones de alto rendimiento que permiten a las empresas tomar decisiones basadas en datos. Actian cuenta con el reconocimiento de los principales analistas y ha recibido premios del sector por su rendimiento e innovación. Nuestros equipos comparten casos de uso probados en conferencias (por ejemplo, Strata Data) y contribuyen a proyectos de código abierto. En el blog de Actian, cubrimos temas que van desde la ingestión de datos en tiempo real hasta el análisis impulsado por IA.