Google Goods: La herramienta de gestión y democratización de datos de Google
Corporación Actian
10 de abril de 2019

Cuando uno se llama Google, la cuestión de los datos es más que central. Todos los días se genera una cantidad colosal de información en todo el mundo por parte de todos los equipos de este imperio estadounidense. Google Goods, un catálogo de datos centralizado, se implementó para cruzar, priorizar y unificar datos.
Este artículo forma parte de una serie dedicada a las empresas impulsadas por los datos. Destacamos ejemplos de éxito de democratización y dominio de los datos en empresas inspiradoras. Puede encontrar el ejemplo de Airbnb aquí. Estas empresas pioneras demuestran la ambición de Actian Data Intelligence Platformy su catálogo de datos: ayudar a las organizaciones a comprender y utilizar mejor sus activos de datos.
Google en pocas cifras
El motor de búsqueda más utilizado del planeta no necesita presentación. Pero, ¿qué hay detrás de esta interfaz tan familiar? ¿Qué representa Google en términos de cuota de mercado, infraestructura, empleados y presencia mundial?
En 2018, Google tenía [1]:
- 90,6% de cuota de mercado mundial.
- 30 millones de sitios indexados.
- 500 millones de nuevas solicitudes cada día.
En términos de infraestructuras y empleo, Google representó en 2017 [2]:
- 70.053 empleados.
- 21 oficinas en 11 países.
- 2 millones de ordenadores en 60 centros de datos.
- 850 terabytes para almacenar en caché todas las páginas indexadas.
Ante tal magnitud, la cantidad de datos generados es inevitablemente enorme. Ante la constante redundancia de datos y la necesidad de precisión para su uso, Google puso en marcha Google Goods, un catálogo de datos que trabaja entre bastidores para organizar y facilitar la comprensión de los datos.
Las ideas que llevaron a Google Goods
Google posee más de 26.000 millones de datos internos [3]. Y esto incluye sólo los datos accesibles a todos los empleados de la empresa.
Si se tienen en cuenta los datos sensibles que utilizan un acceso seguro, la cifra podría duplicarse. Esta cantidad de datos estaba destinada a generar problemas y preguntas, que Google enumeró como motivo para diseñar su herramienta:
Una enorme escala de datos
Teniendo en cuenta la cifra anteriormente mencionada, Google se enfrentaba a un problema que no podía ignorar. La enorme cantidad y tamaño de los datos hacía imposible procesarlos todos. De ahí que fuera esencial determinar cuáles son útiles y cuáles no.
El sistema ya excluye cierta información considerada innecesaria y consigue identificar algunas redundancias. Por lo tanto, es posible crear vías de acceso únicas a través de los datos sin que éstos se almacenen en distintos lugares dentro del catálogo.
Variedad de datos
Los conjuntos de datos se almacenan en varios formatos y en sistemas de almacenamiento muy diferentes. Esto dificulta la unificación de los datos. Para Goods, se trata de un verdadero reto con un objetivo crucial: ofrecer una forma coherente de consultar y acceder a la información sin revelar la complejidad de la infraestructura.
Relevancia de los datos
Google calcula que cada día se crean y borran un millón de datos. Esto subraya la necesidad de priorizar los datos y establecer su relevancia. Algunos son cruciales en las cadenas de procesamiento pero solo tienen valor durante unos días, otros tienen un final de vida programado que puede durar desde varias semanas a unas pocas horas.
La naturaleza incierta de los metadatos
Muchos de los datos catalogados proceden de protocolos diferentes, lo que complica la certificación de metadatos. Por ello, Goods procede por ensayo y error para crear hipótesis. Ello se debe a que funciona a posteriori. En otras palabras, los colaboradores no tienen que cambiar su forma de trabajar. No se les pide que combinen conjuntos de datos con metadatos cuando se crean. Corresponde a Goods trabajar, recopilar y analizar los datos para reunirlos y clarificarlos para su uso futuro.
Una escala de prioridades
Después de trabajar en el descubrimiento y la catalogación, surge la cuestión de establecer prioridades. El reto consiste en saber responder a esta pregunta: "¿Qué hace que un dato sea importante?". Dar respuesta a esta pregunta es mucho menos sencillo para los datos de una empresa que priorizar la investigación web, por ejemplo. En un intento de establecer una clasificación relevante, Goods se basa en las interacciones entre datos, metadatos y otros criterios. Por ejemplo, la herramienta considera que los datos son más importantes si su autor les ha asociado una descripción, o si varios equipos los consultan, utilizan o anotan.
Análisis de datos semánticos
La realización de este análisis permite, en particular, clasificar y describir mejor los datos en la herramienta de búsqueda. De este modo, puede responder correctamente a la información solicitada en el catálogo. El ejemplo figura en el artículo de referencia Google Goods [3]: Supongamos que se conoce el esquema de un conjunto de datos y que determinados campos del esquema toman valores enteros. Gracias a la inferencia sobre el contenido del conjunto de datos, el usuario puede identificar que estos valores enteros son ID de hitos geográficos conocidos y, a continuación, utilizar este tipo de semántica de contenido para mejorar la búsqueda de datos geográficos en la herramienta.
Funciones de Google Goods
Google Goods cataloga y analiza los datos para presentarlos de forma unificada. La herramienta recopila los metadatos básicos e intenta enriquecerlos analizando una serie de parámetros. Al revisar repetidamente los datos y metadatos, Goods es capaz de enriquecerse y evolucionar.
Las principales funciones que se ofrecen a los usuarios son:
Un motor de búsqueda
Al igual que el Google que conocemos, Goods ofrece un motor de búsqueda por palabras clave para consultar un conjunto de datos. Es en este momento cuando se plantea el reto de la jerarquización de los datos. El motor de búsqueda ofrece datos clasificados según distintos criterios, como el número de cadenas de procesamiento implicadas, la presencia o ausencia de una descripción, etc.
Página de presentación de datos
Cada dato tiene a su disposición una página que contiene la mayor cantidad de información posible. Teniendo en cuenta que ciertos datos pueden estar vinculados a miles de otros, Google comprime los datos ascendentes reconocidos como más cruciales para hacerlos más comprensibles en una página de presentación. Si la versión comprimida sigue siendo demasiado grande, la información presentada conserva únicamente las entradas más recientes.
Juntas de equipo
Goods creó tableros para distribuir todos los datos generados por un equipo. Esto permite, por ejemplo, obtener diferentes métricas y conectar con otros tableros. El tablero se actualiza cada vez que Goods añade metadatos. El tablero puede integrarse fácilmente en distintos documentos para que los equipos puedan compartirlo.
Además, también es posible aplicar acciones de control y alertas sobre determinados datos. Goods se encarga de las verificaciones y puede avisar a los equipos en caso de alerta.
Uso de bienes por los empleados de Google
Con el tiempo, los equipos de Google se han dado cuenta de que el uso de su herramienta, así como su alcance, no era necesariamente el que la empresa esperaba.
De este modo, Google pudo determinar que los principales usos y características favoritas de Goods por parte de los empleados eran:
Búferes de protocolo de auditoría
Los búferes de protocolo son formatos de serialización con un lenguaje de descripción de interfaz desarrollado por Google. Su uso está muy extendido en Google para almacenar e intercambiar todo tipo de estructuras de información.
Ciertos procesos contienen información personal y forman parte de políticas de privacidad específicas. La auditoría de estos protocolos permite alertar a los propietarios de estos datos en caso de violación de la confidencialidad.
Recuperación de datos
Los ingenieros deben generar muchos datos en el marco de sus pruebas y a menudo olvidan su ubicación cuando necesitan volver a acceder a ellos. Gracias al motor de búsqueda, pueden encontrarlos fácilmente.
Comprender el código heredado
No es fácil encontrar información actualizada sobre el código o los conjuntos de datos. Goods gestiona los gráficos que los ingenieros pueden utilizar para rastrear ejecuciones anteriores de código, así como la entrada y salida de conjuntos de datos, y encontrar la lógica que los vincula.
Utilización del sistema de anotación
El sistema de marcadores de las páginas de datos está totalmente integrado para encontrar rápidamente la información importante y compartirla fácilmente.
Uso de marcadores de página
Es posible anotar datos y atribuirles distintos grados de confidencialidad. De este modo, otras personas de Google pueden comprender mejor los datos que tienen ante sí.
Con Goods, Google consigue priorizar y unificar el acceso a los datos de todos sus equipos. El sistema está pensado para no ser intrusivo, por lo que funciona de forma continua e invisible para los usuarios con el fin de proporcionarles datos organizados y explícitos. Gracias a ello, la empresa mejora el rendimiento de los equipos, evitando redundancias. Ahorra recursos y acelera el acceso a datos esenciales para el crecimiento y el desarrollo de la empresa..
[1] Blog del moderador: https://www.blogdumoderateur.com/chiffres-google/
[2] Web Rank Info: https://www.webrankinfo.com/dossiers/google/chiffres-cles
[3] https://static.googleusercontent.com/media/research.google.com/fr//pubs/archive/45390.pdf
Suscríbase al blog de Actian
Suscríbase al blog de Actian para recibir información sobre datos directamente en su correo electrónico.
- Manténgase informado: reciba lo último en análisis de datos directamente en su bandeja de entrada.
- No se pierda ni una publicación: recibirá actualizaciones automáticas por correo electrónico que le avisarán cuando se publiquen nuevas publicaciones.
- Todo depende de usted: cambie sus preferencias de entrega para adaptarlas a sus necesidades.