Google Goods: Das Management- und Datendemokratisierungstool von Google
Actian Germany GmbH
April 10, 2019

Wenn man Google heißt, ist das Thema Daten mehr als nur zentral. Jeden Tag wird in der ganzen Welt eine kolossale Menge an Informationen generiert, und zwar von allen Teams in diesem amerikanischen Imperium. Google Goods, ein zentraler Datenkatalogwurde implementiert, um Querverweise zu erstellen, Prioritäten zu setzen und Daten zu vereinheitlichen.
Dieser Artikel ist Teil einer Serie, die sich mit data driven Unternehmen beschäftigt. Wir beleuchten erfolgreiche Beispiele für die Demokratisierung und Beherrschung von Daten in inspirierenden Unternehmen. Das Airbnb-Beispiel finden Sie hier. Diese bahnbrechenden Unternehmen demonstrieren den Ehrgeiz von Zeenea und seinem Datenkatalog: Organisationen dabei zu helfen, ihre Daten besser zu verstehen und zu nutzen.
Google in ein paar Zahlen
Die meistgenutzte Suchmaschine der Welt muss nicht vorgestellt werden. Aber was verbirgt sich hinter dieser vertrauten Oberfläche? Wofür steht Google in Bezug auf Marktanteil, Infrastruktur, Mitarbeiter und globale Präsenz?
Im Jahr 2018 hatte Google [1]:
- 90,6 % Marktanteil weltweit.
- 30 Millionen indexierte Websites.
- 500 Millionen neue Anfragen pro Tag.
In Bezug auf Infrastruktur und Beschäftigung war Google im Jahr 2017 vertreten [2]:
- 70.053 Mitarbeiter.
- 21 Büros in 11 Ländern.
- 2 Millionen Computer in 60 Rechenzentren.
- 850 Terabyte für den Cache aller indizierten Seiten.
Bei einem so großen Umfang ist die Menge der erzeugten Daten zwangsläufig riesig. Angesichts der ständigen Redundanz der Daten und der Notwendigkeit, sie präzise zu nutzen, hat Google Google Goods, einen Datenkatalog , der hinter den Kulissen arbeitet, um die Daten zu organisieren und ihr Verständnis zu erleichtern.
Die Einsichten, die zu Google Goods führten
Google verfügt über mehr als 26 Milliarden interne Daten [3]. Und das sind nur die Daten, die für alle Mitarbeiter des Unternehmens zugänglich sind.
Berücksichtigt man die sensiblen Daten, die einen sicheren Zugang nutzen, könnte sich die Zahl verdoppeln. Diese Datenmenge warf zwangsläufig Probleme und Fragen auf, die Google als Grund für die Entwicklung seines Tools angab:
Eine enorme Datenskala
In Anbetracht der oben genannten Zahlen stand Google vor einem nicht zu übersehenden Problem. Die schiere Menge und Größe der Daten machte es unmöglich, sie alle zu verarbeiten. Daher war es wichtig, zu bestimmen, welche Daten nützlich sind und welche nicht.
Das System schließt bereits bestimmte Informationen aus, die als unnötig erachtet werden, und ist erfolgreich bei der Ermittlung einiger Redundanzen. Daher ist es möglich, eindeutige eindeutige Zugriffswege durch die Daten zu schaffen, ohne dass diese an verschiedenen Stellen im Katalog gespeichert werden.
Datenvielfalt
Datensätze werden in einer Reihe von Formaten und in sehr unterschiedlichen Speichersystemen aufbewahrt. Das macht es schwierig, die Daten zu vereinheitlichen. Für Goods ist dies eine echte Herausforderung mit einem entscheidenden Ziel: eine kohärente Art und Weise der Anfrage und des Zugriffs auf Informationen zu bieten, ohne die Komplexität der Infrastruktur zu offenbaren.
Relevanz der Daten
Google schätzt, dass täglich 1 Million Daten sowohl erstellt als auch gelöscht werden. Dies unterstreicht die Notwendigkeit, Daten zu priorisieren und ihre Relevanz zu bestimmen. Einige sind für die Verarbeitungskette von entscheidender Bedeutung, haben aber nur für ein paar Tage einen Wert, andere haben ein geplantes Lebensende, das von mehreren Wochen bis zu ein paar Stunden dauern kann.
Die unsichere Natur von Metadaten
Viele der katalogisierten Daten stammen aus unterschiedlichen Protokollen, was die Metadaten komplex macht. Waren geht daher durch Versuch und Irrtum vor, um Hypothesen zu erstellen. Dies ist darauf zurückzuführen, dass es auf einer Post-hoc-Basis arbeitet. Mit anderen Worten: Die Mitarbeiter müssen ihre Arbeitsweise nicht ändern. Sie werden nicht aufgefordert, Datensätze mit Metadaten zu kombinieren, wenn sie erstellt werden. Es ist Sache von Goods, Daten zu bearbeiten, zu sammeln und zu analysieren, um sie zusammenzuführen und für die künftige Verwendung zu klären.
Eine Prioritätsskala
Nach der Arbeit an der Entdeckung und Katalogisierung stellt sich die Frage der Prioritätensetzung. Die Herausforderung besteht in der Fähigkeit, diese Frage zu beantworten: "Was macht die Daten wichtig?" Die Beantwortung dieser Frage ist für die Daten eines Unternehmens weitaus weniger einfach als z. B. die Priorisierung von Web-Recherchen. Bei dem Versuch, eine relevante Rangfolge zu erstellen, basiert Goods auf den Wechselwirkungen zwischen Daten, Metadaten und anderen Kriterien basiert. So hält das Tool Daten für wichtiger, wenn ihr Autor eine Beschreibung mit ihnen verknüpft hat oder wenn sie von mehreren Teams konsultiert, verwendet oder kommentiert werden.
Semantische Datenanalyse
Die Durchführung dieser Analyse ermöglicht insbesondere eine bessere Klassifizierung und Beschreibung der Daten im Suchwerkzeug. So kann es auf die richtigen angeforderten Informationen im Katalog reagieren. Das Beispiel ist in dem Referenzartikel zu Google Goods [3] beschrieben: Angenommen, das Schema eines Datensatzes ist bekannt und bestimmte Felder des Schemas nehmen ganzzahlige Werte an. Dank der Inferenz auf den Inhalt des Datensatzes kann der Nutzer erkennen, dass es sich bei diesen Integer-Werten um IDs bekannter geografischer Landmarken handelt und diese Art von Inhaltssemantik nutzen, um die geografische Datenrecherche im Tool zu verbessern.
Google Goods-Funktionen
Google Goods katalogisiert und analysiert die Daten, um sie in einheitlicher Form zu präsentieren. Das Tool sammelt die grundlegenden Metadaten und versucht, sie durch die Analyse einer Reihe von Parametern zu erweitern. Durch wiederholtes Überprüfen der Daten und Metadaten kann Goods sich selbst bereichern und weiterentwickeln.
Die wichtigsten Funktionen, die den Nutzern angeboten werden, sind:
Eine Suchmaschine
Wie das Google, das wir kennen, bietet Goods eine Schlüsselwort-Suchmaschine zur Anfrage eines Datensatz. Dies ist der Moment, in dem die Herausforderung der Datenpriorisierung stattfindet. Die Suchmaschine bietet Daten an, die nach verschiedenen Kriterien klassifiziert sind, z. B. nach der Anzahl der beteiligten Verarbeitungsketten, dem Vorhandensein oder Fehlen einer Beschreibung usw.
Datenpräsentationsseite
Jede Datei verfügt über eine Seite, die so viele Informationen wie möglich enthält. In Anbetracht der Tatsache, dass bestimmte Daten mit Tausenden von anderen verknüpft sein können, komprimiert Google die als besonders wichtig erkannten Daten im Vorfeld, um sie auf einer Präsentationsseite verständlicher zu machen. Wenn die komprimierte Version zu groß ist, werden nur die neuesten Einträge auf der Seite angezeigt.
Team-Boards
Goods erstellte Boards, um alle von einem Team generierten Daten zu verteilen. So ist es zum Beispiel möglich, verschiedene Metadaten zu erhalten und sich mit anderen Boards zu verbinden. Das Board wird jedes Mal aktualisiert, wenn Goods Metadaten hinzufügt. Das Board kann leicht in verschiedene Dokumente integriert werden, so dass die Teams es dann gemeinsam nutzen können.
Darüber hinaus ist es auch möglich, Überwachungsmaßnahmen und Warnmeldungen zu bestimmten Daten zu implementieren. Waren ist für die Überprüfungen zuständig und kann die Teams im Falle eines Alarms benachrichtigen.
Warenverwendung durch Google-Mitarbeiter
Im Laufe der Zeit haben die Google-Teams erkannt, dass die Nutzung des Tools und sein Umfang nicht unbedingt den Erwartungen des Unternehmens entsprachen.
Auf diese Weise konnte Google feststellen, dass die Mitarbeiter die Waren hauptsächlich nutzen und welche Funktionen sie bevorzugen:
Audit-Protokollpuffer
Protocol Buffers sind Serialisierungsformate mit einer von Google entwickelten Schnittstellenbeschreibungssprache. Sie werden bei Google häufig zum Speichern und Austauschen aller Arten von Informationsstrukturen verwendet.
Bestimmte Vorgänge enthalten personenbezogene Daten und sind Teil einer spezifischen Datenschutzpolitik. Die Prüfung dieser Protokolle ermöglicht es, die Eigentümer dieser Daten im Falle einer Verletzung der Vertraulichkeit zu alarmieren.
Wiederherstellung von Daten
Ingenieure müssen im Framework ihrer Tests viele Daten erzeugen und vergessen oft ihren Standort, wenn sie wieder darauf zugreifen müssen. Dank der Suchmaschine können sie sie leicht wiederfinden.
Verstehen von Legacy-Code
Es ist nicht einfach, aktuelle Informationen über den Code oder die Datensätze zu finden. Goods verwaltet die Grafiken, mit denen Ingenieure frühere Codeausführungen sowie die Ein- und Ausgabe von Datensätzen verfolgen und die Logik finden können, die sie verbindet.
Nutzung des Kommentarsystems
Das Lesezeichensystem der Datenseiten ist vollständig integriert, um wichtige Informationen schnell zu finden und sie einfach zu teilen.
Verwendung von Seitenmarkierungen
Es ist möglich, Daten mit Anmerkungen zu versehen und ihnen unterschiedliche Vertraulichkeitsgrade zuzuordnen. Auf diese Weise können andere Google-Mitarbeiter die Daten, die ihnen vorliegen, besser verstehen.
Mit Goods erreicht Google eine Priorisierung und Vereinheitlichung des Datenzugriffs für alle seine Teams. Das System soll nicht aufdringlich sein und arbeitet daher kontinuierlich und unsichtbar für die Nutzer, um sie mit organisierten und eindeutigen Daten zu versorgen. Auf diese Weise verbessert das Unternehmen die Teamleistung und vermeidet Redundanzen. Es spart Ressourcen und beschleunigt den Zugang zu Daten, die für das Wachstum und die Entwicklung des Unternehmens wichtig sind..
[1] Blog des Moderators: https://www.blogdumoderateur.com/chiffres-google/
[2] Web-Ranking-Info: https://www.webrankinfo.com/dossiers/google/chiffres-cles
[3] https://static.googleusercontent.com/media/research.google.com/fr//pubs/archive/45390.pdf
Abonnieren Sie den Actian Blog
Abonnieren Sie den Blog von Actian, um direkt Dateneinblicke zu erhalten.
- Bleiben Sie auf dem Laufenden - Holen Sie sich die neuesten Informationen zu Data Analytics direkt in Ihren Posteingang.
- Verpassen Sie keinen Beitrag: Sie erhalten automatische E-Mail-Updates, die Sie informieren, wenn neue Beiträge veröffentlicht werden.
- Ganz wie sie wollen: Ändern Sie Ihre Lieferpräferenzen nach Ihren Bedürfnissen.