Daten-Intelligenz

Google Goods: Das Management- und Datendemokratisierungstool von Google

Actian Germany GmbH

April 10, 2019

Google-Waren

Wenn man Google heißt, ist das Thema Daten mehr als nur zentral. Jeden Tag wird in der ganzen Welt eine kolossale Menge an Informationen generiert, und zwar von allen Teams in diesem amerikanischen Imperium. Google Goods, ein zentraler Datenkatalogwurde implementiert, um Querverweise zu erstellen, Prioritäten zu setzen und Daten zu vereinheitlichen.

Dieser Artikel ist Teil einer Serie, die sich mit data driven Unternehmen beschäftigt. Wir beleuchten erfolgreiche Beispiele für die Demokratisierung und Beherrschung von Daten in inspirierenden Unternehmen. Das Airbnb-Beispiel finden Sie hier. Diese bahnbrechenden Unternehmen demonstrieren den Ehrgeiz von Zeenea und seinem Datenkatalog: Organisationen dabei zu helfen, ihre Daten besser zu verstehen und zu nutzen.

Google in ein paar Zahlen

Die meistgenutzte Suchmaschine der Welt muss nicht vorgestellt werden. Aber was verbirgt sich hinter dieser vertrauten Oberfläche? Wofür steht Google in Bezug auf Marktanteil, Infrastruktur, Mitarbeiter und globale Präsenz?

Im Jahr 2018 hatte Google [1]:

  • 90,6 % Marktanteil weltweit.
  • 30 Millionen indexierte Websites.
  • 500 Millionen neue Anfragen pro Tag.

In Bezug auf Infrastruktur und Beschäftigung war Google im Jahr 2017 vertreten [2]:

  • 70.053 Mitarbeiter.
  • 21 Büros in 11 Ländern.
  • 2 Millionen Computer in 60 Rechenzentren.
  • 850 Terabyte für den Cache aller indizierten Seiten.

Bei einem so großen Umfang ist die Menge der erzeugten Daten zwangsläufig riesig. Angesichts der ständigen Redundanz der Daten und der Notwendigkeit, sie präzise zu nutzen, hat Google Google Goods, einen Datenkatalog , der hinter den Kulissen arbeitet, um die Daten zu organisieren und ihr Verständnis zu erleichtern.

Die Einsichten, die zu Google Goods führten

Google verfügt über mehr als 26 Milliarden interne Daten [3]. Und das sind nur die Daten, die für alle Mitarbeiter des Unternehmens zugänglich sind.

Berücksichtigt man die sensiblen Daten, die einen sicheren Zugang nutzen, könnte sich die Zahl verdoppeln. Diese Datenmenge warf zwangsläufig Probleme und Fragen auf, die Google als Grund für die Entwicklung seines Tools angab:

Eine enorme Datenskala

In Anbetracht der oben genannten Zahlen stand Google vor einem nicht zu übersehenden Problem. Die schiere Menge und Größe der Daten machte es unmöglich, sie alle zu verarbeiten. Daher war es wichtig, zu bestimmen, welche Daten nützlich sind und welche nicht.

Das System schließt bereits bestimmte Informationen aus, die als unnötig erachtet werden, und ist erfolgreich bei der Ermittlung einiger Redundanzen. Daher ist es möglich, eindeutige eindeutige Zugriffswege durch die Daten zu schaffen, ohne dass diese an verschiedenen Stellen im Katalog gespeichert werden.

Datenvielfalt

Datensätze werden in einer Reihe von Formaten und in sehr unterschiedlichen Speichersystemen aufbewahrt. Das macht es schwierig, die Daten zu vereinheitlichen. Für Goods ist dies eine echte Herausforderung mit einem entscheidenden Ziel: eine kohärente Art und Weise der Anfrage und des Zugriffs auf Informationen zu bieten, ohne die Komplexität der Infrastruktur zu offenbaren.

Relevanz der Daten

Google schätzt, dass täglich 1 Million Daten sowohl erstellt als auch gelöscht werden. Dies unterstreicht die Notwendigkeit, Daten zu priorisieren und ihre Relevanz zu bestimmen. Einige sind für die Verarbeitungskette von entscheidender Bedeutung, haben aber nur für ein paar Tage einen Wert, andere haben ein geplantes Lebensende, das von mehreren Wochen bis zu ein paar Stunden dauern kann.

Die unsichere Natur von Metadaten

Viele der katalogisierten Daten stammen aus unterschiedlichen Protokollen, was die Metadaten komplex macht. Waren geht daher durch Versuch und Irrtum vor, um Hypothesen zu erstellen. Dies ist darauf zurückzuführen, dass es auf einer Post-hoc-Basis arbeitet. Mit anderen Worten: Die Mitarbeiter müssen ihre Arbeitsweise nicht ändern. Sie werden nicht aufgefordert, Datensätze mit Metadaten zu kombinieren, wenn sie erstellt werden. Es ist Sache von Goods, Daten zu bearbeiten, zu sammeln und zu analysieren, um sie zusammenzuführen und für die künftige Verwendung zu klären.

Eine Prioritätsskala

Nach der Arbeit an der Entdeckung und Katalogisierung stellt sich die Frage der Prioritätensetzung. Die Herausforderung besteht in der Fähigkeit, diese Frage zu beantworten: "Was macht die Daten wichtig?" Die Beantwortung dieser Frage ist für die Daten eines Unternehmens weitaus weniger einfach als z. B. die Priorisierung von Web-Recherchen. Bei dem Versuch, eine relevante Rangfolge zu erstellen, basiert Goods auf den Wechselwirkungen zwischen Daten, Metadaten und anderen Kriterien basiert. So hält das Tool Daten für wichtiger, wenn ihr Autor eine Beschreibung mit ihnen verknüpft hat oder wenn sie von mehreren Teams konsultiert, verwendet oder kommentiert werden.

Semantische Datenanalyse

Die Durchführung dieser Analyse ermöglicht insbesondere eine bessere Klassifizierung und Beschreibung der Daten im Suchwerkzeug. So kann es auf die richtigen angeforderten Informationen im Katalog reagieren. Das Beispiel ist in dem Referenzartikel zu Google Goods [3] beschrieben: Angenommen, das Schema eines Datensatzes ist bekannt und bestimmte Felder des Schemas nehmen ganzzahlige Werte an. Dank der Inferenz auf den Inhalt des Datensatzes kann der Nutzer erkennen, dass es sich bei diesen Integer-Werten um IDs bekannter geografischer Landmarken handelt und diese Art von Inhaltssemantik nutzen, um die geografische Datenrecherche im Tool zu verbessern.

Google Goods-Funktionen

Google Goods katalogisiert und analysiert die Daten, um sie in einheitlicher Form zu präsentieren. Das Tool sammelt die grundlegenden Metadaten und versucht, sie durch die Analyse einer Reihe von Parametern zu erweitern. Durch wiederholtes Überprüfen der Daten und Metadaten kann Goods sich selbst bereichern und weiterentwickeln.

Die wichtigsten Funktionen, die den Nutzern angeboten werden, sind:

Eine Suchmaschine

Wie das Google, das wir kennen, bietet Goods eine Schlüsselwort-Suchmaschine zur Anfrage eines Datensatz. Dies ist der Moment, in dem die Herausforderung der Datenpriorisierung stattfindet. Die Suchmaschine bietet Daten an, die nach verschiedenen Kriterien klassifiziert sind, z. B. nach der Anzahl der beteiligten Verarbeitungsketten, dem Vorhandensein oder Fehlen einer Beschreibung usw.

Datenpräsentationsseite

Jede Datei verfügt über eine Seite, die so viele Informationen wie möglich enthält. In Anbetracht der Tatsache, dass bestimmte Daten mit Tausenden von anderen verknüpft sein können, komprimiert Google die als besonders wichtig erkannten Daten im Vorfeld, um sie auf einer Präsentationsseite verständlicher zu machen. Wenn die komprimierte Version zu groß ist, werden nur die neuesten Einträge auf der Seite angezeigt.

Team-Boards

Goods erstellte Boards, um alle von einem Team generierten Daten zu verteilen. So ist es zum Beispiel möglich, verschiedene Metadaten zu erhalten und sich mit anderen Boards zu verbinden. Das Board wird jedes Mal aktualisiert, wenn Goods Metadaten hinzufügt. Das Board kann leicht in verschiedene Dokumente integriert werden, so dass die Teams es dann gemeinsam nutzen können.

Darüber hinaus ist es auch möglich, Überwachungsmaßnahmen und Warnmeldungen zu bestimmten Daten zu implementieren. Waren ist für die Überprüfungen zuständig und kann die Teams im Falle eines Alarms benachrichtigen.

Warenverwendung durch Google-Mitarbeiter

Im Laufe der Zeit haben die Google-Teams erkannt, dass die Nutzung des Tools und sein Umfang nicht unbedingt den Erwartungen des Unternehmens entsprachen.

Auf diese Weise konnte Google feststellen, dass die Mitarbeiter die Waren hauptsächlich nutzen und welche Funktionen sie bevorzugen:

Audit-Protokollpuffer

Protocol Buffers sind Serialisierungsformate mit einer von Google entwickelten Schnittstellenbeschreibungssprache. Sie werden bei Google häufig zum Speichern und Austauschen aller Arten von Informationsstrukturen verwendet.

Bestimmte Vorgänge enthalten personenbezogene Daten und sind Teil einer spezifischen Datenschutzpolitik. Die Prüfung dieser Protokolle ermöglicht es, die Eigentümer dieser Daten im Falle einer Verletzung der Vertraulichkeit zu alarmieren.

Wiederherstellung von Daten

Ingenieure müssen im Framework ihrer Tests viele Daten erzeugen und vergessen oft ihren Standort, wenn sie wieder darauf zugreifen müssen. Dank der Suchmaschine können sie sie leicht wiederfinden.

Verstehen von Legacy-Code

Es ist nicht einfach, aktuelle Informationen über den Code oder die Datensätze zu finden. Goods verwaltet die Grafiken, mit denen Ingenieure frühere Codeausführungen sowie die Ein- und Ausgabe von Datensätzen verfolgen und die Logik finden können, die sie verbindet.

Nutzung des Kommentarsystems

Das Lesezeichensystem der Datenseiten ist vollständig integriert, um wichtige Informationen schnell zu finden und sie einfach zu teilen.

Verwendung von Seitenmarkierungen

Es ist möglich, Daten mit Anmerkungen zu versehen und ihnen unterschiedliche Vertraulichkeitsgrade zuzuordnen. Auf diese Weise können andere Google-Mitarbeiter die Daten, die ihnen vorliegen, besser verstehen.

Mit Goods erreicht Google eine Priorisierung und Vereinheitlichung des Datenzugriffs für alle seine Teams. Das System soll nicht aufdringlich sein und arbeitet daher kontinuierlich und unsichtbar für die Nutzer, um sie mit organisierten und eindeutigen Daten zu versorgen. Auf diese Weise verbessert das Unternehmen die Teamleistung und vermeidet Redundanzen. Es spart Ressourcen und beschleunigt den Zugang zu Daten, die für das Wachstum und die Entwicklung des Unternehmens wichtig sind..

[1] Blog des Moderators: https://www.blogdumoderateur.com/chiffres-google/
[2] Web-Ranking-Info: https://www.webrankinfo.com/dossiers/google/chiffres-cles
[3] https://static.googleusercontent.com/media/research.google.com/fr//pubs/archive/45390.pdf

actian avatar logo

Über Actian Corporation

Actian macht Daten einfach. Unsere Datenplattform vereinfacht die Verbindung, Verwaltung und Analyse von Daten in Cloud-, Hybrid- und lokalen Umgebungen. Mit jahrzehntelanger Erfahrung in den Bereichen Datenmanagement und -analyse liefert Actian leistungsstarke Lösungen, die es Unternehmen ermöglichen, datengesteuerte Entscheidungen zu treffen. Actian wird von führenden Analysten anerkannt und wurde für seine Leistung und Innovation mit Branchenpreisen ausgezeichnet. Unsere Teams präsentieren bewährte Anwendungsfälle auf Konferenzen (z. B. Strata Data) und tragen zu Open-Source-Projekten bei. Im ActianBlog behandeln wir Themen wie Echtzeit-Dateneingabe, Datenanalyse, Data Governance, Datenmanagement, Datenqualität, Datenintelligenz und KI-gesteuerte Analysen.