Blog | Datenintelligenz | | 5 Min. Lesezeit

Was macht einen Datenkatalog "smart"? #4 - Die Suchmaschine

smart-data-catalog-4-search-engine

Zusammenfassung

  • Ein Datenkatalog eine leistungsstarke Suchmaschine, da die Suche für die Nutzer die wichtigste Methode ist, um sich in großen Mengen von Metadaten zurechtzufinden.
  • Die einfache Indizierung eignet sich für präzise Suchanfragen, ist jedoch weniger geeignet für die explorative Suche oder die Suche ohne konkrete Absicht.
  • Eine intelligentere Suchmaschine verbindet die Indizierung mit NLP, semantischer Analyse und Personalisierung.
  • Die intelligente Filterung verbessert die Relevanz, indem sie nur nützliche Filter und deren Auswirkungen auf die Ergebnisse anzeigt.
  • Durch die Kombination von mehrdimensionaler Suche und kontextbezogener Filterung können Nutzer die richtigen Datensätze schneller und präziser finden.

A Datenkatalog bündelt enorme Mengen unterschiedlichster Informationen, deren Umfang exponentiell wachsen wird. Dies wird 2 große Herausforderungen mit sich bringen:

  • Wie kann das Informationsvolumen eingespeist und gepflegt werden, ohne dass sich die Kosten für die Verwaltung derMetadaten verdreifachen (oder mehr)?
  • Wie findet man die wichtigsten Datensätze für einen bestimmten use case?

Wir denken, dass ein Datenkatalog sollte intelligent sein, um diese 2 Fragen zu beantworten, mit intelligenten technologischen und konzeptionellen Eigenschaften, die über die alleinige Integration von KI-Algorithmen hinausgehen.

Diesbezüglich haben wir 5 Bereiche identifiziert, in denen ein Datenkatalog "Smart" sein kann - die meisten davon haben nichts mit Maschinelles Lernen:

  1. Metamodellierung
  2. Der Datenbestand
  3. Verwaltung von Metadaten
  4. Die Suchmaschine
  5. Erfahrungen Nutzer

Eine leistungsstarke Suchmaschine für eine effiziente Erkundung

In Anbetracht der enormen Datenmengen, die in einem Unternehmenskatalog enthalten sind, betrachten wir die Suchmaschine als den wichtigsten Mechanismus, mit dem Benutzer den Katalog erkunden können. DieSuchmaschine muss einfach zu bedienen, leistungsstark und vor allem effizient sein - die Ergebnisse müssen den Erwartungen Nutzer entsprechen. Google und Amazon haben die Messlatte in dieser Hinsicht sehr hoch gelegt, und das Sucherlebnis, das sie bieten, ist zu einer Referenz in diesem Bereich geworden.

Diese unübertroffene Sucherfahrung lässt sich so zusammenfassen:

  • Ich gebe ein paar Begriffe in die Suchleiste ein, oft mit Hilfe eines Vorschlagssystems, das mir häufige Assoziationen von Begriffen anbietet, um meine Suche einzugrenzen.
  • Die nahezu sofortige Antwort liefert die Ergebnisse in einer bestimmten Reihenfolge, und ich erwarte, dass ich das relevanteste Ergebnis auf Seite eins finde.
  • Sollte dies nicht der Fall sein, kann ich einfach Begriffe hinzufügen, um die Suche noch weiter einzugrenzen, oder die verfügbaren Filter verwenden, um die nicht relevanten Ergebnisse auszublenden.

Leider scheint sich das Beste, was der Datenkatalogisierungsmarkt derzeit an Fähigkeiten zu bieten hat, auf leistungsfähige Systeme zur Indexierung, Bewertung und Filterung zu beschränken. Dieser Ansatz ist zufriedenstellend, wenn der Nutzer eine konkrete Vorstellung davon hat, wonach er suchen möchte (High Intent Search) kann sich aber als enttäuschend erweisen, wenn die Suche eher explorativ ist (Suche mit geringer Absicht) oder wenn es einfach darum geht, dem Nutzer spontan relevante Ergebnisse vorzuschlagen(keine Absicht).

Kurz gesagt, die einfache Indexierung eignet sich hervorragend für das Auffinden von Informationen, deren Merkmale gut bekannt sind, ist aber unzureichend, wenn die Suche eher explorativ ist. Die Ergebnisse enthalten oft falsch-positive Ergebnisse und die Reihenfolge der Suche ist bei exakten Übereinstimmungen überrepräsentiert.

Ein multidimensionaler Suchansatz

Wir waren uns von Anfang an darüber im Klaren, dass ein einfaches Indexierungssystem sich als unzureichend erweisen und den Nutzern nicht die relevantesten Ergebnisse liefern würde. Daher haben wir uns dafür entschieden, die Suchmaschine in einem eigenen Modul auf der Plattform zu isolieren und sie in eine leistungsstarke Innovations- (und Investitions-) Zone zu verwandeln.

Wir haben uns natürlich für die Arbeit der Gründer von Google am Page Rank, ihrem Algorithmus, interessiert. Page Rank berücksichtigt mehrere Dutzend Aspekte (sogenannte Features), darunter die Dichte der Beziehung zwischen verschiedenen Graphenobjekten (Hypertext-Links im Falle von Internetseiten), die linguistische Behandlung von Suchbegriffen oder die semantische Analyse des Wissensgraphen.

Natürlich verfügen wir nicht über die Mittel, die Google hat, und auch nicht über dessen Fachwissen in Bezug auf die Optimierung von Suchergebnissen. Aber wir haben in unsere Suchmaschine mehrere Funktionen integriert, die ein hohes Maß an relevanten Ergebnissen liefern, und diese Funktionen werden ständig weiterentwickelt.

Wir haben die folgenden Kernfunktionen integriert:

  • Standardmäßige, flache Indizierung aller Attribute eines Objekts (Name, Beschreibung und Eigenschaften), gewichtet entsprechend der Art der Eigenschaft.
  • Eine NLP Verarbeitung natürlicher Sprache), die die Beinahe-Fehler (Tipp- oder Rechtschreibfehler) berücksichtigt.
  • Eine semantische Analyseschicht, die sich auf die Verarbeitung des Wissensgraphen stützt.
  • Eine Personalisierungsebene, die sich derzeit auf eine einfache Klassifizierung der Nutzer nach ihrer Nutzung stützt und in Zukunft durch eine individuelle Profilierung angereichert werden soll.

Intelligente Filterung zur Kontextualisierung und Einschränkung von Suchergebnissen

Um die Suchmaschine zu vervollständigen, bieten wir außerdem ein sogenanntes intelligentes Filtersystem an. Intelligente Filter sind häufig auf E-Commerce-Websites (wie Amazon, booking.com usw.) zu finden und bestehen aus kontextbezogenen Filtern, mit denen die Suchergebnisse eingegrenzt werden können. Diese Filter funktionieren wie folgt:

  • In der Liste der Filter werden nur die Eigenschaften angeboten, die zur Reduzierung der Ergebnisliste beitragen - nicht-diskriminierende Eigenschaften werden nicht angezeigt.
  • Jeder Filter zeigt seine Wirkung, d. h. die Anzahl der verbleibenden Ergebnisse nach Anwendung des Filters.
  • Wenn Sie einen Filter anwenden, wird die Ergebnisliste sofort aktualisiert.

Mit dieser Kombination aus mehrdimensionaler Suche und intelligenter Filterung sind wir der Meinung, dass wir ein Sucherlebnis bieten, das dem unserer Mitbewerber überlegen ist. Und unsere entkoppelte Architektur ermöglicht es uns, kontinuierlich neue Ansätze zu erproben und diejenigen, die effizient erscheinen, rasch zu integrieren.

Weitere Informationen darüber, wie ein Smart Suchmaschine einen Datenkatalog verbessert, laden Sie unser E-Book herunter: „Was ist ein Smart Datenkatalog?