Data Intelligence

Was macht einen Datenkatalog "smart"? #4 - Die Suchmaschine

Actian Germany GmbH

Februar 16, 2022

smart-data-catalog-4-search-engine

A Datenkatalog bündelt enorme Mengen unterschiedlichster Informationen, deren Umfang exponentiell wachsen wird. Dies wird 2 große Herausforderungen mit sich bringen:

  • Wie kann das Informationsvolumen eingespeist und gepflegt werden, ohne dass sich die Kosten für die Verwaltung derMetadaten verdreifachen (oder mehr)?
  • Wie findet man die wichtigsten Datensätze für einen bestimmten use case?

Wir denken, dass ein Datenkatalog sollte intelligent sein, um diese 2 Fragen zu beantworten, mit intelligenten technologischen und konzeptionellen Eigenschaften, die über die alleinige Integration von KI-Algorithmen hinausgehen.

In diesem Zusammenhang haben wir 5 Bereiche identifiziert, in denen ein Datenkatalog "Smart" sein kann - die meisten davon haben nichts mit Maschinelles Lernen:

  1. Metamodellierung
  2. Der Datenbestand
  3. Verwaltung von Metadaten
  4. Die Suchmaschine
  5. Erfahrungen Nutzer

Eine leistungsstarke Suchmaschine für eine effiziente Erkundung

In Anbetracht der enormen Datenmengen, die in einem Unternehmenskatalog enthalten sind, betrachten wir die Suchmaschine als den wichtigsten Mechanismus, mit dem Benutzer den Katalog erkunden können. DieSuchmaschine muss einfach zu bedienen, leistungsstark und vor allem effizient sein - die Ergebnisse müssen den Erwartungen Nutzer entsprechen. Google und Amazon haben die Messlatte in dieser Hinsicht sehr hoch gelegt, und das Sucherlebnis, das sie bieten, ist zu einer Referenz in diesem Bereich geworden.

Diese unübertroffene Sucherfahrung lässt sich so zusammenfassen:

  • Ich gebe ein paar Begriffe in die Suchleiste ein, oft mit Hilfe eines Vorschlagssystems, das mir häufige Assoziationen von Begriffen anbietet, um meine Suche einzugrenzen.
  • Die nahezu sofortige Antwort liefert die Ergebnisse in einer bestimmten Reihenfolge, und ich erwarte, dass ich das relevanteste Ergebnis auf Seite eins finde.
  • Sollte dies nicht der Fall sein, kann ich einfach Begriffe hinzufügen, um die Suche noch weiter einzugrenzen, oder die verfügbaren Filter verwenden, um die nicht relevanten Ergebnisse auszublenden.

Leider scheint sich das Beste, was der Datenkatalogisierungsmarkt derzeit an Funktionen zu bieten hat, auf leistungsfähige Indexierungs-, Scoring- und Filtersysteme zu beschränken. Dieser Ansatz ist zufriedenstellend, wenn der Nutzer eine konkrete Vorstellung davon hat, wonach er suchen möchte (High Intent Search) kann sich aber als enttäuschend erweisen, wenn die Suche eher explorativ ist (Suche mit geringer Absicht) oder wenn es einfach darum geht, dem Nutzer spontan relevante Ergebnisse vorzuschlagen(keine Absicht).

Kurz gesagt, die einfache Indexierung eignet sich hervorragend für das Auffinden von Informationen, deren Merkmale gut bekannt sind, ist aber unzureichend, wenn die Suche eher explorativ ist. Die Ergebnisse enthalten oft falsch-positive Ergebnisse und die Reihenfolge der Suche ist bei exakten Übereinstimmungen überrepräsentiert.

Ein multidimensionaler Suchansatz

Wir waren uns von Anfang an darüber im Klaren, dass ein einfaches Indexierungssystem sich als unzureichend erweisen und den Nutzern nicht die relevantesten Ergebnisse liefern würde. Daher haben wir uns dafür entschieden, die Suchmaschine in einem eigenen Modul auf der Plattform zu isolieren und sie in eine leistungsstarke Innovations- (und Investitions-) Zone zu verwandeln.

Wir haben uns natürlich für die Arbeit der Gründer von Google am Page Rank, ihrem Algorithmus, interessiert. Page Rank berücksichtigt mehrere Dutzend Aspekte (sogenannte Features), darunter die Dichte der Beziehung zwischen verschiedenen Graphenobjekten (Hypertext-Links im Falle von Internetseiten), die linguistische Behandlung von Suchbegriffen oder die semantische Analyse des Wissensgraphen.

Natürlich verfügen wir nicht über die Mittel, die Google hat, und auch nicht über dessen Fachwissen in Bezug auf die Optimierung von Suchergebnissen. Aber wir haben in unsere Suchmaschine mehrere Funktionen integriert, die ein hohes Maß an relevanten Ergebnissen liefern, und diese Funktionen werden ständig weiterentwickelt.

Wir haben die folgenden Kernfunktionen integriert:

  • Standardmäßige, flache Indizierung aller Attribute eines Objekts (Name, Beschreibung und Eigenschaften) mit einer Gewichtung nach der Art der Eigenschaft.
  • Eine NLP Verarbeitung natürlicher Sprache), die die Beinahe-Fehler (Tipp- oder Rechtschreibfehler) berücksichtigt.
  • Eine semantische Analyseschicht, die sich auf die Verarbeitung des Wissensgraphen stützt.
  • Eine Personalisierungsebene, die sich derzeit auf eine einfache Klassifizierung der Nutzer nach ihrer Nutzung stützt und in Zukunft durch eine individuelle Profilierung angereichert werden soll.

Intelligente Filterung zur Kontextualisierung und Einschränkung von Suchergebnissen

Um die Suchmaschine zu vervollständigen, bieten wir auch ein so genanntes intelligentes Filtersystem an. Intelligente Filterung ist etwas, das wir oft auf E-Commerce-Websites (wie Amazon, booking.com usw.) finden und das darin besteht, kontextbezogene Filter bereitzustellen, um das Suchergebnis einzuschränken. Diese Filter funktionieren auf folgende Weise:

  • In der Liste der Filter werden nur die Eigenschaften angeboten, die zur Reduzierung der Ergebnisliste beitragen - nicht-diskriminierende Eigenschaften werden nicht angezeigt.
  • Jeder Filter zeigt seine Wirkung, d. h. die Anzahl der verbleibenden Ergebnisse nach Anwendung des Filters.
  • Wenn Sie einen Filter anwenden, wird die Ergebnisliste sofort aktualisiert.

Mit dieser Kombination aus multidimensionaler Suche und intelligenter Filterung, sind wir der Meinung, dass wir ein besseres Sucherlebnis bieten als alle unsere Wettbewerber. Und unsere entkoppelte Architektur ermöglicht es uns, kontinuierlich neue Ansätze zu erforschen und diejenigen, die uns effizient erscheinen, schnell zu integrieren.

Für weitere Informationen darüber, wie ein Intelligente Suchmaschine einen Datenkatalog aufwertet, laden Sie unser eBook herunter: "Was ist ein Smart Datenkatalog?".

actian avatar logo

Über Actian Corporation

Actian versetzt Unternehmen in die Lage, Daten in großem Umfang sicher zu verwalten und zu steuern. Die Data-Intelligence-Lösungen von Actian helfen beim Optimieren komplexer Datenumgebungen und einer beschleunigten Bereitstellung von KI-fähigen Daten. Actian-Lösungen sind flexibel, lassen sich nahtlos integrieren und arbeiten zuverlässig in On-Premises-, Cloud- und Hybrid-Umgebungen. Erfahren Sie mehr über Actian, die Datenabteilung von HCLSoftware, unter actian.com.