Data Intelligence

Was macht einen Datenkatalog "smart"? #4 - Die Suchmaschine

Actian Germany GmbH

Februar 16, 2022

smart-data-catalog-4-search-engine

A Datenkatalog bündelt enorme Mengen unterschiedlichster Informationen, deren Umfang exponentiell wachsen wird. Dies wird 2 große Herausforderungen mit sich bringen:

  • Wie kann das Informationsvolumen eingespeist und gepflegt werden, ohne dass sich die Kosten für die Verwaltung derMetadaten verdreifachen (oder mehr)?
  • Wie findet man die wichtigsten Datensätze für einen bestimmten use case?

Wir denken, dass ein Datenkatalog sollte intelligent sein, um diese 2 Fragen zu beantworten, mit intelligenten technologischen und konzeptionellen Eigenschaften, die über die alleinige Integration von KI-Algorithmen hinausgehen.

In diesem Zusammenhang haben wir 5 Bereiche identifiziert, in denen ein Datenkatalog "Smart" sein kann - die meisten davon haben nichts mit Maschinelles Lernen:

  1. Metamodellierung
  2. Der Datenbestand
  3. Verwaltung von Metadaten
  4. Die Suchmaschine
  5. Erfahrungen Nutzer

Eine leistungsstarke Suchmaschine für eine effiziente Erkundung

Angesichts der enormen Datenmengen, die in einem Unternehmenskatalog enthalten sind, betrachten wir die Suchmaschine als den wichtigsten Mechanismus, durch den Benutzer den Katalog kennenlernen können. DieSuchmaschine muss einfach zu bedienen, leistungsstark und vor allem effizient sein - die Ergebnisse müssen die ErwartungenNutzer kennenlernen . Google und Amazon haben die Messlatte in dieser Hinsicht sehr hoch gelegt, und das Sucherlebnis, das sie bieten, ist zu einer Referenz in diesem Bereich geworden.

Diese unübertroffene Sucherfahrung lässt sich so zusammenfassen:

  • Ich gebe ein paar Begriffe in die Suchleiste ein, oft mit Hilfe eines Vorschlagssystems, das mir häufige Assoziationen von Begriffen anbietet, um meine Suche einzugrenzen.
  • Die nahezu sofortige Antwort liefert die Ergebnisse in einer bestimmten Reihenfolge, und ich erwarte, dass ich das relevanteste Ergebnis auf Seite eins finde.
  • Sollte dies nicht der Fall sein, kann ich einfach Begriffe hinzufügen, um die Suche noch weiter einzugrenzen, oder die verfügbaren Filter verwenden, um die nicht relevanten Ergebnisse auszublenden.

Leider scheint sich das Beste, was der Datenkatalogisierungsmarkt derzeit an Funktionen zu bieten hat, auf leistungsfähige Indexierungs-, Scoring- und Filtersysteme zu beschränken. Dieser Ansatz ist zufriedenstellend, wenn der Nutzer eine konkrete Vorstellung davon hat, wonach er suchen möchte (High Intent Search) kann sich aber als enttäuschend erweisen, wenn die Suche eher explorativ ist (Suche mit geringer Absicht) oder wenn es einfach darum geht, dem Nutzer spontan relevante Ergebnisse vorzuschlagen(keine Absicht).

Kurz gesagt, die einfache Indexierung eignet sich hervorragend für das Auffinden von Informationen, deren Merkmale gut bekannt sind, ist aber unzureichend, wenn die Suche eher explorativ ist. Die Ergebnisse enthalten oft falsch-positive Ergebnisse und die Reihenfolge der Suche ist bei exakten Übereinstimmungen überrepräsentiert.

Ein multidimensionaler Suchansatz

Wir waren uns von Anfang an darüber im Klaren, dass ein einfaches Indexierungssystem sich als unzureichend erweisen und den Nutzern nicht die relevantesten Ergebnisse liefern würde. Daher haben wir uns dafür entschieden, die Suchmaschine in einem eigenen Modul auf der Plattform zu isolieren und sie in eine leistungsstarke Innovations- (und Investitions-) Zone zu verwandeln.

Wir haben uns natürlich für die Arbeit der Gründer von Google am Page Rank, ihrem Algorithmus, interessiert. Page Rank berücksichtigt mehrere Dutzend Aspekte (sogenannte Features), darunter die Dichte der Beziehung zwischen verschiedenen Graphenobjekten (Hypertext-Links im Falle von Internetseiten), die linguistische Behandlung von Suchbegriffen oder die semantische Analyse des Wissensgraphen.

Natürlich verfügen wir nicht über die Mittel, die Google hat, und auch nicht über dessen Fachwissen in Bezug auf die Optimierung von Suchergebnissen. Aber wir haben in unsere Suchmaschine mehrere Funktionen integriert, die ein hohes Maß an relevanten Ergebnissen liefern, und diese Funktionen werden ständig weiterentwickelt.

Wir haben die folgenden Kernfunktionen integriert:

  • Standardmäßige, flache Indizierung aller Attribute eines Objekts (Name, Beschreibung und Eigenschaften) mit einer Gewichtung nach der Art der Eigenschaft.
  • Eine NLP Verarbeitung natürlicher Sprache), die die Beinahe-Fehler (Tipp- oder Rechtschreibfehler) berücksichtigt.
  • Eine semantische Analyseschicht, die sich auf die Verarbeitung des Wissensgraphen stützt.
  • Eine Personalisierungsebene, die sich derzeit auf eine einfache Klassifizierung der Nutzer nach ihrer Nutzung stützt und in Zukunft durch eine individuelle Profilierung angereichert werden soll.

Intelligente Filterung zur Kontextualisierung und Einschränkung von Suchergebnissen

Um die Suchmaschine zu vervollständigen, bieten wir auch ein so genanntes intelligentes Filtersystem an. Intelligente Filterung ist etwas, das wir oft auf E-Commerce-Websites (wie Amazon, booking.com usw.) finden und das darin besteht, kontextbezogene Filter bereitzustellen, um das Suchergebnis einzuschränken. Diese Filter funktionieren auf folgende Weise:

  • In der Liste der Filter werden nur die Eigenschaften angeboten, die zur Reduzierung der Ergebnisliste beitragen - nicht-diskriminierende Eigenschaften werden nicht angezeigt.
  • Jeder Filter zeigt seine Wirkung, d. h. die Anzahl der verbleibenden Ergebnisse nach Anwendung des Filters.
  • Wenn Sie einen Filter anwenden, wird die Ergebnisliste sofort aktualisiert.

Mit dieser Kombination aus multidimensionaler Suche und intelligenter Filterung, sind wir der Meinung, dass wir ein besseres Sucherlebnis bieten als alle unsere Wettbewerber. Und unsere entkoppelte Architektur ermöglicht es uns, kontinuierlich neue Ansätze kennenlernen und diejenigen, die uns effizient erscheinen, schnell zu integrieren.

Für weitere Informationen darüber, wie ein Intelligente Suchmaschine einen Datenkatalog aufwertet, laden Sie unser eBook herunter: "Was ist ein Smart Datenkatalog?".

actian avatar logo

Über Actian Corporation

Actian macht Daten einfach. Unsere Datenplattform vereinfacht die Verbindung, verwalten und Analyse von Daten in Cloud, Hybrid- und On-Premises . Mit jahrzehntelanger Erfahrung in den Bereichen Datenmanagement und Analytik liefert Actian High-Performance Lösungen, die Unternehmen in die Lage versetzen, data driven Entscheidungen zu treffen. Actian wird von führenden Analysten anerkannt und hat Branchenauszeichnungen für Leistung und Innovation erhalten. Unsere Teams präsentieren bewährte Anwendungsfälle auf Konferenzen (z. B. Strata Data) und tragen zu Open-Source-Projekten bei. Im Actian-Blog behandeln wir Themen, die von Dateneingang bis hin zu KI-gesteuerter Analytik reichen.