Was macht einen Datenkatalog "smart"? #4 - Die Suchmaschine
Actian Germany GmbH
Februar 16, 2022

A Datenkatalog bündelt enorme Mengen unterschiedlichster Informationen, deren Umfang exponentiell wachsen wird. Dies wird 2 große Herausforderungen mit sich bringen:
- Wie kann das Informationsvolumen eingespeist und gepflegt werden, ohne dass sich die Kosten für die Verwaltung derMetadaten verdreifachen (oder mehr)?
- Wie findet man die wichtigsten Datensätze für einen bestimmten use case?
Wir denken, dass ein Datenkatalog sollte intelligent sein, um diese 2 Fragen zu beantworten, mit intelligenten technologischen und konzeptionellen Eigenschaften, die über die alleinige Integration von KI-Algorithmen hinausgehen.
In diesem Zusammenhang haben wir 5 Bereiche identifiziert, in denen ein Datenkatalog "Smart" sein kann - die meisten davon haben nichts mit Maschinelles Lernen:
- Metamodellierung
- Der Datenbestand
- Verwaltung von Metadaten
- Die Suchmaschine
- Erfahrungen Nutzer
Eine leistungsstarke Suchmaschine für eine effiziente Erkundung
Angesichts der enormen Datenmengen, die in einem Unternehmenskatalog enthalten sind, betrachten wir die Suchmaschine als den wichtigsten Mechanismus, durch den Benutzer den Katalog kennenlernen können. DieSuchmaschine muss einfach zu bedienen, leistungsstark und vor allem effizient sein - die Ergebnisse müssen die ErwartungenNutzer kennenlernen . Google und Amazon haben die Messlatte in dieser Hinsicht sehr hoch gelegt, und das Sucherlebnis, das sie bieten, ist zu einer Referenz in diesem Bereich geworden.
Diese unübertroffene Sucherfahrung lässt sich so zusammenfassen:
- Ich gebe ein paar Begriffe in die Suchleiste ein, oft mit Hilfe eines Vorschlagssystems, das mir häufige Assoziationen von Begriffen anbietet, um meine Suche einzugrenzen.
- Die nahezu sofortige Antwort liefert die Ergebnisse in einer bestimmten Reihenfolge, und ich erwarte, dass ich das relevanteste Ergebnis auf Seite eins finde.
- Sollte dies nicht der Fall sein, kann ich einfach Begriffe hinzufügen, um die Suche noch weiter einzugrenzen, oder die verfügbaren Filter verwenden, um die nicht relevanten Ergebnisse auszublenden.
Leider scheint sich das Beste, was der Datenkatalogisierungsmarkt derzeit an Funktionen zu bieten hat, auf leistungsfähige Indexierungs-, Scoring- und Filtersysteme zu beschränken. Dieser Ansatz ist zufriedenstellend, wenn der Nutzer eine konkrete Vorstellung davon hat, wonach er suchen möchte (High Intent Search) kann sich aber als enttäuschend erweisen, wenn die Suche eher explorativ ist (Suche mit geringer Absicht) oder wenn es einfach darum geht, dem Nutzer spontan relevante Ergebnisse vorzuschlagen(keine Absicht).
Kurz gesagt, die einfache Indexierung eignet sich hervorragend für das Auffinden von Informationen, deren Merkmale gut bekannt sind, ist aber unzureichend, wenn die Suche eher explorativ ist. Die Ergebnisse enthalten oft falsch-positive Ergebnisse und die Reihenfolge der Suche ist bei exakten Übereinstimmungen überrepräsentiert.
Ein multidimensionaler Suchansatz
Wir waren uns von Anfang an darüber im Klaren, dass ein einfaches Indexierungssystem sich als unzureichend erweisen und den Nutzern nicht die relevantesten Ergebnisse liefern würde. Daher haben wir uns dafür entschieden, die Suchmaschine in einem eigenen Modul auf der Plattform zu isolieren und sie in eine leistungsstarke Innovations- (und Investitions-) Zone zu verwandeln.
Wir haben uns natürlich für die Arbeit der Gründer von Google am Page Rank, ihrem Algorithmus, interessiert. Page Rank berücksichtigt mehrere Dutzend Aspekte (sogenannte Features), darunter die Dichte der Beziehung zwischen verschiedenen Graphenobjekten (Hypertext-Links im Falle von Internetseiten), die linguistische Behandlung von Suchbegriffen oder die semantische Analyse des Wissensgraphen.
Natürlich verfügen wir nicht über die Mittel, die Google hat, und auch nicht über dessen Fachwissen in Bezug auf die Optimierung von Suchergebnissen. Aber wir haben in unsere Suchmaschine mehrere Funktionen integriert, die ein hohes Maß an relevanten Ergebnissen liefern, und diese Funktionen werden ständig weiterentwickelt.
Wir haben die folgenden Kernfunktionen integriert:
- Standardmäßige, flache Indizierung aller Attribute eines Objekts (Name, Beschreibung und Eigenschaften) mit einer Gewichtung nach der Art der Eigenschaft.
- Eine NLP Verarbeitung natürlicher Sprache), die die Beinahe-Fehler (Tipp- oder Rechtschreibfehler) berücksichtigt.
- Eine semantische Analyseschicht, die sich auf die Verarbeitung des Wissensgraphen stützt.
- Eine Personalisierungsebene, die sich derzeit auf eine einfache Klassifizierung der Nutzer nach ihrer Nutzung stützt und in Zukunft durch eine individuelle Profilierung angereichert werden soll.
Intelligente Filterung zur Kontextualisierung und Einschränkung von Suchergebnissen
Um die Suchmaschine zu vervollständigen, bieten wir auch ein so genanntes intelligentes Filtersystem an. Intelligente Filterung ist etwas, das wir oft auf E-Commerce-Websites (wie Amazon, booking.com usw.) finden und das darin besteht, kontextbezogene Filter bereitzustellen, um das Suchergebnis einzuschränken. Diese Filter funktionieren auf folgende Weise:
- In der Liste der Filter werden nur die Eigenschaften angeboten, die zur Reduzierung der Ergebnisliste beitragen - nicht-diskriminierende Eigenschaften werden nicht angezeigt.
- Jeder Filter zeigt seine Wirkung, d. h. die Anzahl der verbleibenden Ergebnisse nach Anwendung des Filters.
- Wenn Sie einen Filter anwenden, wird die Ergebnisliste sofort aktualisiert.
Mit dieser Kombination aus multidimensionaler Suche und intelligenter Filterung, sind wir der Meinung, dass wir ein besseres Sucherlebnis bieten als alle unsere Wettbewerber. Und unsere entkoppelte Architektur ermöglicht es uns, kontinuierlich neue Ansätze kennenlernen und diejenigen, die uns effizient erscheinen, schnell zu integrieren.
Für weitere Informationen darüber, wie ein Intelligente Suchmaschine einen Datenkatalog aufwertet, laden Sie unser eBook herunter: "Was ist ein Smart Datenkatalog?".
Abonnieren Sie den Actian Blog
Abonnieren Sie den Blog von Actian, um direkt Dateneinblicke zu erhalten.
- Bleiben Sie auf dem Laufenden: Holen Sie sich die neuesten Informationen zu Data Analytics direkt in Ihren Posteingang.
- Verpassen Sie keinen Beitrag: Sie erhalten automatische E-Mail-Updates, die Sie informieren, wenn neue Beiträge veröffentlicht werden.
- Ganz wie sie wollen: Ändern Sie Ihre Lieferpräferenzen nach Ihren Bedürfnissen.