Blog | Beobachtbarkeit | | 7 Min. Lesezeit

Unstrukturierte Daten: Die fehlende Zutat in der nächsten Ära der KI

unstrukturierte Daten

Zusammenfassung

  • Erklärt, warum unstrukturierte Daten im Zeitalter der KI einen entscheidenden geschäftlichen Kontext darstellen.
  • Definiert unstrukturierte Daten und wie KI Bedeutung aus Text, Audio und Bildmaterial extrahiert.
  • Zeigt, wie unstrukturierte Daten kontextbezogene, agentenbasierte und operative KI-Anwendungsfälle vorantreiben.
  • Beschreibt Schritte, um unstrukturierte Daten durch Governance und Metadaten für KI nutzbar zu machen.
  • Positioniert unstrukturierte Daten als Grundlage für skalierbar, zuverlässige KI.

Jahrelang konzentrierten sich die Datenstrategien von Unternehmen darauf, welche Informationen sich gut in Zeilen und Spalten einordnen ließen. Dazu gehören Felder wie Kunden-IDs, Produktbestellungen, Lagerbestände und Finanzbücher. Diese Art strukturierter Daten ist zwar nach wie vor von entscheidender Bedeutung, doch hat die KI die Regeln für die Bewertung von Daten verändert.

Die einfache Wahrheit ist, dass die wichtigsten geschäftlichen Informationen selten in einer Tabelle zu finden sind. Stattdessen sind sie über die tägliche Arbeit verteilt, mit der sich Teams regelmäßig beschäftigen, wie E-Mails, PDFs, Verträge, Präsentationen, Besprechungsnotizen, Anrufaufzeichnungen und Support-Tickets.

Analysten und Forscher schätzen, dass etwa 80 % der Unternehmensdaten unstrukturiert sind, was bedeutet, dass sie außerhalb traditioneller Datenbanken gespeichert sind. Infolgedessen versuchen Unternehmen, intelligente Systeme aufzubauen, ohne dabei einen Großteil ihres institutionellen Wissens zu berücksichtigen.

Im Zeitalter der KI, insbesondere als Agentische KI , machen unstrukturierte Daten den Unterschied zwischen einem Modell, das beeindruckend klingt, und einem, das kontextbezogene Erkenntnisse liefert. Dies wirft die Frage auf: „Welche Rolle spielen unstrukturierte Daten im Zeitalter der KI genau?“

Was sind unstrukturierte Daten und wie werden sie von KI genutzt?

Unstrukturierte Daten sind Informationen, die nicht in einem vordefinierten Schema vorliegen. Es gibt kein spezifisches „Feld“ für die Kundenstimmung, das Vertragsrisiko oder den Grund für eine Lieferverzögerung. Stattdessen sind diese Bedeutung und dieser Kontext eingebettet Sprache, Bildmaterial oder Audio eingebettet .

Stellen Sie sich den Unterschied so vor:

  • Strukturierte Daten: „Bestellung Nr. 48392 versandt am 18.12. Transportunternehmen: UPS. Status: Zugestellt.“
  • Halbstrukturierte Daten: „Die Sendungsverfolgung für Bestellung Nr. 48392 zeigt eine Lieferung am 18.12. um 14:47 Uhr.“
  • Unstrukturierte Daten: „Der Kunde gibt an, dass das Paket beschädigt angekommen ist, möchte einen Ersatz und eskaliert die Angelegenheit in den sozialen Medien.“

Diese Beispiele sind Datentypen, doch nur einer passt eindeutig in eine Datenbank. Die anderen, die halbstrukturierten und unstrukturierten Nachrichten, passen nicht eindeutig hinein, bieten jedoch mehr Details, sodass das Unternehmen geeignete Maßnahmen ergreifen kann.

Unstrukturierte Daten können mehr als nur einfacher Text sein. Sie können Folgendes umfassen:

  • Sprachanrufe und Transkripte.
  • Bilder wie Quittungen, Scans und medizinische Bilder.
  • Videos wie Standortbesichtigungen und Training .
  • PDF-Dateien und Präsentationen, die eingebettet , Diagramme oder Screenshots enthalten.
  • Technisch strukturierte, aber unkontrollierte und kontextlastige Tabellenkalkulationen.

KI macht unstrukturierte Daten nutzbar, indem sie Informationen, Stimmungen, Themen und Zusammenhänge aus Rohtexten, Bildern, Audio- oder Videodateien extrahiert. Sie kann die Daten durchsuchen, zusammenfassen, Fragen dazu beantworten und die nächstbesten Maßnahmen auslösen, wie z. B. das Eröffnen eines Tickets oder das Markieren eines Risikos. 

Warum unstrukturierte Daten für KI wichtiger denn je sind

Unstrukturierte Daten haben schon immer eine Geschichte hinter den Zahlen verborgen, beispielsweise warum ein Kunde verärgert ist, was ein Vertrag tatsächlich zulässt, was ein Arzt beobachtet hat oder was bei einer Lieferung schiefgelaufen ist. Der Unterschied besteht darin, dass diese Daten bis vor kurzem kostspielig und in großem Umfang schwer zu verarbeiten waren.

Herkömmliche Systeme konnten Dokumente, E-Mails, Aufzeichnungen und PDF-Dateien speichern, aber sie konnten diese nicht konsistent interpretieren. Stattdessen mussten Teams Inhalte manuell lesen, kennzeichnen, zusammenfassen und in strukturierte Felder übersetzen, bevor sie nutzbar waren.

Große Sprachmodelle (LLMs) haben die Wirtschaftlichkeit und den Arbeitsablauf verändert. Sie können Bedeutungen wie Entitäten, Absichten und Stimmungen extrahieren, dann Zusammenfassungen erstellen, Inhalte klassifizieren und Fragen beantworten, oft in natürlicher Geschäftssprache.

Das bedeutet jedoch nicht, dass Teams wahllos unordentliche Dateien in LLMs einspeisen und vertrauenswürdige Ergebnisse erwarten können. LLMs sind nur so zuverlässig wie die Daten, auf die sie zugreifen können, und wie diese Informationen organisiert, gesichert und in der Geschäftsrealität des Unternehmens verankert sind.

Die Aufbereitung der Daten ist genau der Punkt, an dem viele KI-Initiativen ins Stocken geraten. Wenn die aktuelle Unternehmensrichtlinie in einer nicht durchsuchbaren PDF-Datei versteckt ist, wenn Produktausnahmen in verstreuten E-Mail-Threads zu finden sind oder wenn fünf Versionen desselben Standardverfahrens existieren, ohne dass es eine einzige zuverlässige Quelle gibt, kann es sein, dass das Modell unvollständige Daten verwendet, denen der Kontext fehlt, oder dass es zwar zuversichtlich klingt, aber eine falsche Antwort liefert.

Um unstrukturierte Daten für KI nutzbar zu machen, sind Schritte wie die Aufbereitung und Deduplizierung von Inhalten, das Hinzufügen Metadaten Eigentumsangaben, die Durchsetzung von Zugriffskontrollen, die Erstellung einer klaren Versionierung und die Strukturierung von Inhalten erforderlich, damit die KI diese abrufen kann. Auf diese Weise können Teams die Daten finden, ihnen vertrauen und sie aktivieren.

3 Wege, wie unstrukturierte Daten KI vorantreiben

Unstrukturierte Daten spielen in KI-Strategien in dreierlei Hinsicht eine Rolle:

  1. Es liefert Kontext, den strukturierte Systeme nicht erfassen. Strukturierte Daten sagen dem Unternehmen, was passiert ist. Unstrukturierte Daten sagen oft, warum es passiert ist. Ein dashboard beispielsweise, dass die Kundenabwanderung im letzten Quartal um 8 % gestiegen ist. Das ist hilfreich, aber die Gründe für die Abwanderung können in Anrufprotokollen, Beschwerde-E-Mails, Chat-Protokollen und Wettbewerbsvergleichen verborgen sein. Mit der richtigen Pipeline kann KI diese Informationen zu Themen zusammenfassen, wie z. B. Onboarding-Probleme, Unklarheiten bei der Preisgestaltung, eine fehlende Produktfunktion oder ein Serviceproblem.
  2. LLMs verwandeln KI aus Chats in Arbeit. KI, die relevante Dokumente abrufen, ihre Antworten auf Geschäftsabläufe stützen, Texte generieren und Aufgaben erledigen kann, ist wertvoll. KI ist sogar noch wertvoller, wenn sie eine kontrollierte, durchsuchbare Wissensdatenbank bietet und erkennt, welche Daten für einen use case benötigt werden. Beispielsweise könnte ein Kundendienstmitarbeiter fragen: „Können wir dieses Produkt nach 45 Tagen zurücknehmen?“ KI kann die aktuellen Rückgabebedingungen, die Vertragsbedingungen des Kunden und alle regionsspezifischen Ausnahmen abrufen und dann die Frage mit Zitaten und den nächsten Schritten beantworten.
  3. Unterstützen Sie das Rückgrat der Agentische KI. Agentische KI mehr als nur Antworten liefern. Sie kann Maßnahmen ergreifen, wie z. B. Systeme abfragen, Workflows starten, Genehmigungen versenden und Datensätze aktualisieren. Damit Agentische KI mit unstrukturierten Daten zuverlässig arbeiten Agentische KI , müssen die Informationen aufeinander abgestimmt, kontextualisiert und vertrauenswürdig sein. Agentische KI beispielsweise Lieferantenverträge und per E-Mail versandte Änderungen lesen, riskante Klauseländerungen kennzeichnen, dann automatisch einen Genehmigungsworkflow öffnen, die Auswirkungen für die Rechtsabteilung zusammenfassen und die Verlängerung erst nach Unterzeichnung durch die Genehmiger ausführen.

Unstrukturierte Daten KI-bereit machen

Viele Teams erhalten die Anweisung, unstrukturierte Daten für KI vorzubereiten, und gehen davon aus, dass dies bedeutet, „alles in eine Datenbank zu werfen“. Das ist so, als würde man Papierdokumente in einen Raum werfen und diesen dann als Bibliothek bezeichnen.

AI-fähige unstrukturierte Daten erfordern in der Regel eine Pipeline, die diese fünf Schritte umfasst:

  1. Entdecken und priorisieren. Beginnen Sie mit Anwendungsfällen, die mit den gewünschten Ergebnissen verbunden sind, wie z. B. schnellere Lösung, weniger Ablehnungen oder geringeres Risiko.
  2. Klassifizieren und kontrollieren Sie den Zugriff. Identifizieren Sie sensible Inhalte wie personenbezogene Daten, Verträge und Finanzinformationen und legen Sie fest, wer darauf zugreifen darf.
  3. Erweitern Sie die Daten mit Metadaten. Fügen Sie Kontext hinzu, der Dokumenttyp, Eigentümer, Gültigkeitsdatum, Region und Produktlinie umfassen kann.
  4. Extrahieren Sie die wichtigen Informationen. Teilen Sie Dokumente in kleinere Bestandteile auf, extrahieren Sie wichtige Elemente wie Daten und Teilenummern und bewahren Sie die Herkunft auf, um Antworten bis zu ihren Quellen zurückverfolgen zu können.
  5. Überwachen Sie die Qualität kontinuierlich. Seien Sie sich bewusst, dass unstrukturierte Daten sich ändern. Richtlinien werden aktualisiert, Präsentationen geändert und Wissen veraltet. KI benötigt zuverlässige Daten, sonst klingt sie zwar intelligent, liegt aber falsch.

Probleme mit der Zuverlässigkeit von Adressdaten

Wenn Menschen über Probleme mit der Datenqualität nachdenken, stellen sie sich oft fehlende Werte in einer Tabelle vor. Das trifft auf strukturierte Daten zu, aber unstrukturierte Inhalte können auf verschiedene Weise von geringer Qualität sein:

  • Eine Richtlinie wurde aktualisiert, aber eine alte PDF-Datei ist immer noch im Umlauf.
  • Zwei Kartenspiele sagen zwei verschiedene Dinge.
  • Fehlender Kontext. Ein Dokument verweist auf einen Standardprozess, ohne diesen zu definieren.
  • Schlechte Erfassung. Schlechte Audioqualität, Scans mit niedriger Auflösung oder Fehler bei der optischen Zeichenerkennung (OCR).
  • Keine Herkunft. Niemand weiß, woher die Daten stammen und ob sie für die Verwendung zugelassen sind.

KI „argumentiert“ mit minderwertigen Eingaben. Das macht die Ausgabe nicht zuverlässig, aber es kann Fehler schwerer erkennbar machen. 

Der Gewinn: Eine KI, die fundiert, nützlich und skalierbar ist

Wenn unstrukturierte Daten als kontrollierte Unternehmensressource behandelt werden, können Unternehmen ihre Anwendungsfälle vorantreiben. Dazu können gehören:

  • Vertragsprüfer, die Risikoklauseln und fehlende Bestimmungen aufdecken.
  • Kundensupport-Copiloten, die Richtlinien zitieren und Fallhistorien zusammenfassen.
  • Wartungs-KI-Agenten, die Handbücher, Arbeitsaufträge und Sensorwarnungen kombinieren.
  • Supply chain , die E-Mails, Rechnungen und Versanddokumente abgleichen.

So wird KI einsatzfähig. Nicht weil das Modell intelligenter geworden ist, sondern weil die Datenbasis zuverlässig und vertrauenswürdig ist.

Wo Actian ins Spiel kommt

Actian hilft Unternehmen dabei, Struktur, Governance und Vertrauen in die Daten zu bringen, die KI antreiben. Dazu gehören auch unstrukturierte Daten, in denen sich so viele geschäftliche Zusammenhänge befinden.

Die Actian Data Beobachtbarkeit identifiziert proaktiv Probleme mit der Datenqualität, mindert diese und hilft Unternehmen dabei, alle Daten zuverlässig zu optimieren. Damit können Datenteams ihren Daten für agentische KI andere Anwendungsfälle vertrauen.

Machen Sie eine Produkttour durch die Data Beobachtbarkeit .