Datenanalyse

Webinar – Daten, erforscht #2 – Rückgewinnung unstrukturierter Daten: Das Textlager für KI

September 17, 2025

54:49

Zusammenfassung

Webinar mit Bill Inman über sich entwickelnde Daten- und KI-Trends.
Vergleicht strukturierte Daten mit Textverarbeitung und KI-Grenzen.
Betont Datenbanken hinsichtlich Umfang, Qualität und Visualisierung.
Untersucht die Anpassung von Business-LLM und Metadaten .

Kapitel

00:14Einführung & Gast

Willkommen bei „Data Explored“, äh, zwei. In dieser, äh, speziellen, äh, Reihe von, äh, Webinaren. Wir untersuchen aktuelle Trends im Bereich Daten und KI.

Und, äh, mein Name ist, äh, ich bin der Moderator. Heute habe ich das Vergnügen, als Chief Evangelist in Aktion zu sein, äh, eine Rolle, über die ich mich sehr freue. Und, äh, eine meiner absoluten Lieblingsbeschäftigungen ist es, ähm, diese Webinar-Reihe zu moderieren, in der es zu 100 % nicht um Action geht, sondern um sehr wichtige Themen aus den Bereichen Daten, KI und Technologie, über die wir alle mehr lernen können und sollten. Äh, heute habe ich, äh, drei Gäste bei mir, äh, äh, einen Hauptgast, wenn man so will, und dann zwei Diskussionsteilnehmer, die unser, ähm, Verständnis des, ähm, des vorliegenden Themas erweitern werden.

Der erste Gast ist, äh, Bill Inman. Bill Inman ist, äh, ein amerikanischer Informatiker und Autor mehrerer sehr einflussreicher Bücher über Datenarchitekturen und -technologien. Er ist außerdem der Erfinder des Data Warehouse und wird uns in dieser Funktion sowie als Erfinder des Textual Warehouse begleiten, das heute unser Thema ist. Außerdem haben wir zwei Diskussionsteilnehmer, die neue Perspektiven zu diesem Thema einbringen werden, nämlich der Chief Data Architect und der Corner of the Content Quality Management Idea.

Ein Begriff, der für KI von großer Bedeutung ist. Ebenfalls bei uns ist Jessica Taliman, eine unabhängige Informationsarchitektin mit ihrer eigenen Beratungsfirma, The Corner of the Ontology Pipeline, was ebenfalls ein Begriff ist, der für KI von großer Bedeutung ist. Und so werden wir heute über das Textlager sprechen, von dem Bill in mehreren Büchern und zahlreichen Präsentationen gesprochen hat.

Also werde ich erst einmal ein wenig den Rahmen abstecken und dann werde ich, äh, ein Gespräch mit Ihnen beginnen, Bill. Also, zunächst einmal, ja, und bevor wir einsteigen, bevor wir einsteigen, möchte ich dem Publikum sagen, dass es ein Q und ein Feld gibt, das Sie für Fragen verwenden können. Bitte nutzen Sie diese QA-Box, damit ich etwa eine halbe Stunde lang mit Bill sprechen kann, fünf, zehn Minuten lang mit, äh, zuerst mit Jessica und dann mit Bill.

Und dann geben wir Ihnen, dem Publikum, die Möglichkeit, Fragen zu stellen. Das war's auch schon. Damit möchte ich ein wenig den Rahmen abstecken und das Konzept dieses Vortrags vorstellen.

Bill, Sie sind als Vater des Data Warehouse bekannt, einen Begriff, den Sie vor vielen Jahrzehnten geprägt haben. Ähm, und das war für die damalige Zeit sehr visionär. Es dauerte lange, bis, ähm, die Daten-Community, äh, ihn übernahm.

Äh, der Begriff hat verstanden, was Sie gemeint haben. Und ich sage ganz offen, dass ich ein großer Bewunderer einer solchen Herangehensweise bin, wenn es darum geht, mit allen über Technik zu sprechen, zu denken und sie zu vermitteln. Ich bewundere Terminologie, die länger Bestand hat als Hype.

Und ich denke, dies ist eines der absolut besten Beispiele dafür. Das Data Warehouse – Sie haben jahrzehntelang für dieses Konzept gekämpft, bevor es angenommen wurde, und jetzt ist es einfach ein Muss. Jedes einzelne Unternehmen der Welt ab einer bestimmten Größe und einem bestimmten Industrialisierungsgrad verfügt über ein Data Warehouse.

Das ist nichts, worüber man spricht.

04:30Textuelles Lagerhaus-Konzept

Nun haben Sie auch eine neue Idee vorgestellt, das Textlager. Eigentlich ist das gar nicht so neu. Sie haben darüber bereits in vielen Büchern gesprochen.

Und ich persönlich hatte das Vergnügen, Ihren Vortrag in Dayday, Texas, zu sehen, als Sie diese Idee vorgestellt haben. Und deshalb denke ich, Bill, dass Sie etwas nicht nur einmal, sondern zweimal erreicht haben. Ich glaube, dass Textlager etwas sind, über das Unternehmen in Zukunft genauso verfügen werden wie über Datenlager.

Und deshalb interessiere ich mich für die Erforschung des Textlagers, insbesondere weil wir derzeit die ersten Schritte in diese Richtung beobachten, mit einem großen Hype oder Aufstieg der KI, den wir in diesen Jahren erleben. Damit möchte ich mich dem Thema nähern, das wir diskutieren werden, aber bevor ich Ihnen Fragen stelle, möchte ich mit einem Zitat aus Ihrem Buch beginnen, Bill, und Ihnen dann einige sehr offene Fragen stellen, nicht zum Textlager, sondern zu etwas anderem. Sie werden sehen, worum es geht.

Ich halte hier das Buch „Turning Text into Gold“ in den Händen. Sie haben im Januar dieses Jahres bei Day-to-Day Texas eine fantastische Präsentation über das Textlager gehalten. Und deshalb werde ich den Anfang dieses Buches vorlesen, oder einen Teil der Einleitung dieses Buches.

Text ist das gemeinsame Fundament der Gesellschaft. Geschäfte werden schriftlich abgewickelt. Argumente werden schriftlich vor Gericht vorgebracht.

Gerichtsverfahren werden schriftlich durchgeführt. Gespräche zwischen Freunden finden schriftlich statt. Kurz gesagt, Text ist das Medium des Austauschs zwischen Menschen, die seit den Anfängen der Informatik auf der Erde leben.

Der Computertxt ist einfach der ursprüngliche quadratische Pflock im runden Loch. Computerprozesse konzentrieren sich auf strukturierte Transaktionen, nicht auf Text. In seiner frühen Geschichte war der Computer für den Umgang mit Text größtenteils keine große Hilfe.

Das war schade, da einige der wichtigsten Informationen in Form von Text vorlagen. Aber heute, und das ist in unserer Zeit sehr aktuell, gibt es technologische Fortschritte, die es dem Computer ermöglichen, Text zu lesen, zu speichern und zu analysieren. Dadurch wird eine ganze Welt der fundierten Entscheidungsfindung möglich.

Mit diesem Zitat möchte ich das Gespräch mit einer Frage beginnen, die sich eigentlich auf den Text selbst bezieht. Was fasziniert Sie an Texten, Bill? Was ist das Wesen eines Textes?

Meine ganze Geschichte mit Text beginnt, entschuldigen Sie bitte. Meine ganze Geschichte mit Text beginnt vor etwa 23 oder 24 Jahren. Ich arbeitete damals im Bereich Data Warehousing, also strukturierten Daten.

Und ich setzte mich hin und stellte mir die Frage: Warum betrachten Unternehmen nur einen wirklich kleinen Prozentsatz ihrer Daten, nämlich strukturierte Daten? Warum wird Text ignoriert? Und, und, und, und das war der Beginn meiner Migration zum Verständnis, äh, was die Probleme mit Text waren.

Zu diesem Zeitpunkt hatte ich keine Ahnung, mit welcher Komplexität ich und andere Menschen konfrontiert waren, dass jeder Text als selbstverständlich angesehen wird, weil wir Sprache sprechen. Was wir jedoch nicht verstehen, ist, dass im Hintergrund jedes unserer Gehirne automatisch Tausende von Regeln gleichzeitig verarbeitet.

Und wir denken nicht einmal darüber nach. Nun, wenn man anfängt, Text in einen Computer einzugeben, gibt es diese Regeln größtenteils nicht. Und, und, und, und, und das macht Text für den Computer so teuflisch schwierig.

Nun, es gibt viele Gründe, warum Text komplex ist. Ich muss sagen, dass mich in der heutigen Welt unter anderem die Haltung vieler Unternehmen wirklich frustriert, die sagen: „Wir haben Text. Nehmen wir einfach Chat, GPT und Chat.“

GPT löst unsere Probleme mit Text. Und tatsächlich löst GPT im Chat eine bestimmte Gruppe von Problemen mit Text. Keine Frage.

Tatsächlich hat Chat-GPT Türen geöffnet, die zuvor nie geöffnet waren. Aber was die Lösung von Problemen mit Text angeht, insbesondere im Hinblick auf den geschäftlichen Nutzen von Chat, leistet GPT wirklich nichts. Lassen Sie uns also ein wenig darüber sprechen, warum es tatsächlich einige sehr grundlegende Gründe gibt, warum Chat-GPT und geschäftlicher Nutzen etwas voneinander getrennt sind.

Äh, der erste Grund ist der Chat. GPT ist Text, der Text produziert. Und für die Zwecke von Chat GPT ist das völlig in Ordnung.

Aber für die Zwecke der analytischen Verarbeitung, die wir im Unternehmen durchführen müssen, ist das nicht ausreichend. Um viele der Probleme zu lösen, die heute im Unternehmen auftreten, benötigen wir die Informationen in Form einer Datenbank. Was leistet eine Datenbank für Sie, was Chat GPT nicht leistet?

Nun, es kann eine Menge Dinge tun. Äh, ich werde hier mal eine Liste durchgehen, in der aufgeführt ist, was eine Datenbank für Sie tun kann.

10:41Die Rolle von Datenbanken

Der erste und wahrscheinlich wichtigste Grund, warum eine Datenbank wertvoller für den Geschäftswert ist. Übrigens, ich möchte den Chat nicht herabsetzen. GPT-Chat.

GPT leistet Wunderbares für Menschen. Es beantwortet alle möglichen interessanten Fragen. Aber wenn es darum geht, geschäftlichen Mehrwert zu schaffen, ist es kein besonders gutes Werkzeug.

Warum? Erstens wegen der Datenmengen. Wenn Sie zum Beispiel einen Arzt fragen, wie viele, äh, Krankenakten er oder sie sich ansieht, wenn sie einen problematischen Patienten haben, wird der Arzt Ihnen sagen, nun, 2025.

Und das liegt daran, dass die Ärzte die Unterlagen selbst manuell lesen mussten. Wenn man jedoch in der Lage ist, Text in eine Datenbank einzugeben, hat man nun eine unbegrenzte Anzahl von Informationen, die man sich ansehen kann. Man kann sich 10 Millionen Patienten ansehen.

Und bestimmte medizinische Analysen erfordern unbedingt, dass man sich sehr viele Unterlagen ansieht. Also die Anzahl, die Anzahl, nun ja, und es gibt viele Unterschiede. Der wichtigste Unterschied besteht im Umfang, denn Texte müssen manuell gelesen werden.

Und weil die Datenbank nicht manuell gelesen werden muss, gibt es einen großen Unterschied in der Datenmenge, die verarbeitet werden kann, Nummer eins. Nummer zwei, die, äh, Grundlage der Daten selbst. Chatt PT eignet sich gut für die Untersuchung von Text, der an Orten wie dem Internet gefunden wird.

Tatsächlich eignet es sich hervorragend für diesen Zweck. Allerdings gilt für die Daten, die sich in Ihrem Unternehmen befinden und in Datenbanken, SQL-Server-Datenbanken, Oracle-Datenbanken und DB2-Datenbanken versteckt sind: Wenn Daten dort versteckt sind, kann ChatGPT entweder nicht oder nur sehr schwer darauf zugreifen und diese Daten finden.

Und doch sind genau diese Daten im Unternehmen die Daten, die, äh, äh, äh, im Mittelpunkt der Erbringung Ihrer Geschäftswerte stehen. Ein dritter Grund, warum eine Datenbank für die analytische Verarbeitung so wichtig ist, ist, dass Sie die aus einer Datenbank kommenden Daten visualisieren können. Sie können ein dashboard erstellen, Sie können einen Wissensgraphen erstellen.

Man kann sie sogar einfach in eine Excel-Tabelle einfügen. Aber in Wahrheit ist die Visualisierung von Daten sehr wichtig, um den Überblick zu behalten. Ich weiß nicht, ob Sie schon einmal versucht haben, eine Datenbank oder eine Liste einem Manager vorzulegen.

Was machen Manager weltweit, wenn sie einen großen Haufen an Informationen sehen? Was machen sie? Sie ignorieren ihn. Manager schauen sich Diagramme an.

Manager betrachten Zusammenfassungen und versuchen, Zusammenfassungen und Visualisierungen direkt aus dem Chat zu erhalten. GPT ist sehr schwierig. Der Versuch, diese Visualisierungen aus einer Datenbank zu erhalten, ist sehr einfach.

Denn dafür sind die Daten ja da. Dann gibt es noch ein weiteres Thema, nämlich die Qualität der Daten selbst. Aus verschiedenen Gründen – und ich bin kein Experte für ChatGPT, aber ChatGPT erzeugt diese sogenannten Halluzinationen.

Was die Zuverlässigkeit und Beständigkeit Daten angeht, hat ChatGPT den Ruf, dies nicht besonders gut zu leisten. Das Besondere an einer Datenbank, die aus Text erstellt wird, ist, dass man zu 100 % sicher sein kann, dass man die Quelle der Daten kennt und jedes Wort mit seiner ursprünglichen Quelle in Verbindung bringen kann, sodass es niemals Fragen zur Qualität der Daten gibt. Das hat man.

Und meine Freundin Shweta ist, glaube ich, eher eine Expertin auf diesem Gebiet als ich. Ein weiterer Grund, und ich sage Ihnen, ich werde dies zum letzten Grund machen, aber ich könnte noch endlos weitermachen. Ein weiterer Grund, warum Chat GPT nicht besonders gut für analytische Verarbeitungsprozesse geeignet ist, ist, dass Analysten ständig sogenannte iterative oder heuristische Verarbeitungsprozesse durchführen.

Sie reichen eine abfragen ein abfragen sagen: Oh, das ist nicht ganz richtig. Ich möchte ein paar Änderungen vornehmen und die abfragen erneut einreichen. Das tun sie, sie sehen sich die Ergebnisse an und sagen: Oh, das ist nicht ganz richtig.

Ich möchte, dass jedes Mal, wenn Sie zu Ihren Quelldaten zurückkehren müssen, dies bei der Verwendung von Chat GPT viele Maschinenzyklen kostet. Wenn Sie jedoch Ihre Datenbank aus Text erstellen, müssen Sie zwar zu Ihren Quelldaten zurückkehren, aber nur einmal. Wenn der Analyst seine Meinung darüber ändern möchte, was er fragen möchte, müssen Sie nicht zurückgehen und die Daten aus der Rohquelle ableiten.

Sie können einfach zu Ihrer Datenbank zurückkehren. Und ich habe hier eine lange Liste. Äh, das ist alles, was ich dazu sagen möchte.

Es gibt viele andere Gründe, warum, äh, die analytische Verarbeitung von, äh, äh, Chat GPT für den geschäftlichen Nutzen, die analytische Verarbeitung für viele andere Dinge, die Suche nach, äh, äh, mit welchem Schiff Kolumbus nicht in die Neue Welt zurückgesegelt ist, äh, äh, wie lautete der Nachname der ersten Person auf dem Mond? Äh, wie lautete das Ergebnis des Fußballspiels zwischen Liverpool und Arsenal gestern Abend? Chachi pt, äh, äh, leistet dabei hervorragende Arbeit, denn Datenbanken sind eigentlich nicht dafür ausgelegt, alles zu leisten, aber wenn es um den geschäftlichen Nutzen geht.

Und deshalb bin ich so frustriert von Geschäftsführern. Sie denken, dass Chat GPT ein Allheilmittel ist. Sie, sie, sie denken, dass sie, sie, sie einfach Chat GPT über alle ihre Textdaten im Unternehmen legen und plötzlich wunderbare Dinge passieren.

Und wissen Sie was? Das tun sie nicht. Danke, Bill, für diese fantastische Marke.

Ich habe viele Fragen vorbereitet und ich habe Wissen und Weisheit erwartet, aber ich muss sagen, dass mich das Maß an Energie und Leidenschaft überrascht hat. Aber natürlich kann ich verstehen, dass Sie an vielen Gesprächen über Chat-DBT beteiligt sein müssen, was angesichts der aktuellen Lage und der Technologie nur natürlich ist, oder? Aber ich möchte noch einmal kurz auf einige der Unterschiede zurückkommen, die Sie in Ihrem Buch und in einigen Details, die Sie in mehreren Ihrer Bücher dargelegt haben, ansprechen.

Also zunächst einmal, ähm, nur für das Publikum hier, die Vision, die Sie von Unternehmen haben, unterscheidet sich meiner Meinung nach vielleicht ein wenig von Chat GT im Allgemeinen, das auf Texten aus dem offenen Internet trainiert ist, richtig? Äh, Unternehmenstexte können, zumindest meiner Meinung nach, etwas anders sein. Sie haben ein Konzept, das Sie Boilerplate-Text nennen.

Was ist Boilerplate-Text? Nun, wir, wir, ich, ich nenne es das Business-Sprachmodell. Wenn man sich die Entwicklung von Sprachmodellen ansieht, äh, wenn man versucht, alles in der Welt zu betrachten, braucht man ein großes Sprachmodell.

Man muss in der Lage sein, alles zu verstehen, was jemand sagt. Und, und, und wenn man ins Geschäftsleben einsteigt, muss man nicht alles verstehen, was jeder sagt. Man muss sich auf das, äh, äh, äh, das Geschäft selbst konzentrieren, Fluggesellschaften, äh, Fertigung, äh, Pharmazeutika, dass die, die, die Sprache, die in jedem dieser Geschäftsbereiche verwendet wird, unterschiedlich und ziemlich einzigartig für diesen bestimmten Geschäftsbereich ist.

Also, äh, äh, wenn Sie bereit sind, Ihr Textlager aufzubauen, äh, konzentrieren Sie sich nicht auf die Welt. Ich sage Ihnen etwas: Ein echtes, ein wirklich großes Sprachmodell ist, ich würde sagen, unmöglich, es ist unmöglich, es aufzubauen. Sie werden nie fertig werden, also wirklich nie.

Und außerdem, wenn Sie fertig wären, würde sich bis dahin etwas geändert haben, sodass Sie zurückgehen und alles noch einmal machen müssten. Ein wirklich großes Sprachmodell ist also unmöglich. Was jedoch die Sprachmodelle für Unternehmen angeht, ist es nicht unmöglich, sich auf die Sprache von Restaurants oder einer anderen Branche zu konzentrieren, auf die Sie sich konzentrieren möchten.

Also, äh, und indem man sich auf ein bestimmtes Geschäft konzentriert, hat man jetzt eine Aufgabe endlich Aufgabe . Die Aufgabe mit einem LLM Aufgabe ist unendlich, wirklich unendlich. Äh, die Aufgabe sich mit einem Geschäft Aufgabe befassen, ist eine herausfordernde Aufgabe, verstehen Sie mich nicht falsch.

Aber die herausfordernde Aufgabe, äh, äh, ist immer noch eine endliche, machbare Aufgabe. Und so, äh, also, nein, aber das, da stimme ich Ihnen vollkommen zu, und ich denke, dass sich dadurch genau wegen dieser Einschränkungen viele sehr, sehr interessante Möglichkeiten eröffnen.

Könnten wir vielleicht für das Publikum kurz skizzieren oder definieren, was ein Textlager ist? Was ist das? Ein Textlager enthält mehrere Elemente.

Äh, äh, Nummer eins, es enthält Vokabeln, äh, äh, äh, äh, äh, Vokabeln von, von, äh, äh, welcher Branche auch immer, mit der Sie sich beschäftigen werden. Das zweite, was es enthält, äh, äh, äh, ist Kontexttext, der sich grundlegend von Daten unterscheidet. Äh, wenn wir die Geldsumme haben, die eine Bank diesen Monat verliehen hat, dann ist das eine bekannte Information.

Wir wissen, in welchem Zusammenhang das steht. Aber wenn wir ein Wort sehen, das jemand verwendet, müssen wir den Kontext verstehen, um dieses Wort zu verstehen. Also, Nummer eins: Ihr Textlager muss Vokabeln enthalten.

Zweitens muss es den Kontext für den Wortschatz enthalten. Nun, der Kontext ist irgendwie interessant. Es gibt eigentlich zwei Arten von Kontext.

Es gibt den sogenannten Quellkontext und den sogenannten unmittelbaren Kontext. Der Quellkontext ist der Kontext, der normalerweise mit einem Wort verbunden ist, beispielsweise in einem Wörterbuch. Der unmittelbare Kontext ist der Kontext des Wortes im Text, der dem Wort vorausgeht und dem Wort folgt.

Denn oft beeinflusst der Text unmittelbar vor und nach einem Wort dessen Bedeutung. Wenn wir also über Kontext sprechen, gibt es eigentlich zwei Arten von Kontext: den Quellkontext und den unmittelbaren Kontext. Das nächste, was das Wörterbuch enthalten muss, was das Textlager enthalten muss, ist die Quelle, aus der der Text stammt.

Das, äh, äh, woher haben Sie, als Sie Ihr Dokument gelesen haben, die Informationen, die notwendig sind. Denn wenn jemand jemals eine Frage zur, äh, äh, Gültigkeit der Interpretation des Wortes hat, können Sie bis zur Quelle selbst zurückgehen. Nun gibt es noch viele andere mildernde Faktoren.

Äh, ein mildernder Faktor eines Textlagers ist die Sprache selbst. Äh, da bin ich, so sehr ich auch von der englischen Sprache begeistert bin, weil sie meine Muttersprache ist. Ich bin der Erste, der anerkennt, dass es nicht die einzige Sprache auf der Welt ist.

Es gibt, äh, äh, Deutsch, es gibt Französisch, es gibt, äh, äh, Japanisch, es gibt Chinesisch, es gibt Spanisch. Wenn ich mich nicht irre, gibt es etwa 220, äh, 220 anerkannte Sprachen auf der Erde. Das ist ein weiterer mildernder Faktor.

Äh, also, äh, äh, äh, äh, und dann ist ein weiterer Faktor des Wortschatzes, äh, dass man sich im Wortschatz bewusst sein muss, äh, äh, über die verschiedenen Schreibweisen von Wörtern, äh, äh, äh, und, und, und, und, und wie man das Wort interpretiert, äh, äh, wie man das Wort behandelt. Das sind also alles Faktoren, äh, äh, von, von, äh, die, äh, in ein Textlager aufgenommen werden würden. Ja.

Vielen Dank für diese Antwort. Ich habe durchaus das Gefühl, dass Sie, wenn Sie dieses Universum genau verfolgen und sich mit der Natur großer Sprachmodelle beschäftigt haben, einen ganz anderen Ansatz beim Denken über ein Textlager verfolgen als ein großes Sprachmodell, das die Architektur hinter Chat GT bilden würde. Richtig?

Ähm, also, aber ich denke, wir müssen diese Diskussion aus Zeitgründen überspringen, denn wir müssen, äh, wir müssen zu mindestens einer bestimmten Frage übergehen, die ich, ich würde gerne Ihnen beantworten, Bill, denn wir können dies als, äh, als theoretische Architektur oder etwas, das schön wäre, diskutieren, aber das ist bei Textual Warehouse nicht wirklich der Fall. Äh, könnten Sie, ohne Namen zu nennen, einige Beispiele Ihrer Kunden nennen, für die Sie bereits Textual Warehouses implementiert haben, um welche Art von Unternehmen es sich dabei handelt und was das Textual Warehouse in diesen Unternehmen leistet? Sicher.

Und ich, ich werde mich kurz fassen, um Zeit zu sparen, aber vor einiger Zeit haben wir mit einem Öl- und Gasunternehmen gesprochen. Dieses Öl- und Gasunternehmen hatte viele, viele Ölquellen an vielen Orten. Jede Ölquelle hatte ihre eigenen Unterlagen, äh, Unterlagen über Pumpen, über, äh, Rohre, über Bohrköpfe und eine ganze Reihe von, ähm, äh, Informationen, die jede Ölquelle hatte.

Äh, und diese waren in Form von Dokumenten. Was passiert ist, ist, dass, äh, hin und wieder ein Verkäufer, äh, der Ölgesellschaft vorbeikam und sagte, äh, es habe, äh, einen Rückruf einer bestimmten Art von Pumpe gegeben. Und die, die, die Ölgesellschaft hatte ein Problem.

Sie sagten, jetzt müssen wir die Tausenden von Dokumenten, die wir haben, durchsehen, und wie sollen wir die Dokumente durchsehen? Wir müssen sie manuell durchsehen. Und es war eine enorme Anstrengung und eine sehr wichtige Anstrengung, diese Dokumente manuell durchzugehen.

Also, äh, äh, das, das, das, äh, Ziel des Projekts war es, äh, den Inhalt des Dokuments in eine Datenbank zu übertragen, und wenn nun ein Lieferant kommt und sagt, wir haben einige Änderungen, kann man nun auf elektronischem Wege die Dokumente suchen und finden. Man muss nicht, es ist ähnlich wie bei einem Karteikatalog in einer Bibliothek. Wenn man in eine Bibliothek geht, geht man nicht, ich weiß nicht, vielleicht tun Sie das, aber die meisten Leute gehen nicht in die Bibliothek und schauen sich Stapel um Stapel von Büchern an.

Stattdessen gehen sie zum Kartenkatalog, finden dort, was sie suchen, nehmen die Karte aus dem Kartenkatalog und suchen dann die Bücher, die sie suchen. Das ist wieder einmal so, dass man es nicht unbedingt so machen muss. Es ist nur so, dass man es eben so macht.

Und, und, und, und, und, und, und so ist die Anwendung, mit der man einen Dokumentenkarteikatalog für, äh, für die Welt erstellen kann, äh, äh, übrigens, es gibt noch viele andere Anwendungen. Das ist nur eine, die mir in den Sinn kommt, Wunderbar, äh, für jemanden wie mich, der einen Hintergrund in Bibliotheks- und Informationswissenschaft hat. Ich sage das oft, aber, äh, aber es ist wirklich eine sehr interessante Zeit, um zu leben, für jemanden wie mich, der mit, äh, Text und Metadaten Bibliothekssystemen aufgewachsen ist, die immer mehr digitalisiert wurden und wirklich tief, äh, mit der World Wide Web-Bewegung verbunden sind.

Sie erwähnen genug RDF, äh, äh, wie Suchmaschinenfunktionalität, alles. Wir sehen das jetzt wieder für Unternehmen, äh, wegen KI und, und, und was Sie denken, im Zusammenhang mit, äh, Text, äh, Rechnung, das ist wirklich beeindruckend. Und, und es bringt mich zum Lächeln und Träumen, ähm, muss ich sagen.

Und, aber, aber, aber darüber hinaus müssen wir einen Wandel vollziehen. Ähm, also, ähm, Schitz, ich hoffe, du fühlst dich bereit. Ich wollte dich fragen, ich habe dich in meinem Podcast interviewt, den ich zusammen mit dem Chief Technical Officer von Emma moderiere.

Und wir haben über Ihr Konzept gesprochen, das Konzept des Qualitätsmanagements, auf das ich zufällig gestoßen bin. Ich sehe Malcolm in der Telefonkonferenz. Er hat Ihr Konzept auch schon recht früh entdeckt.

Ich folge Malcolms Ideen auch sehr, aber besser ist dieses Konzept, das Sie in Ihren Medium-Beiträgen und auf LinkedIn vorgestellt haben. Wie hängt das Qualitätsmanagement von Inhalten mit der Idee eines Textlagers zusammen? Können Sie uns darüber aufklären? Ja, natürlich.

Ich würde gerne darüber sprechen. Übrigens bin ich ein großer Fan von Bill, deshalb bin ich oft sprachlos, wenn ich ihn auf dem Bildschirm sehe. Bill hat also sehr schön erklärt, wie Textlager funktionieren, richtig?

Und ich denke, es ist ein Durchbruch, der diesen Unternehmenstext endlich zugänglich macht, oder? Für mich ist es wie eine Fundamentschicht. Es fasst alles zusammen, standardisiert es und macht es tatsächlich in großem Maßstab abfragbar, richtig?

Und ich habe das Gefühl, dass Unternehmen ohne diese Technologie fast blind sind, was den Großteil ihres eigenen Wissens angeht. Wie Bill sagte, sind die meisten Daten fast unstrukturiert, sodass sie dieses Wissen tatsächlich nicht sehen können, okay? Aber hier ist die eigentliche Frage, richtig?

Äh, für mich stellt sich die Frage: Wenn ich einmal den gesamten Text an einem Ort habe, okay, als Textlager, wie entscheide ich dann, was ich glauben kann? Denn nicht alle Texte sind gleichwertig. Einige sind sehr klar und andere sehr zuverlässig.

Manchmal sind auch andere widersprüchlich oder unvollständig, nicht wahr? Ich habe das Gefühl, dass eine gleichmäßige Behandlung beider Seiten sowohl die Nutzer als auch die Analysten oder sogar Ihr LMS verwirrt, nicht wahr? Das Erste, was ich in diesem Gespräch bestätigen möchte, ist das Content Quality Management, oder CQM, wie auch immer Sie es nennen möchten.

Es ersetzt nicht das Textlager. Ich bin fest davon überzeugt, dass es darüber steht, oder? Das Lager ist eine Bühne, richtig?

Es stellt sicher, dass der gesamte unstrukturierte Text verfügbar ist, dass er konsistent ist und dass er tragbar ist, genau wie Bill es beschrieben hat. Okay? Aber sobald sich der Vorhang hebt, lautet die eigentliche Frage: Welchem Teil dieses Textes kann man vertrauen?

Kann man es wiederverwenden oder sogar an das LMS übergeben? Und hier kommt das Content Quality Management ins Spiel. Es funktioniert mit Textual Warehouse, okay?

Es handelt sich um die Qualifizierungsebene oberhalb des Textlagers. Wenn das Textlager sicherstellt, dass Sie über den Textinhalt verfügen, sorgt das Qualitätsmanagement dafür, dass Sie nun mit Zuversicht darauf reagieren können, richtig? Und genau das hängt auch mit dem Geschäftsergebnis zusammen, auf das Bill vor einer Minute angespielt hat.

Okay? Nun, es gibt eine Menge technischer Dinge, die erforderlich sind, um dies tatsächlich zu realisieren. Okay?

Ich werde darüber sprechen, äh, hier. Äh, wir könnten sicher noch eine weitere Sitzung darüber abhalten. Und ich arbeite an den technischen Details, richtig?

Äh, aber ich würde gerne erzählen, äh, äh, ich würde gerne erzählen, warum wir diese Ebene über dem Textlager eigentlich brauchen, richtig? Um diese Frage für mich selbst zu beantworten, habe ich mich gefragt, und ich habe zwei Dinge herausgegriffen, die meiner Meinung nach sehr viel mit diesem Thema zu tun haben, und ich finde, Bill hat das auch sehr schön erklärt. Okay?

Also zwei Dinge. Erstens: Wenn Sie die Nutzungsbedingungen von Open AI noch nicht gelesen haben, sollten Sie das unbedingt nachholen, okay? Darin steht ausdrücklich, dass Sie für den Inhalt verantwortlich sind, einschließlich der Sicherstellung, dass er nicht gegen geltendes Recht oder diese Bedingungen verstößt, richtig?

Mit anderen Worten: Die Verantwortung für die Qualität der Eingaben liegt beim Unternehmen, nicht beim Modell. Sie liegt bei Ihnen. Wer erstellt diese Daten tatsächlich, ob im Text-Warehouse-Format, im Knowledge-Graph-Format oder in einem anderen Format? Es liegt tatsächlich an Ihnen, sicherzustellen, dass die verschlüsselte Qualität erhalten bleibt.

Okay? Und das zweite Thema, über das ich sprechen möchte, ist eine ganz aktuelle Studie, die kürzlich von Kaas, K-A-I-S-T, veröffentlicht wurde. Okay?

Es wurde untersucht, warum Menschen beim Chatten frustriert sind. Beauty and Bill hatten damit tatsächlich recht, oder? Die Hauptursachen laut diesem Artikel und dieser Studie waren, dass das Modell die Absicht nicht versteht, dass es ungenaue Antworten gibt und dass es ungenaue Antworten gibt.

Besonders auffällig war, dass in 72 % der Fälle Nutzer das Problem Nutzer durch eine erneute Netzwerkverbindung beheben Nutzer . Es war möglich, aber sie konnten es nicht beheben. Es handelt sich nicht um einen Fehler des Modells selbst.

Es spiegelt wider, was es mitbekommen hat, oder? Der Input war also tatsächlich ein Problem und die Ursache dafür, richtig? Wenn der Inhalt also nicht von vornherein qualifiziert ist, kann die KI ihn nicht auf magische Weise reparieren.

Und genau das wollte Bill Ihnen eigentlich auch sagen: Dass es für manche Dinge gut ist, aber nicht für alles, richtig? Und hier kommt das Content Quality Management ins Spiel, okay? Wenn das Textlager Sie also in die Matrix-Ströme von Text versetzt, die überall fließen, dann würde ich das CQM als Ihren Neo bezeichnen, richtig?

Es erkennt das Signal im Rauschen, wählt das Wesentliche aus und liefert diese nutzbaren, vertrauenswürdigen Informationen, okay? Meiner Meinung nach ist der Zusammenhang also ganz klar. Sobald Sie Ihren Text im Textlager haben, wird die Governance-Ebene, die Ebene für das Qualitätsmanagement, ihn aus der Perspektive der Governance verfügbar machen, um zu entscheiden, welcher Text vertrauenswürdig und zuverlässig ist und welcher Text zuverlässiger ist, damit Ihr LLM weniger halluziniert, richtig?

Das ist also die Verbindung zwischen dem Textlager in Bezug auf das, was Sie als Text haben, und dem, was Sie auch als vertrauenswürdigen Text haben können. Ja. Vielen Dank.

Besonders, das ist es, was die Qualität der Inhalte mit dem Textlager verbindet, meiner Meinung nach sehr klar dargelegt. Ich, ich, ich habe noch mehr Fragen an Sie, aber aus Zeitgründen, weil ich, wir beide müssen, um zu hören, äh, um, äh, ich wollte Sie gerade meine Kollegin Jessica nennen, aber wir haben Sie so oft, dass, äh, und dann haben wir auch noch einige brillante Fragen in der Q&A-Box. Ich würde gerne auf einige davon eingehen, aber das soll nicht heißen, dass Sie sich durch Ihr Konzept hetzen müssen.

Äh, Jessica, ich war dabei, als die Ontologie-Pipeline als Idee entstanden ist. Und ich denke, dass sie sehr gut mit der Idee des Text-Warehouses zusammenpasst. Und ich denke, insgesamt sind Content-Qualitätsmanagement, die Ontologie-Pipeline und das Textlager Ideen, die uns ein besseres Verständnis dafür vermitteln, wie wir bei der Verwaltung unstrukturierter Daten für KI vorgehen können, richtig?

Also, Jessica, bitte, ähm, bitte erläutern Sie das näher und helfen Sie uns zu verstehen, was die Ontologie-Pipeline ist, wie sie mit diesen Ideen und insbesondere mit der Idee des Text-Warehouses zusammenhängt. Also, ähm, danke, Ola. Äh, äh, die Ontologie-Pipeline war eigentlich Arif, oder ist eine Abwandlung des semantischen Spektrums aus dem semantischen Web.

Ähm, aber es ist sehr, äh, es kodifiziert auch Prozesse in der Bibliothekswissenschaft zur Strukturierung von, ähm, Vokabularen und Kontext und Bedeutung. Also, ähm, wissen Sie, ganz ähnlich wie Bill auf den Kartenkatalog angespielt hat, zu dem ich natürlich eine Affinität habe, da ich auch Bibliothekar oder Bibliothekswissenschaftler bin, ähm, beginnt mit einem kontrollierten Vokabular. Die Idee ist also, wie man dieses kontrollierte Vokabular strukturiert.

Und das Textlager macht das wunderbar, ähm, äh, aus kontrolliertem Vokabular. Äh, wir strukturieren und es gibt bestimmte Teile der Pipeline, die etwas austauschbar sind, aber die Idee besteht aus iterativen Schritten und, ähm, Reifegraden für kontextbezogene Vokabulare. Ähm, und so versuchen wir ausgehend vom kontrollierten Vokabular, eine Taxonomie aufzubauen, also eine Hierarchie, ähm, aus der Hierarchie.

Wir gehen zu Thesaurus, ähm, Thesaurus, äh, erweitert die Taxonomie, um Beziehungen herzustellen. Es gibt Definitionen und Bedeutungen. Ähm, und von dort aus gehen wir zu Metadaten .

Natürlich können Metadaten in einen anderen Teil der Pipeline wechseln. Das ist der einzige flexible Teil. Und dann Ontologien, die Kontext und Bedeutung hinzufügen.

Es handelt sich also um die Kodierungsstruktur und natürlich um Wissensgraphen. Es ist also ein iterativer Prozess, der dabei hilft, Menschen anzuleiten, und er ist messbar, was ebenfalls sehr wichtig ist, aber er steht insofern mit dem Textlager in Verbindung, als dass das Textlager kann auftauchen und dabei helfen, den Kontext des Vokabulars und die Bedeutung der Ontologie-Pipeline zu lokalisieren, ähm, kann dabei helfen, zu identifizieren und, äh, und dabei helfen, Teams dabei zu leiten, in der Lage zu sein, Definitionen zu bestimmen. Zum Beispiel, indem Akronyme mit, ähm, Terminologie abgeglichen werden, sie so kodiert werden, dass wir ein Konzept nicht nur mit einer Definition verbinden können, sondern auch mit einem Link zu einer autoritativen Quelle, die die Bedeutung dieses Konzepts validiert und dabei hilft, ähm, die Existenz dieses Konzepts und seine Beziehung zu anderen Dingen zu kodifizieren.

Ähm, innerhalb, zum Beispiel, des, des Textlagers. Wunderbar. Wunderbar, äh, äh, sehr, sehr, äh, äh, prägnant gestaltet.

Danke, Jessica. Ähm, wenn es so etwas gibt, verstehe ich das. Ähm, ich verstehe auch, dass dies nur sehr kurz erklärt wurde, sodass die Leute vielleicht Fragen haben, aber aus Zeitgründen, ist es in Ordnung, wenn wir jetzt zu den Fragen und Antworten übergehen?

Weil ich viele Fragen sehe, die wir meiner Meinung nach beantworten sollten. Ich habe gerade gesehen, Jessica, dass dein Beitrag zur Otology-Pipeline und auf LinkedIn mehr als 800 Likes hatte, ja, das hat mich unglaublich beeindruckt. Es ist ein sehr klares Konzept, und ich finde es großartig.

Also, das ist wirklich verdient, sehr verdient. Ähm, ich weiß, dass wir mehr erwarten können, äh, in Bezug auf die Ontologie-Pipeline. Also, ich finde das interessant.

Ich möchte noch hinzufügen, dass es schön ist, dass ich mit Leuten gesprochen habe, die die Ontologie-Pipeline implementiert haben. Und es ist nicht so, dass man die gesamte Pipeline implementieren muss. Für manche Leute reicht es, nur Taxonomien zu erstellen, aber man sollte zumindest eine Vorstellung vom Endergebnis haben, wenn man sich dafür entscheidet, diese Möglichkeit zu nutzen.

Ja. Und das ist so, nein, ich liebe es, aber wir werden noch mehr darüber reden. Ähm, okay, die Fragen und Antworten, ich werde, äh, ich werde die Fragen in chronologischer Reihenfolge behandeln.

Ich muss, äh, ähm, oder zumindest, wenn, wenn, wenn, wenn nichts anderes, nur anders, aber Kan hat eine Frage, und ich glaube, sie ist an dich gerichtet, Bill. Äh, schlägst du vor, dass wir ein, äh, Unternehmensdatenlager und ein Textdatenlager oder ein Textlager haben? Ich denke, es sollte kombiniert werden.

Sie denken also darüber nach, Data Warehouses und Text-Warehouses zu kombinieren? Ja, auf jeden Fall.

Okay. Ich hasse diese Antwort. Die Antwort lautet ja und nein.

Ja, man kann sie kombinieren, und das ist auch sehr sinnvoll, aber muss man sie kombinieren? Nein, muss man nicht. Äh, äh, äh, und, also noch einmal, ich hasse, ich hasse unentschlossene Antworten, aber die Antwort lautet: Ja und nein.

Was auch immer für Ihr Unternehmen geschäftlich am sinnvollsten ist, ich denke, um nicht unentschlossen zu klingen, Bill, könnten Sie vielleicht einfach sagen, dass es sich um voneinander getrennte Konzepte handelt. Ja, ja. Das lässt Sie, das lässt Sie, das klingt, äh, äh, das lässt es absichtlicher klingen, was es meiner Meinung nach auch ist, um Sie zu verteidigen. Äh, wie vergleichen Sie Text-Stores mit No-SQL-Technologien und Content-Stores?

Eine Frage von Paul, ich denke, die geht auch an dich, Bill, wie würdest du das vergleichen? Ich kenne mich mit Technologien und Content Stores aus. Wie bitte?

Können wir hören, kann ich, können wir die Frage gehört haben? Können Sie mich hören? Nein.

Äh, ja, ich, ich, ja. Äh, äh, ich, ich, ich, ich, ich hasse es, ich werde die Frage nicht beantworten, weil ich, ich, ich, ich weiß nicht genug über, äh, das Thema, um, um, um mir eine Meinung zu bilden. Also, äh, ich muss bei dieser Frage passen.

Ja, klar. Kein Problem. Äh, ich liebe deine Ehrlichkeit.

Ähm, okay. Eine Frage zur mehrschichtigen Architektur, wenn ich, ich meine, ja, sicher, vielleicht... Versuchen Sie zu antworten, es ist ein Schlüsselwertpaar, wenn die meisten NoSQL-Technologien wie, äh, zum Einsatz kommen, richtig? Es ist hauptsächlich aus dieser Perspektive.

Bill spielt also auf ein richtiges Lager an, das mehr als nur Schlüssel-Wert-Paare enthält, richtig? Das könnte also die wahrscheinliche Antwort hier sein. Besser.

Danke. Ähm, die nächste Frage hängt eigentlich ein bisschen mit dem zusammen, was du zum Thema Text-Warehouse gesagt hast, Reta. Ähm, noch einmal, Kan fragt, ob das Text-Warehouse eine ähnliche Architektur haben wird wie das Lake-Warehouse mit kuratierten Ebenen und so weiter?

Also, wir suchen, also, ganz offensichtlich, Shweta, würde dein Standpunkt wohl lauten: Ja, es handelt sich um eine mehrschichtige Architektur.

43:57Datenqualität und -verwaltung

Stimmen Sie dem zu? Ja, ich stimme zu. Ja.

Was auch immer Ihnen einfällt, das wäre das Wichtigste. Es ist genau wie bei Ihrer Datenqualität, oder? Wann haben Sie die Datenqualität?

Sobald Sie Ihre Daten bereit haben, läuft Ihre Datenqualitätspipeline darauf, richtig? Das Gleiche gilt für das Content-Qualitätsmanagement. Sobald Sie Ihre Daten in einem beliebigen Format bereit haben, okay?

Sie sollten in der Lage sein, das Qualitätsmanagement für Inhalte zu betreiben, beispielsweise ein Modul oder eine Funktion, die Ihnen nur den Text liefert, der zur Beantwortung dieser bestimmten Frage erforderlich ist, richtig? Nicht den gesamten Text. Ja.

Ähm, Bill, möchten Sie etwas dazu sagen, oder soll ich mit der nächsten Frage fortfahren? Ähm, nein, fahren wir mit der nächsten Frage fort. Okay.

Okay. Ähm, sie stammt von Ramona, einer meiner wenigen lieben Leserinnen und einer Freundin, mit der ich noch nie gesprochen habe, aber sie ist wirklich eine großartige Person, mit der Sie sich auf LinkedIn und Substack verbinden sollten. Also, ähm, sie stellt diese Frage, und sie ist an Sie gerichtet, Bill. Ich werde auch eine für Sie finden, Jessica.

Das hier ist also für dich, Bill. Ich sehe eine Übereinstimmung zwischen Bills Textlager und kleinen Sprachmodellen. Das habe ich mir tatsächlich auch gedacht, als du die Erklärung durchgegangen bist, also in einem ganz bestimmten Geschäftsbereich.

Eine Frage, die ich in beiden Zusammenhängen habe, lautet: Wie wird das Stammeswissen erfasst? Vielleicht, äh, Bill, kannst du im Zusammenhang mit dem Textlager darauf antworten. Okay?

Wie wird Wissen erfasst? Das ist eigentlich eine, äh, äh, äh, das ist eigentlich eine sehr komplexe Frage, daher werde ich versuchen, Ihnen eine kurze, prägnante Antwort zu geben, aber ich sage Ihnen gleich, dass es keine vollständige Antwort ist. Äh, die Wahrheit ist, wenn Sie Ihre, äh, Taxonomien, Ihr, Ihr Geschäfts-, äh, Sprachmodell, äh, äh, aufbauen, konzentrieren Sie sich am Ende auf normalerweise verwendete Wörter, Wörter, die, äh, äh, nehmen wir zum Beispiel ein Wort aus dem Bankwesen, das jemand von der Bank of America, Citi Corp, John JP Morgan und Wells Fargo verstehen würde, und das ist es, was in Ihr Geschäfts-Sprachmodell einfließt.

Aber jedes Unternehmen, ja sogar jeder Mensch auf dieser Welt hat sein eigenes kleines Vokabular, Dinge, die man sagt, die niemand sonst sagen würde.

46:30Anpassung & Ontologien

Wenn Sie also Ihr Geschäfts-Sprachmodell erstellen, müssen Sie es so gestalten, dass es leicht modifiziert und ergänzt werden kann, denn niemand kann ein Geschäfts-Sprachmodell erstellen, das alle Anpassungen selbst enthält. Wir sind uns also bewusst, dass Anpassungen notwendig sind. Die beste Lösung ist, wenn Sie sich an eine bestimmte Organisation wenden, das angepasste Vokabular finden und es schnell in Ihr Geschäfts-Sprachmodell einfügen.

Nun, ich habe Ihnen eine sehr allgemeine Antwort gegeben. Wenn Sie daran interessiert sind, tatsächlich zu sehen, wie das funktioniert, würde ich es Ihnen gerne demonstrieren. Aber das ist tatsächlich eine komplexe Frage.

Ja, das ist in der Tat eine komplexe Frage. Ähm, aber es ist fantastisch, wenn ich das nebenbei bemerken darf, dass die globale Daten- und KI-Community so gut vernetzt ist, dass wir ein solches Webinar mit Teilnehmern aus aller Welt veranstalten können, von Japan über Europa bis hin zu den USA. Das ist großartig, auch wenn wir keine Zeit für komplizierte Fragen haben, Paul, und vielleicht ist diese Frage an dich gerichtet, Jessica, ich werde dich dazu befragen.

Paul fragt auch, wie, äh, Datenmanagement im geschäftlichen Kontext Datenmanagement , wenn man sich mehr auf, ja, geschäftliche, äh, Sprachmodelle konzentriert, anstatt generische, äh, LLM-Ideen zu nutzen. Das ist natürlich eine Frage an dich, Bill, aber ich werde versuchen, Jessica diese Frage beantworten zu lassen. Nun, das ist interessant.

Ich schreibe gerade eine Reihe von Artikeln über Metadaten und befasse mich dabei insbesondere mit Datenmanagement den von uns entwickelten Systemen, mit denen wir versuchen, ein gewisses Maß an Kontrolle oder eine Art „Quelle der Wahrheit” zu erreichen. Ich persönlich halte MDM für etwas eingeschränkt, was vielleicht umstritten ist, weil es auf dem Konzept einer goldenen Aufzeichnung basiert Aufzeichnung der Idee, dass es eine Sprache oder eine Art der Beschreibung gibt, die für alle gilt. Tatsächlich denke ich, dass viele von uns gerade versuchen, herauszufinden, okay, Seman, wir haben diese beiden Konzepte vor uns.

Wir haben eine semantische Ebene, ich habe das Gefühl, ich hätte gerade ein Schimpfwort gesagt, und, ähm, und Datenmanagement. Und das können manchmal sehr unterschiedliche und disparate Prozesse sein. Die Idee ist also, etwas Superflexibles zu schaffen, und genau das leisten Ontologien für uns: Sie schaffen ein flexibles Modell zur Beschreibung dieser Dinge, das mehr als nur eine einzige perfekte Art und Weise zulässt, etwas auszudrücken oder zu erfassen.

Denn die Realität in Unternehmen, wie Sie in Ihrem Buch „Grundlagen des Metadaten “ beschreiben, ist, dass es sehr, sehr schwierig, wenn nicht sogar unmöglich ist, den sozialen Aspekt der Datenverwaltung, Metadaten der Datenstrukturierung wirklich erfolgreich umzusetzen. Die Idee ist also, Dinge mithilfe von Ontologien zu strukturieren, sodass wir ein Konzept aufgreifen und alle Nuancen innerhalb eines Unternehmens erfassen können, wie dieses Konzept beschrieben wird, und dies sowohl für Menschen als auch für Maschinen gut umsetzen können. Man hat also die wörtliche Textansicht und dann die Backend-Ansicht, die in der Lage ist, eine sehr maschinenlesbare, interoperable Struktur dieses Konzepts zu erstellen.

Sehr klar. Danke. Danke.

Äh, wir haben noch Zeit für ein paar weitere Fragen.

50:12Textuelles Lagerhausdesign

Äh, aash, ähm, fragt, wie werden Daten in einem textuellen Data Warehouse gespeichert oder Schemata entworfen? Wie in Sternschemata werden Daten in Form von Dimensionen, Fakten oder vielleicht Datenabgleichen für Berichtszwecke gespeichert. Wie greifen Endnutzer auf die Daten zu?

Kann ich mehr über Architektur erfahren, Architektur-Lagerhaus? Okay, für dich, Bill? Ja. Okay.

Noch einmal. Das ist eine sehr komplexe, äh, äh, Frage. Ich werde versuchen, Ihnen die schnellste und beste Antwort zu geben, äh, die ich geben kann.

Äh, als wir etwas namens Textual ETL entworfen haben, wussten wir, dass wir zunächst einmal ein einziges physisches Format für Daten haben mussten, das war das Wichtigste. Wissen Sie, ich sage das nur ungern. Ich würde die Frage gerne richtig beantworten.

Ich, ich, ich habe einfach keine Zeit, auf die Feinheiten einzugehen. Also bin ich, ich bin frustriert, weil ich, ich, ich habe eine gute Antwort für Sie. Ich würde Ihnen gerne sagen, ähm, Daten, die, die Struktur, die Struktur von Daten unterscheidet sich grundlegend in einem, einem Text-Warehouse von der in einem Data Warehouse.

In einem Data Warehouse. Die Metadaten die Daten in der Spalte, die, in, in, in einem Text-Warehouse. Die Metadaten die Daten in einer Zeile.

Und, und, und, und noch einmal, ich, ich muss, ich weiß, dass das keine gute Erklärung ist, aber das ist das Beste, was ich unter den gegebenen Umständen tun kann. Ich denke, ich nehme Ihren Gesetzentwurf zur Geiselnahme und sage, dass wir eine ausgezeichnete [email protected] haben, wo Sie Ihren Standpunkt für uns näher ausführen können. Ich würde mich freuen, wenn Sie nichts dagegen hätten.

Danke, Bill. Ich werde, äh, ich werde das nicht vergessen, Bill. Okay.

Also werde ich mich darum kümmern, ich werde mich darum kümmern. Ähm, Jono, mein guter Freund, Jono hat eine Frage. Oh, ich glaube, äh, ich glaube, wir haben nicht mehr viel Zeit, aber mal sehen, ähm, äh, wie würden die typischen Abmessungen eines Textur-Lagers aussehen?

Versuchen wir, diejenigen zu verbinden, in denen wir die klassischen Daten finden könnten? Nun, das ist ein bisschen die gleiche Frage, glaube ich, nicht wahr, Bill? Ja, das ist es.

Ja. Okay. Es wird also einen Blogbeitrag dazu geben.

Ich habe gerade einen Berlin Mon gekapert, um einen Blogbeitrag zu schreiben. Okay, das mache ich gerne. Danke.

Ich weiß, dass Sie viel zu tun haben, also bitte, äh, ich, wenn es möglich ist, wäre das wirklich nett. Danke. Aber, ähm, Kimona, die letzte Frage.

Ähm, ja, Aash, wir werden diesen Blogbeitrag veröffentlichen. Ich werde dich markieren, keine Sorge. Okay.

Äh, und Ramona hat die letzte Frage. Nebenbei bemerkt, was als unmittelbarer Kontext definiert wird, ist, wie ein Must-Sprachmodell trainiert wird. Ich denke, das ist eher eine allgemeine Feststellung als eine Frage.

Ja. Ähm, und damit beenden wir diese Datenanalyse. Dies ist eine Webinar-Reihe, in der wir aktuelle Trends und Themen in der Daten- und KI-Community weltweit mit Autoren, Vordenkern und Leuten, die Strategen, Architekten und Führungskräfte in großen Unternehmen sind, untersucht haben.

Heute haben wir über die Rückgewinnung von, ähm, unstrukturierten Daten gesprochen, wie wir sie nennen, das Textlager, was es für Text im Zeitalter der KI leisten kann. Wir haben dies auf der Grundlage getan, Text in Gold zu verwandeln, und auch das Textlager, das ich ebenfalls gelesen habe und das mir sehr gut gefällt. Bill, wir haben Sie interviewt, Bill Inman, vielen Dank, dass Sie gekommen sind, Bill, und auch Jessica, vielen Dank, dass Sie als Experten in unserer Diskussionsrunde dabei waren, die dieses Thema noch besser in einen Kontext setzen konnten.

Vielen Dank, Bill, Jessica und euch allen. Es war mir ein Vergnügen. Vielen Dank.

Danke. Vielen Dank an alle. Danke.

Danke. Tschüss. Mach's gut.