Résumé
- Webinaire avec Bill Inman sur l'évolution des données et les tendances en matière d'IA.
- Compare les données structurées avec le traitement de texte et les limites de l'IA.
- Met l'accent sur les bases de données pour l'échelle, la qualité et la visualisation.
- Explore métadonnées liés à la personnalisation des LLM commerciaux et métadonnées .
Chapitres
Bienvenue à Data Explored, euh, deux. Dans cette, euh, série particulière, euh, de webinaires. Nous explorons les tendances actuelles dans, euh, le domaine des données et de l'IA.
Et, euh, je m'appelle, euh, je suis l'animateur. Aujourd'hui, j'ai le plaisir d'être l'évangéliste en chef en action, euh, un rôle qui me rend très heureux. Et, euh, l'une de mes activités préférées est d'animer cette série de webinaires qui ne traitent pas du tout de l'action, mais de sujets très importants dans le domaine des données, de l'IA et des technologies, sur lesquels nous pouvons tous en apprendre davantage et que nous devrions approfondir. Euh, aujourd'hui, j'ai, euh, trois invités avec moi, euh, euh, un invité principal, si vous voulez, et puis deux panélistes qui élargiront notre, euh, compréhension du, euh, sujet qui nous occupe.
Le premier invité est, euh, Bill Inman. Bill Inman est, euh, un informaticien américain et l'auteur de plusieurs ouvrages très influents sur les architectures de données et la technologie. Il est également l'inventeur de l'entrepôt de données, et c'est à ce titre qu'il se joint à nous, ainsi qu'en tant qu'inventeur de l'entrepôt textuel, qui est le sujet dont nous allons discuter ici aujourd'hui. Nous avons également deux panélistes qui apporteront de nouvelles perspectives sur ce sujet, à savoir le chef architecte de données et le responsable de la gestion de la qualité du contenu.
Un terme très pertinent pour l'IA. Nous avons également avec nous Jessica Taliman, architecte de l'information indépendante, qui possède son propre cabinet de conseil, The Corner of the Ontology Pipeline, qui est également un terme très pertinent pour l'IA. Nous allons donc discuter aujourd'hui de l'entrepôt textuel dont Bill a parlé dans plusieurs livres et dans de nombreuses présentations.
Je vais donc planter le décor, puis j'entamerai une conversation avec vous, Bill. Tout d'abord, avant de nous lancer, je tiens à dire au public qu'il y a une boîte de questions-réponses que vous pouvez utiliser pour poser vos questions. Veuillez utiliser cette boîte à questions afin que je puisse avoir une conversation d'environ une demi-heure avec Bill, puis une conversation de cinq à dix minutes avec, euh, d'abord Jessica, puis...
Et ensuite, nous passerons aux questions que vous pourriez avoir, euh, dans l'auditoire. Et c'est tout, en fait. Sur ce, je voudrais planter le décor en présentant le concept de cette conférence.
Donc, en gros, Bill, vous êtes connu comme le père du data warehouse, vous avez inventé ce terme il y a plusieurs décennies. Euh, et c'était très visionnaire pour l'époque. Il a fallu beaucoup de temps avant que, euh, la communauté des données, euh, l'adopte.
Euh, le terme a compris ce que vous vouliez dire. Et je dirai très ouvertement que je suis un grand admirateur de, euh, cette approche qui consiste à, euh, parler, réfléchir et éduquer, euh, tout le monde sur la technologie. Euh, j'admire la terminologie qui perdure plus longtemps que le battage médiatique.
Et je pense que c'est l'un des meilleurs exemples qui soient. Vous vous êtes battu pendant des décennies pour faire accepter le concept d'entrepôt de données, et aujourd'hui, c'est tout simplement devenu la norme. Toutes les entreprises d'une certaine taille et d'un certain niveau d'industrialisation dans le monde disposent d'un entrepôt de données.
Ce n'est pas quelque chose dont on discute.
Maintenant, vous avez également proposé une nouvelle idée, celle de l'entrepôt textuel. Ce n'est pas vraiment nouveau, en fait. Vous en avez parlé dans plusieurs livres.
Et j'ai personnellement eu le plaisir de vous voir présenter cette idée à Dayday, au Texas. Je pense donc, Bill, que vous avez accompli quelque chose non pas une, mais deux fois. Je pense que l'entrepôt de textes est quelque chose que les entreprises auront à l'avenir, tout comme elles ont des entrepôts de données.
C'est pourquoi je m'intéresse à l'exploration de l'entrepôt textuel, d'autant plus que nous assistons actuellement aux premiers mouvements dans cette direction, avec l'engouement ou l'essor de l'IA que nous connaissons ces dernières années. Sur ce, je voudrais aborder le sujet dont nous allons discuter, mais avant de commencer à vous poser des questions, j'aimerais commencer par une citation tirée de votre livre, Bill, puis vous poser quelques questions très ouvertes, non pas sur l'entrepôt textuel, mais sur autre chose. Vous verrez de quoi il s'agit.
Je tiens donc entre mes mains le livre Turning Text into Gold. Vous avez fait une présentation fantastique au Day-to-Day Texas en janvier dernier, euh, sur le texte, euh, l'entrepôt. Et je vais donc lire le début de ce livre, ou une partie de l'introduction de ce livre.
Le texte est le tissu commun de la société. Vous rédigez les transactions commerciales sous forme de texte. Les arguments sont présentés sous forme de texte devant les tribunaux.
Les procès se déroulent par écrit. Les conversations entre amis se font par écrit. En bref, l'écriture est le moyen d'échange entre les personnes vivant sur Terre depuis les débuts de l'informatique.
Le texte informatique est simplement le pion carré original dans le trou rond. Les processus informatiques se concentrent sur les transactions structurées , et non sur le texte. Pendant la majeure partie de son histoire, l'ordinateur n'était pas d'une grande aide pour traiter le texte.
C'était dommage, car certaines des informations les plus importantes se présentaient sous forme de texte. Mais aujourd'hui, et c'est très actuel à notre époque, il existe des avancées technologiques qui permettent à l'ordinateur de lire, stocker et analyser du texte. Et ce faisant, tout un monde de prise de décision éclairée devient possible.
Et donc, avec cette citation, j'aimerais ouvrir la conversation avec, euh, une question qui concerne vraiment le texte lui-même. Qu'est-ce qui vous fascine dans le texte, Bill ? Quelle est la nature du texte ?
Mon histoire avec le texte commence, excusez-moi. Mon histoire avec le texte commence il y a environ 23 ou 24 ans. À l'époque, je travaillais dans le domaine du stockage de données, c'est-à-dire des données structurées.
Je me suis assis et je me suis posé la question suivante : pourquoi les entreprises ne s'intéressent-elles qu'à une infime partie de leurs données, à savoir les données structurées ? Pourquoi le texte est-il ignoré ? C'est ainsi qu'a commencé mon parcours vers la compréhension des enjeux liés au texte.
À l'époque, je n'avais aucune idée de la complexité à laquelle j'étais confronté, ainsi que d'autres personnes, car tout le monde considère le texte comme acquis, parce que nous parlons une langue. Mais ce que nous ne comprenons pas, c'est qu'en arrière-plan, chacun de nos cerveaux traite automatiquement des milliers de règles en même temps.
Et nous n'y pensons même pas. Eh bien, lorsque vous commencez à saisir du texte dans un ordinateur, vous n'avez, pour l'essentiel, pas ces règles. Et, et, et, et, c'est ce qui rend le texte si diaboliquement difficile pour, pour l'ordinateur.
Il existe de nombreuses raisons pour lesquelles le texte est complexe. Je dois dire que, dans le monde actuel, l'une des choses qui me frustrent vraiment est l'attitude de nombreuses entreprises qui disent : « Nous avons du texte. Utilisons simplement le chat, GPT et le chat. »
GPT résout nos problèmes avec le texte. Et, en effet, dans le domaine du chat, GPT résout un certain ensemble de problèmes avec le texte. Cela ne fait aucun doute.
En fait, le chat GPT a ouvert des portes qui n'avaient jamais été ouvertes auparavant. Mais en termes de résolution des problèmes liés au texte, lorsqu'il s'agit de la valeur commerciale du chat, le GPT ne le fait vraiment pas. Parlons donc un peu des raisons pour lesquelles il existe en fait des raisons très fondamentales pour lesquelles le chat GPT et la valeur commerciale sont quelque peu dissociés.
Euh, la première raison est le chat. GPT est un générateur de texte. Et, pour les besoins du chat GPT, cela convient parfaitement.
Mais pour effectuer, euh, euh, le traitement analytique dont nous avons besoin, euh, euh, dans l'entreprise, cela ne suffit pas. Ainsi, afin de résoudre bon nombre des problèmes liés à la valeur commerciale dans l'entreprise aujourd'hui, nous devons disposer des informations sous la forme d'une base de données. Alors, qu'est-ce qu'une base de données peut vous apporter que Chat GPT ne peut pas vous apporter ?
Eh bien, elle fait beaucoup de choses. Euh, je vais passer en revue une liste de, de, de choses qu'une base de données peut faire pour vous.
La première raison, et probablement la plus importante, pour laquelle une base de données est plus précieuse pour la valeur commerciale. Au fait, je ne dénigre pas le chat. Le chat GPT.
Le GPT fait des choses merveilleuses pour les gens. Il répond à toutes sortes de questions intéressantes. Mais en termes de résolution de problèmes commerciaux, ce n'est pas un outil très performant.
Pourquoi ? Premièrement, à cause des volumes de données. Si vous demandez, par exemple, à un médecin combien de dossiers médicaux il ou elle consulte lorsqu'il ou elle a un patient problématique, le médecin vous répondra, disons, 2025.
Et cela parce que les médecins devaient lire manuellement les dossiers eux-mêmes. Cependant, lorsque vous pouvez prendre du texte et le mettre sous forme de base de données, vous disposez alors d'un nombre illimité d'informations que vous pouvez consulter. Vous pouvez consulter 10 millions de patients.
Et certaines analyses médicales, euh, nécessitent absolument que vous consultiez de très nombreux dossiers. Donc, le nombre, le nombre, eh bien, il y a beaucoup de différences. La première différence concerne le volume, car le texte doit être lu manuellement.
Et comme la base de données n'a pas besoin d'être lue manuellement, il y a une grande différence dans le volume de données qui peut être traité, premièrement. Deuxièmement, la base même des données. Chatt PT est utile pour examiner des textes trouvés sur Internet, par exemple.
En fait, c'est extrêmement efficace à cette fin. Cependant, pour les données qui se trouvent dans votre organisation, cachées dans des bases de données, des bases de données SQL Server, des bases de données Oracle, des bases de données DB2. Lorsque les données sont cachées là-dedans, le chat, le GPT, soit ne peut pas, soit a beaucoup de mal à y accéder et à trouver ces données.
Et pourtant, ces données au sein de l'entreprise sont celles qui, euh, euh, euh, sont au cœur de la valeur ajoutée de votre entreprise. Une troisième raison pour laquelle une base de données est si importante pour le traitement analytique est que vous pouvez visualiser les données qui en proviennent. Vous pouvez créer un tableau de bord, vous pouvez créer un graphe de connaissances.
Vous pouvez même simplement les saisir dans un tableur Excel. Mais le fait est que la visualisation des données est très importante pour avoir une vue d'ensemble. Je ne sais pas si vous avez déjà essayé de présenter une base de données ou une liste à un responsable.
Que font les managers du monde entier lorsqu'ils sont confrontés à une grande quantité d'informations ? Ils les ignorent. Les managers regardent les graphiques.
Les responsables examinent les résumés et essaient d'obtenir des résumés et des visualisations directement à partir des discussions. GPT est très difficile. Il est très facile d'obtenir ces visualisations à partir d'une base de données.
Parce que c'est à cela que servent les données. Il y a ensuite un autre sujet, à savoir la qualité des données elles-mêmes. Pour diverses raisons, et je ne suis pas un expert en chat GPT, mais le chat GPT produit ce qu'on appelle des hallucinations.
En termes de fiabilité et cohérence données, le chat GPT a la réputation de ne pas être très performant. Le truc avec une base de données créée à partir de texte, c'est que tu as une certitude à 100 % de connaître la source des données, que tu peux relier chaque mot à sa source d'origine, donc il n'y a jamais de doute sur la qualité des données. Euh, tu, tu, tu as ça.
Et mon amie Shweta, je crois, est, euh, plus experte que moi dans ce domaine. Une autre raison, et je vais vous la donner, je vais en faire la dernière raison, mais je pourrais continuer encore et encore. Une autre raison pour laquelle le chat GPT n'est pas particulièrement adapté au traitement analytique est que les analystes effectuent en permanence ce qu'on appelle un traitement itératif ou heuristique.
Ils soumettent une requête ils disent : « Oh, ce n'est pas tout à fait ça. Je veux, je veux changer un peu les choses et soumettre à nouveau la requête. » Ils font ça, ils regardent les résultats et ils disent : « Oh, ce n'est pas tout à fait ça. »
Je veux, et chaque fois que vous devez revenir à vos données sources, cela coûte beaucoup de cycles machine lorsque vous utilisez Chat GPT. Cependant, maintenant, lorsque vous créez votre base de données à partir de texte, oui, vous devez revenir à vos données sources, mais vous ne devez y revenir qu'une seule fois. Ainsi, lorsque l'analyste veut changer d'avis sur ce qu'il veut demander, vous n'avez pas besoin de revenir en arrière et de dériver les données à partir de la source brute.
Vous pouvez simplement retourner à votre base de données. Et, et moi, j'ai une longue liste ici. Euh, c'est tout ce que je veux dire, croyez-moi.
Il y a beaucoup d'autres raisons pour lesquelles, euh, effectuer un traitement analytique à partir de, euh, euh, euh, chat GPT pour la valeur commerciale, effectuer un traitement analytique pour beaucoup d'autres choses, rechercher, euh, euh, quel, quel navire Colomb n'a-t-il pas utilisé pour retourner vers le nouveau monde, euh, euh, quel était le nom de famille de la première personne à avoir marché sur la lune ? Euh, quel était le score du match de football entre Liverpool et Arsenal hier soir ? Chachi pt, euh, fait un excellent travail à cet égard, les bases de données ne sont vraiment pas conçues pour tout faire, mais quand il s'agit d'examiner la valeur commerciale.
Et c'est pourquoi je suis tellement frustré par les chefs d'entreprise. Ils pensent que le chat GPT est une panacée. Ils pensent qu'il leur suffit de placer le chat GPT au-dessus de toutes les données textuelles de leur entreprise pour que, soudain, des choses merveilleuses se produisent.
Et devinez quoi ? Ils ne le font pas. Merci, euh, Bill, pour cette fantastique marque.
J'ai préparé beaucoup de questions, euh, et je m'attendais à trouver des connaissances et de la sagesse, mais je dois dire que votre niveau d'énergie et de passion m'a surpris. Mais je comprends bien sûr que vous devez participer à de nombreuses discussions autour du chat DBT, ce qui est tout à fait naturel compte tenu de la situation actuelle et des technologies, n'est-ce pas ? Mais je voudrais revenir un peu sur certaines distinctions que vous faites dans votre livre et sur certains détails que vous avez développés dans plusieurs de vos ouvrages.
Tout d'abord, euh, juste pour le public ici présent, la vision que vous avez de l'entreprise est, je pense, peut-être un peu différente de celle du chat GT en général, qui est formé à partir de textes provenant du web ouvert, n'est-ce pas ? Euh, les textes d'entreprise, du moins, d'après ce que j'en vois, peuvent être quelque peu différents. Vous avez un concept que vous appelez « texte standard ».
Qu'est-ce qu'un texte standard ? Eh bien, nous, nous, je l'appelle le modèle de langage commercial. Lorsque vous examinez la progression des modèles de langage, euh, si vous essayez de tout examiner dans le monde, vous avez besoin d'un modèle de langage volumineux.
Vous devez être capable de comprendre tout ce que tout le monde dit. Et, et, et cependant, lorsque vous vous lancez dans les affaires, vous n'avez pas besoin de comprendre tout ce que tout le monde dit. Vous devez vous concentrer sur, euh, euh, euh, l'activité elle-même, les compagnies aériennes, euh, l'industrie manufacturière, euh, les produits pharmaceutiques, car le langage utilisé dans chacune de ces activités est différent et assez spécifique à cette activité particulière.
Donc, euh, euh, lorsque vous vous apprêtez à construire votre entrepôt textuel, euh, vous ne vous concentrez pas sur le monde. Je vais vous dire une chose, un véritable grand modèle linguistique est, je dirais impossible, impossible à construire. Vous n'allez jamais le terminer, jamais.
Et de plus, si vous deviez terminer, cela changerait au moment où vous auriez terminé, vous devriez revenir en arrière et refaire tout le travail. Donc, un véritable modèle linguistique à grande échelle est impossible. Cependant, en termes de modèles linguistiques commerciaux, il n'est pas impossible de se concentrer sur le langage des restaurants ou de tout autre secteur sur lequel vous souhaitez vous concentrer.
Donc, euh, et, en vous concentrant sur, euh, une entreprise donnée, vous avez maintenant une tâche finie. La tâche traiter avec un LLM est infinie, vraiment infinie. Euh, la tâche traiter avec une, euh, euh, une entreprise, euh, euh, est une tâche difficile, ne vous méprenez pas.
Mais cette tâche difficile, euh, euh, reste une tâche finie et réalisable. Et donc, euh, donc Non, mais je suis tout à fait d'accord avec cela, et je pense que cela ouvre justement de nombreuses possibilités très, très intéressantes. En raison de ces limitations.
Alors peut-être que pour le public, euh, pourrions-nous, euh, pourrions-nous juste, euh, esquisser brièvement ou définir ce qu'est, ce qu'est un entrepôt textuel ? Qu'est-ce que c'est ? Un entrepôt textuel, euh, contient plusieurs, plusieurs éléments.
Euh, euh, premièrement, il contient du vocabulaire, euh, euh, euh, euh, euh, du vocabulaire de, de, euh, euh, quelle que soit l'entreprise que vous allez examiner. La deuxième chose qu'il contient, euh, euh, euh, c'est le contexte, le texte est différent, fondamentalement différent des données. Euh, lorsque nous avons le montant d'argent qu'une banque a prêté ce mois-ci, c'est une information bien connue.
Nous connaissons le contexte. Mais lorsque nous voyons un mot que quelqu'un utilise, pour le comprendre, nous devons comprendre le contexte. Donc, premièrement, votre base de données textuelle doit contenir du vocabulaire.
Deuxièmement, il doit contenir, euh, le contexte du vocabulaire. Le contexte est assez intéressant. Il existe en réalité deux types de contexte.
Il y a ce que l'on pourrait appeler le contexte source, et il y a ce que l'on appelle le contexte immédiat. Le contexte source est le contexte qui est, qui serait normalement associé à un mot, euh, disons dans un dictionnaire. Le contexte immédiat est le contexte du mot, euh, dans le, dans le contexte du texte qui précède le mot et du texte qui suit le mot.
Parce que souvent, euh, le texte qui précède et suit immédiatement un mot a une incidence sur la signification de ce mot. Donc, quand on parle de contexte, euh, il y a en fait deux types de contexte, le contexte source et le contexte immédiat. La prochaine chose que le dictionnaire doit contenir, le, euh, le, euh, le, euh, entrepôt pour l'entrepôt textuel doit contenir, euh, euh, c'est l'origine de la source.
Que, euh, euh, où avez-vous, lorsque vous lisiez votre document, obtenu les informations nécessaires. Parce que si quelqu'un a une question sur la, euh, euh, validité de l'interprétation du mot, vous pouvez remonter jusqu'à la source elle-même. Maintenant, il y a beaucoup d'autres facteurs atténuants.
Euh, un facteur atténuant d'un entrepôt textuel est la langue elle-même. Euh, il y a là, aussi épris que je sois de la langue anglaise, parce que c'est ma langue maternelle. Je suis le premier à reconnaître que ce n'est pas la seule langue au monde.
Il y a, euh, euh, l'allemand, il y a le français, il y a, euh, euh, le japonais, il y a le chinois, il y a l'espagnol. Si je ne me trompe pas, il y a environ 220 langues, euh, 220 langues reconnues sur Terre. C'est, c'est un autre facteur atténuant.
Euh, donc, euh, euh, euh, euh, et puis un autre facteur du vocabulaire, c'est, euh, qu'il faut être conscient, dans le vocabulaire, euh, euh, des différentes orthographes des mots, euh, euh, euh, et, et, et, et, et comment, comment vous interprétez l'agent, euh, euh, va traiter le mot. Ce sont donc tous des facteurs, euh, euh, de, de, euh, ce qui entrerait dans un entrepôt textuel. Oui.
Merci beaucoup pour cette réponse. Je pense sincèrement que si vous suivez de près cet univers et que vous vous êtes penché sur la nature des grands modèles linguistiques, je pense sincèrement qu'il existe une approche très différente dans la conception d'un entrepôt textuel par rapport à celle d'un grand modèle linguistique, qui serait l'architecture derrière chat gt. N'est-ce pas ?
Euh, donc, mais je pense que nous devons passer outre cette discussion précise, euh, dans l'intérêt du temps, car nous devons, euh, nous devons passer à au moins une question particulière à laquelle j'aimerais que vous répondiez, Bill, car nous pouvons en discuter comme, euh, une architecture théorique ou quelque chose qui serait agréable à avoir, mais ce n'est pas vraiment le cas pour l'entrepôt textuel. Euh, sans citer de noms, pourriez-vous donner quelques exemples de clients pour lesquels vous avez déjà mis en place des entrepôts textuels, quel type d'entreprises sont-elles, et quel est le rôle de l'entrepôt textuel dans ces entreprises ? Bien sûr.
Et je vais faire une brève explication pour gagner du temps, mais, euh, il y a quelque temps, nous discutions avec, euh, une, euh, une compagnie pétrolière et gazière. Cette compagnie pétrolière et gazière possédait de très nombreux puits de pétrole, euh, dans de nombreux endroits. Chaque puits de pétrole avait son propre ensemble de documents, euh, des documents sur les pompes, sur, euh, les tuyaux, sur les trépans, et, et tout un tas d'informations sur chaque puits de pétrole.
Euh, et c'était sous forme de documents. Ce qui se passait, c'est que, euh, de temps en temps, un fournisseur, euh, de la compagnie pétrolière venait et disait, euh, qu'il y avait eu, euh, un rappel d'un certain type de pompe. Et la, la, la compagnie pétrolière avait un problème.
Ils ont dit : « Maintenant, nous devons examiner les milliers de documents dont nous disposons, mais comment faire ? Nous devons les examiner manuellement. Et cela a représenté un effort considérable et très important, euh, que de parcourir manuellement ces documents.
Donc, euh, euh, le, le, le, euh, but du projet était de, euh, pouvoir prendre le contenu du document, le mettre dans une base de données, et maintenant, quand un fournisseur vient et dit : « Nous avons quelques modifications », vous pouvez désormais, de manière électronique, consulter et trouver vos documents. Ce n'est pas comme le catalogue sur fiches d'une bibliothèque. Quand vous allez à la bibliothèque, vous n'allez pas, je ne sais pas, peut-être que vous le faites, mais la plupart des gens ne vont pas à la bibliothèque pour regarder des piles et des piles de livres.
Au lieu de cela, ils vont au catalogue sur fiches, trouvent ce qu'ils cherchent dans le catalogue sur fiches, prennent ensuite ce qu'ils cherchent dans le catalogue sur fiches, puis vont chercher les livres qu'ils cherchent. Encore une fois, vous n'êtes pas obligé de procéder ainsi. C'est juste que, euh, c'est comme ça qu'on fait.
Et, et, et, et, et, et, et donc, l'application permettant de créer un catalogue de fiches documentaires pour, euh, pour le monde entier, euh, euh, est l'une des nombreuses autres applications possibles. Ce n'est qu'une des applications auxquelles je pense, ce qui est formidable pour quelqu'un comme moi qui a une formation en bibliothéconomie et en sciences de l'information. Je le dis souvent, mais, euh, c'est vraiment, vraiment une période intéressante à vivre pour quelqu'un comme moi qui a grandi avec, euh, le texte et métadonnées les systèmes de bibliothèques qui sont de plus en plus numérisés et vraiment profondément, euh, connectés au mouvement du World Wide Web.
Ils mentionnent suffisamment le RDF, euh, euh, comme la fonctionnalité des moteurs de recherche, tout. Nous voyons cela à nouveau aujourd'hui pour l'entreprise, euh, grâce à l'IA et, et, et ce à quoi vous pensez, dans le contexte, euh, du texte, euh, de la facture, c'est vraiment impressionnant. Et, et cela me fait sourire et rêver, euh, je dois dire.
Et, mais, mais, mais en plus, moi, nous avons besoin de faire la transition. Euh, donc, euh, Schitz, j'espère que tu te sens prêt. Je voulais te demander, je t'ai interviewé dans mon podcast que j'anime avec, euh, le directeur technique d'Emma.
Et nous avons parlé de votre concept, euh, de la gestion de la qualité conceptuelle, un concept que j'ai découvert par hasard. Je vois Malcolm sur l'appel. Euh, lui aussi a découvert votre concept assez tôt.
Moi aussi, je suis beaucoup les idées de Malcolm, mais je préfère le concept que vous avez présenté dans vos publications sur Medium et LinkedIn. Comment la gestion de la qualité du contenu est-elle liée à l'idée d'entrepôt textuel ? Pouvez-vous nous éclairer à ce sujet ? Oui, bien sûr.
J'aimerais beaucoup en parler. Et je suis un grand fan de Bill, d'ailleurs, alors je suis souvent à court de mots quand je le vois à l'écran. Bill a très bien expliqué comment fonctionne l'entrepôt de données textuelles, n'est-ce pas ?
Et je pense que c'est une avancée majeure qui rend enfin ce texte d'entreprise accessible, n'est-ce pas ? Pour moi, c'est comme une couche de base. Cela permet de tout rassembler, de le normaliser et de le rendre réellement consultable à grande échelle, n'est-ce pas ?
Et je pense que sans cette entreprise, ils sont presque aveugles à la plupart de leurs propres connaissances. Comme Bill l'a dit, la plupart des données sont presque non structurées, donc ils sont en fait aveugles à ces connaissances, d'accord ? Mais voici la vraie question, n'est-ce pas ?
Euh, pour moi, une fois que j'ai tout ce texte au même endroit, d'accord, comme un entrepôt de textes, comment je décide de ce à quoi je peux me fier, n'est-ce pas ? Parce que tous les textes ne sont pas créés de la même manière. Certains sont très clairs et d'autres sont très fiables.
Parfois, d'autres sont également contradictoires ou incomplets, n'est-ce pas ? Je pense qu'en les traitant de la même manière, cela sème en fait la confusion chez les utilisateurs, qu'il s'agisse des analystes ou même de votre LMS, n'est-ce pas ? Donc, la première chose que je voudrais confirmer lors de cet appel, c'est la gestion de la qualité du contenu, ou CQM, peu importe comment vous voulez l'appeler.
Cela ne remplace pas l'entrepôt textuel. Je pense sincèrement que cela vient s'ajouter à celui-ci, n'est-ce pas ? L'entrepôt est une étape, n'est-ce pas ?
Cela garantit que tout le texte non structuré est disponible, qu'il est cohérent et qu'il est exploitable, tout comme Bill l'a mentionné. D'accord ? Mais une fois le rideau levé, la vraie question est la suivante : à quelle partie de ce texte pouvez-vous vous fier ?
Vous pouvez le réutiliser ou même le transmettre au LMS, n'est-ce pas ? Et c'est là que la gestion de la qualité du contenu entre en jeu. Cela fonctionne avec un entrepôt de données textuelles, d'accord ?
Il s'agit de la couche de qualification qui se trouve au-dessus de l'entrepôt textuel. Lorsque l'entrepôt textuel s'assure que vous disposez du contenu textuel, la gestion de la qualité s'assure que vous pouvez désormais agir en toute confiance, n'est-ce pas ? Et c'est également ce qui est lié à la partie « résultats commerciaux » de ce à quoi Bill faisait allusion il y a quelques instants.
D'accord ? Maintenant, il y a beaucoup d'éléments techniques qui sont nécessaires pour que cela se produise réellement. D'accord ?
J'en parlerai ici. Nous pourrions certainement organiser une autre session à ce sujet. Et je travaille sur les aspects techniques, n'est-ce pas ?
Euh, mais j'aimerais partager, euh, euh, j'aimerais partager pourquoi avons-nous réellement besoin de cette couche au-dessus de l'entrepôt textuel, n'est-ce pas ? Donc, pour répondre à cette question, je me suis posé la question, et j'ai retenu deux choses qui, selon moi, sont très liées à ce sujet, et je pense que Bill l'a très bien expliqué également. D'accord ?
Deux choses. Premièrement, si vous ne l'avez pas encore fait, vous devriez lire les conditions d'utilisation d'Open AI, d'accord ? Elles stipulent explicitement que vous êtes responsable du contenu, notamment en vous assurant qu'il ne viole aucune loi applicable ni ces conditions, n'est-ce pas ?
En d'autres termes, la responsabilité de la qualité des données incombe à l'entreprise, et non au modèle. Elle vous incombe. Qui crée réellement ces données, qu'elles soient au format d'entrepôt textuel, au format de graphe de connaissances ou sous toute autre forme, c'est à vous qu'il revient de veiller à ce que la qualité du cryptage soit maintenue.
D'accord ? Et le deuxième point dont je voudrais parler, c'est qu'une étude très récente a été publiée par Kaas, K-A-I-S-T. D'accord ?
Il s'est penché sur les raisons pour lesquelles les gens sont frustrés par le chat. Beauty and Bill avait tout à fait raison à ce sujet, n'est-ce pas ? Selon cet article et cette étude, les principales causes étaient le manque d'intention du modèle, qui est présent, et c'est le cas, ainsi que les réponses inexactes.
Et le plus frappant, c'est que dans 72 % des cas, utilisateur résoudre le problème en relançant le réseau. Il aurait pu, mais il n'a pas pu le faire. Ce n'est pas un échec du modèle en soi.
C'est le reflet de ce qu'on lui a donné à manger, n'est-ce pas ? Donc l'entrée était en fait un problème et la cause de ce problème, n'est-ce pas ? Donc si le contenu n'est pas qualifié dès le départ, l'IA ne peut pas le réparer comme par magie.
Et c'est ce que Bill essayait également de vous dire : qu'il est bon pour certaines choses, mais pas pour tout, n'est-ce pas ? Et c'est là qu'intervient la gestion de la qualité du contenu, d'accord ? Donc, si l'entrepôt textuel vous place à l'intérieur de la matrice des flux de texte qui circulent partout, alors je qualifierais le CQM de votre néo, n'est-ce pas ?
Il détecte le signal dans le bruit, sélectionne ce qui est réel et fournit des informations exploitables et fiables, d'accord ? Donc, à mon avis, le lien est très clair. Une fois que vous avez votre texte dans l'entrepôt textuel, la gouvernance , la couche de gestion de la qualité des railleries va le rendre disponible dans son intégralité, du gouvernance pour déterminer quels textes sont fiables et dignes de confiance, et quels textes sont plus sûrs pour rendre votre LLM moins hallucinatoire, n'est-ce pas ?
C'est donc le lien entre l'entrepôt textuel, c'est-à-dire ce que vous avez comme texte, et ce que vous pouvez avoir comme texte fiable. Oui. Merci.
Spécial, c'est ce que la qualité du contenu est liée à l'entrepôt textuel, de mon avis, très clairement présenté. J'ai d'autres questions à vous poser, mais par manque de temps, car nous avons tous les deux besoin d'écouter, euh, hum, euh, j'étais sur le point de vous appeler ma collègue, Jessica, mais nous vous avons tellement souvent, euh, et puis nous avons aussi d'excellentes questions dans la boîte de questions-réponses, euh. J'aimerais donc aborder certaines de ces deux questions, mais ce n'est pas pour vous donner l'impression que vous devez vous précipiter pour exposer votre concept.
Euh, Jessica, j'étais dans la pièce lorsque le pipeline ontologique est né en tant qu'idée. Et, euh, je pense qu'il s'intègre très bien à l'idée d'entrepôt textuel. Et je pense que, dans l'ensemble, la gestion de la qualité du contenu, euh, le pipeline ontologique et l'entrepôt textuel sont des idées qui nous permettent de mieux comprendre comment nous pouvons progresser vers la gestion des données non structurées pour l'IA, n'est-ce pas ?
Alors, Jessica, s'il te plaît, explique-nous plus en détail et aide-nous à comprendre ce qu'est le pipeline ontologique, comment il est lié à ces idées et à celle de l'entrepôt de textes en particulier. Merci, Ola. Le pipeline ontologique, c'était vraiment Arif, ou plutôt une variante du spectre sémantique du web sémantique.
Hum, mais c'est très, euh, cela codifie également les processus en bibliothéconomie pour structurer, euh, le vocabulaire, le contexte et le sens. Donc, euh, vous savez, tout comme Bill a fait allusion au catalogue sur fiches, pour lequel j'ai évidemment une affinité étant moi-même bibliothécaire ou bibliothécaire en sciences de l'information, euh, cela commence par un vocabulaire contrôlé. Donc, euh, l'idée est de savoir comment structurer ce vocabulaire contrôlé.
Et l'entrepôt textuel le fait à merveille, euh, à partir d'un vocabulaire contrôlé. Euh, nous structurons et, certaines parties du pipeline sont quelque peu interchangeables, mais l'idée est de suivre des étapes itératives et des phases de maturité pour les vocabulaires contextuels. Euh, et donc, à partir du vocabulaire contrôlé, nous cherchons à construire une taxonomie, qui est une hiérarchie, à partir de la hiérarchie.
Nous passons au thésaurus, euh, le thésaurus, euh, élargit la taxonomie pour inclure les relations. Il y a des définitions et des significations. Euh, et ensuite, nous passons aux métadonnées .
Évidemment, métadonnées peuvent basculer vers une autre partie du pipeline. C'est le seul élément de flexibilité. Et puis les ontologies, qui ajoutent du contexte et du sens.
Il s'agit donc de la structure d'encodage, et bien sûr des graphes de connaissances. C'est donc un processus itératif qui aide à guider les gens, et qui est mesurable, ce qui est également très important, mais qui est lié à l'entrepôt textuel dans la mesure où l'entrepôt textuel peut faire remonter et aider à co-localiser le contexte lexical et la signification, le pipeline ontologique, euh, peut aider à identifier et, euh, et aider à guider les équipes afin qu'elles puissent déterminer, euh, des définitions. Par exemple, en rapprochant les acronymes de la terminologie, en les encodant de manière à pouvoir relier un concept non seulement à une définition, mais aussi à un lien vers une source faisant autorité qui valide la signification de ce concept et aide à codifier l'existence de ce concept et sa relation avec d'autres éléments.
Euh, à l'intérieur, par exemple, de l'entrepôt textuel. Merveilleux. Merveilleusement, euh, euh, présenté de manière très, très, euh, euh, succincte.
Merci, Jessica. Euh, si c'est le cas, je comprends. Euh, je comprends aussi que cela a été expliqué très brièvement, donc les gens peuvent avoir des questions, mais vu le peu de temps dont nous disposons, est-ce que nous pouvons passer aux questions-réponses maintenant ?
Parce que je vois beaucoup de questions auxquelles je pense que nous devrions répondre. Je viens de voir, Jessica, que ton post sur le pipeline Otology et sur LinkedIn a reçu plus de 800 likes, ce qui est incroyable, je suis très impressionné. C'est un concept très clair, et j'adore ça.
C'est donc tout à fait mérité, vraiment mérité. Je sais que nous pouvons nous attendre à davantage, euh, sur le pipeline ontologique. Donc, je trouve cela intéressant.
Je voudrais ajouter que ce qui est bien, c'est que j'ai discuté avec des personnes qui ont mis en œuvre, euh, le pipeline ontologique. Et ce n'est pas comme si vous deviez mettre en œuvre l'ensemble du pipeline. Pour certaines personnes, il suffit de travailler uniquement sur les taxonomies, mais vous devez au moins avoir une vision de l'objectif final, si vous décidez, euh, de saisir cette opportunité.
Oui. Et c'est comme, non, j'adore ça, mais nous en reparlerons. Hum, d'accord, pour les questions-réponses, je vais, euh, je vais répondre aux questions dans l'ordre chronologique.
Je dois, euh, hum, ou du moins si, si, si, si rien d'autre, juste autrement, mais Kan a une question, et je suppose qu'elle s'adresse à vous, Bill. Euh, proposez-vous que nous ayons un entrepôt de données d'entreprise et un entrepôt de données textuelles, ou un entrepôt textuel ? Je suppose que cela devrait être combiné.
Donc, vous envisagez de combiner des entrepôts de données et, euh, des entrepôts textuels ? Euh, oui. Tout à fait.
D'accord. Je déteste cette réponse. La réponse est oui et non.
Oui, vous pouvez les combiner et cela a beaucoup de sens, mais devez-vous les combiner ? Non, vous n'êtes pas obligé. Euh, euh, euh, et, encore une fois, je déteste, je déteste les réponses évasives, mais la réponse est, euh, oui et non.
Quoi qu'il en soit, ce qui est le plus judicieux sur le plan commercial pour votre organisation, je pense que pour ne pas paraître indécis, Bill, vous pourriez simplement dire que ce sont des concepts dissociés. Oui, oui. Cela vous rend, cela vous rend, cela, euh, euh, semble, cela semble plus intentionnel, ce qui, honnêtement, est le cas, je pense, pour vous défendre. Euh, comment comparez-vous les magasins de texte aux technologies NoSQL et aux magasins de contenu ?
Une question de Paul, je suppose qu'elle s'adresse également à vous, Bill, comment comparez-vous ? Je connais bien les technologies et les magasins de contenu. Répétez, s'il vous plaît.
Pouvons-nous entendre, puis-je, avons-nous entendu la question ? M'entendez-vous ? Non.
Euh, oui, je, je, oui. Euh, euh, je, je, je, je déteste, je ne vais pas répondre à la question parce que je, je, je, je ne connais pas assez le sujet pour, pour, pour donner mon avis. Donc, euh, je vais devoir passer mon tour sur celle-là.
Oui, bien sûr. Pas de problème. J'apprécie votre honnêteté.
Hum, d'accord. Une question sur l'architecture en couches, si je... Je veux dire, oui, bien sûr, peut-être... Essayez de répondre, c'est une paire clé-valeur lorsque la plupart des technologies NoSQL, comme... euh... apparaissent, n'est-ce pas ? C'est principalement de ce point de vue.
Donc, ce à quoi Bill fait allusion, c'est un véritable entrepôt qui contient plus que des paires clé-valeur, n'est-ce pas ? Voilà, ça pourrait être la réponse probable ici. C'est mieux.
Merci. Euh, la question suivante est en fait un peu liée à ce que vous avez ajouté à la réflexion sur l'entrepôt textuel, Reta. Euh, encore une fois, Kan demande si l'entrepôt textuel aura une architecture similaire à celle de l'entrepôt lac, avec des couches organisées, etc.
Donc, nous cherchons, donc, de toute évidence, je suppose que Shweta, ton argument serait oui, c'est une architecture en couches.
Tu es d'accord avec ça ? Oui, je suis d'accord. Oui.
Quelle que soit votre réponse, cela reviendrait à rester assis dessus. C'est comme pour la qualité des données, n'est-ce pas ? Quand disposez-vous de données de qualité ?
Une fois que vos données sont prêtes, vous disposez en fait d'un pipeline de qualité des données qui les traite, n'est-ce pas ? Il en va de même pour la gestion de la qualité du contenu. Une fois que vos données sont prêtes, quel que soit leur format, d'accord ?
Vous devriez pouvoir exécuter, euh, la gestion de la qualité du contenu, comme un module ou une fonctionnalité qui ne vous donne que le texte nécessaire pour répondre à cette question particulière, n'est-ce pas ? Pas tout le texte. Oui.
Hum, Bill, tu veux intervenir ou je passe à la question suivante ? Euh, non, passons à la question suivante. D'accord.
D'accord. Euh, c'est de Ramona, l'une de mes très rares lectrices et une amie à qui je n'ai jamais parlé, mais qui est vraiment une personne formidable avec qui je vous suggère de vous connecter sur LinkedIn et Substack. Elle pose donc cette question, et elle s'adresse à vous, Bill, mais j'en trouverai une pour vous aussi, Jessica.
Alors, celle-ci est pour toi, Bill. Je vois un alignement entre les factures, l'entrepôt textuel et les petits modèles linguistiques. Je pensais exactement la même chose, en fait, quand tu as expliqué cela, donc dans un domaine commercial très spécifique.
J'ai donc une question dans les deux contextes : comment le savoir tribal est-il capturé ? Peut-être, euh, Bill, que tu peux répondre dans le contexte de l'entrepôt textuel. D'accord ?
Comment la connaissance est-elle capturée ? C'est en fait une question très complexe, je vais donc essayer de vous donner une réponse brève et succincte, mais je vous préviens, ce n'est pas une réponse complète. Euh, la vérité, c'est que lorsque vous construisez vos, euh, taxonomies, votre, votre entreprise, euh, votre modèle linguistique, euh, euh, vous finissez par vous concentrer sur des mots couramment utilisés, des mots qui, euh, euh, prenons le mot « bancaire » que quelqu'un de Bank of America, Citi Corp, John JP Morgan, euh, et Wells Fargo, ils comprendraient tous ce mot, et c'est ce qui entre dans votre, votre, votre, votre modèle linguistique commercial.
Cependant, chaque entreprise, en fait, chaque personne dans ce monde a son propre vocabulaire privé, des choses que vous dites et que personne d'autre ne dirait.
Donc, lorsque vous créez votre modèle linguistique commercial, vous devez le concevoir de manière à ce qu'il puisse être facilement modifié et complété, car personne ne peut créer un modèle linguistique commercial qui inclut toutes les personnalisations possibles. Nous reconnaissons donc qu'il doit y avoir une personnalisation. Et la meilleure solution est, lorsque vous vous rendez dans une organisation particulière, de trouver le vocabulaire personnalisé et de l'insérer rapidement dans votre modèle linguistique commercial.
Je vous ai donné une réponse très générale. Si vous souhaitez voir comment cela fonctionne concrètement, je me ferai un plaisir de vous le montrer. Mais il s'agit en réalité d'une question complexe.
Oui, c'est en effet une question complexe. Hum, mais c'est fantastique, si je peux me permettre de faire une remarque, que la communauté mondiale des données et de l'IA soit si bien connectée que nous puissions organiser un webinaire auquel participent des personnes du monde entier, du Japon à l'Europe en passant par les États-Unis. C'est formidable, même si nous n'avons pas le temps de répondre à des questions complexes, Paul, et celle-ci s'adresse peut-être à vous, Jessica, je vais vous la poser.
Paul demande également comment gestion des données est gestion des données dans un contexte commercial, si elle est davantage axée sur les modèles linguistiques commerciaux que sur l'exploitation d'idées génériques issues du LLM. Évidemment, c'est une question qui s'adresse à vous, Bill, mais je vais essayer de laisser Jessica y répondre. Eh bien, c'est intéressant.
Je suis en train d'écrire une série d'articles sur métadonnées, et plus particulièrement sur gestion des données les systèmes que nous construisons pour essayer d'obtenir un certain contrôle ou une source de vérité. Et donc, personnellement, et cela peut prêter à controverse, je considère que la gestion des données de référence (MDM) est quelque peu limitée en raison du concept enregistrement de référence enregistrement de l'idée qu'il existe un langage ou une façon unique de décrire quelque chose qui s'impose à tous. Hum, donc en fait, vous savez, en ce moment, je pense que beaucoup d'entre nous essaient de comprendre, d'accord, Seman, nous avons ces deux concepts devant nous.
Nous avons une couche sémantique, j'ai l'impression d'avoir dit un gros mot, et, euh, et gestion des données. Et ces processus peuvent parfois être très différents et disparates. L'idée est donc de créer un système ultra flexible, et c'est ce que les ontologies font pour nous, c'est-à-dire créer un modèle flexible pour décrire ces choses qui s'adapte à plus d'une seule façon parfaite de dire quelque chose ou de saisir quelque chose.
Comme vous l'expliquez dans votre livre, Les fondamentaux de métadonnées , la réalité dans les entreprises est que l'aspect social de la gestion des données et métadonnées la structuration des données, sont très difficiles, voire impossibles, à mettre en œuvre avec succès. L'idée est donc de pouvoir s'adapter et structurer les choses à l'aide d'ontologies afin de pouvoir prendre un concept et saisir toutes les nuances au sein d'une entreprise quant à la manière dont cette chose est décrite, dont ce concept est décrit, et de le faire correctement tant pour les humains que pour les machines. Vous avez donc la vue littérale du texte, et vous avez ensuite la vue backend qui est capable de créer une structure très lisible par les machines et interopérable de ce concept.
Très clair. Merci. Merci.
Euh, nous avons le temps pour quelques questions supplémentaires.
Euh, Aash, hum, demande comment les données sont stockées ou comment le schéma est conçu dans un entrepôt de données textuelles ? Comme dans les schémas en étoile, euh, les données sont stockées sous forme de dimensions, de faits, ou peut-être de correspondances de données à des fins de reporting. De plus, comment les utilisateurs finaux accèdent-ils aux données ?
Puis-je en savoir plus sur l'architecture, l'entrepôt d'architecture D'accord, pour toi, Bill ? Oui. D'accord.
Encore une fois. C'est une question très complexe, euh, euh. Je vais essayer de vous donner la réponse la plus rapide et la meilleure possible.
Euh, lorsque nous avons commencé à concevoir ce qu'on appelle un système textuel, ETL, nous savions que, euh, euh, tout d'abord, nous devions disposer d'un format physique unique pour les données, c'était la priorité numéro un. Vous savez, je, je, je déteste dire ça. J'aimerais pouvoir répondre correctement à la question.
Je, je, je n'ai tout simplement pas le temps d'entrer dans les détails. Donc je, je suis, je suis frustré parce que j'ai une bonne réponse à vous donner. J'aimerais beaucoup vous dire que, euh, les données, la structure, la structure des données est fondamentalement différente dans un entrepôt textuel et dans un entrepôt de données.
Dans un entrepôt de données. Les métadonnées les données dans la colonne, dans un entrepôt textuel. Les métadonnées les données dans une ligne.
Et, et, et, et encore une fois, je, je dois, je sais que ce n'est pas une bonne explication, mais, mais c'est le mieux que je puisse faire dans ces circonstances. Je pense que je vais accepter votre proposition et dire que nous avons une excellente occasion de discuter, où vous pourrez développer votre point de vue. Si cela ne vous dérange pas, je serais ravi de le faire.
Merci, Bill. Je... Je n'oublierai pas ça, Bill. D'accord.
Je vais me renseigner là-dessus. Euh, Jono, mon bon ami, Jono a une question. Oh, je crois, euh, je crois qu'on n'a plus beaucoup de temps, mais voyons voir, euh, quelles seraient les dimensions typiques d'un entrepôt textural ?
Essayer de relier ceux dans lesquels nous pourrions trouver les données classiques ? Eh bien, c'est un peu la même question, je suppose, n'est-ce pas, Bill ? Oui, c'est vrai.
Oui. D'accord. Il y aura donc un article de blog à ce sujet.
Je viens juste de détourner un Berlin Mon pour écrire un article de blog. D'accord, avec plaisir. Merci.
Je sais que vous êtes occupé, alors s'il vous plaît, euh, je, si c'est possible, ce serait vraiment sympa. Merci. Mais, euh, Kimona, la dernière question.
Euh, oui, Aash, nous publierons cet article sur le blog. Je te taguerai, ne t'inquiète pas. D'accord.
Euh, et Ramona a la dernière question. Soit dit en passant, ce qui sera défini comme contexte immédiat, c'est la manière dont un modèle linguistique incontournable est formé. Je suppose que c'est plus une généralité qu'une question.
Oui. Euh, et sur ce, nous concluons cette exploration des données. Il s'agit d'une série de webinaires dans lesquels nous avons exploré les tendances et les sujets d'actualité dans le domaine des données et de l'IA à l'échelle mondiale avec, euh, des auteurs, des leaders d'opinion et, euh, des personnes qui sont des stratèges, des architectes, des dirigeants dans, euh, de grandes entreprises.
Aujourd'hui, nous avons discuté de la récupération de ce que nous appelons les données non structurées, l'entrepôt textuel, et de ce qu'il peut apporter au texte à l'ère de l'IA. Nous avons abordé ce sujet en partant du principe que le texte peut être transformé en or, et en nous appuyant sur l'ouvrage The Textual Warehouse, que j'ai lu et que j'apprécie beaucoup. Bill, nous vous avons interviewé, Bill Inman, merci beaucoup d'être venu, Bill, et, euh, également, euh, Jessica, merci d'avoir participé à notre panel en tant qu'experts capables de contextualiser encore davantage ce sujet.
Merci beaucoup, Bill, Jessica et vous tous. Tout le plaisir était pour moi. Merci beaucoup.
Merci. Merci à tous. Merci.
Merci. Au revoir. Prenez soin de vous.