Inteligencia de datos

Webinar – Data, Explored #2 – Reclaiming Unstructured Data: The Textual Warehouse for AI

Septiembre 17, 2025

54:49

Summary

seminario en línea Bill Inman sobre la evolución de las tendencias en datos e inteligencia artificial.
Compara datos estructurados con procesamiento de texto y límites de IA.
Hace hincapié en las bases de datos por su escala, calidad y visualización.
Explora la personalización de los másteres en Derecho Empresarial y los retos que plantean los metadatos.

Capítulos

00:14Introducción e invitado

Bienvenidos a Data Explored, eh, dos. En esta, eh, particular, eh, serie de, eh, seminarios web. Exploramos las últimas tendencias en, eh, el ámbito de los datos y la inteligencia artificial.

Y, eh, mi nombre es, eh, soy el anfitrión. Hoy tengo el placer de ser el evangelista jefe en acción, eh, un papel que me hace muy feliz. Y, eh, una de mis cosas favoritas es presentar esta seminario en línea que no trata en absoluto sobre acción, sino sobre temas muy importantes en el ámbito de los datos, la inteligencia artificial y la tecnología, sobre los que todos podemos aprender más y deberíamos aprender más. Eh, hoy tengo, eh, tres invitados conmigo, eh, eh, un invitado principal, por así decirlo, y luego dos panelistas que ampliarán nuestra, um, comprensión del, um, tema que nos ocupa.

El primer invitado es, eh, Bill Inman. Bill Inman es, eh, un informático estadounidense y autor de varios libros muy influyentes sobre arquitecturas y tecnología de datos, además de inventor del almacén de datos, y se une a nosotros en esa capacidad y como inventor del almacén textual, que es el tema que vamos a tratar aquí hoy. Además, contamos con dos panelistas que aportarán nuevas perspectivas sobre este tema: el arquitecto jefe de datos y el responsable de la gestión de la calidad de los contenidos.

Un término muy relevante para la inteligencia artificial. También nos acompaña Jessica Taliman, una arquitecta de la información independiente con su propia consultoría, The Corner of the Ontology Pipeline, que es también un término muy relevante para la inteligencia artificial. Así que lo que vamos a debatir hoy es el almacén textual, del que Bill ha hablado en varios libros y en numerosas presentaciones.

Así que voy a preparar un poco el escenario y luego voy a, eh, entablar una conversación contigo, Bill. Así que, en primer lugar, sí, y, y antes de entrar en materia, antes de entrar en materia, quiero decir a la audiencia que hay un cuadro de preguntas que pueden utilizar para hacer preguntas. Por favor, utilicen ese buzón de preguntas y respuestas, ya que tendré una conversación de media hora con Bill, cinco, diez minutos de conversación con, eh, primero y luego con Jessica.

Y luego abrimos el turno de preguntas que pueden tener, eh, los asistentes. Y eso es todo, realmente. Y con eso, quiero preparar un poco el terreno con, eh, con la presentación del concepto de esta charla.

Básicamente, Bill, se le conoce como el padre del almacén de datos, término que acuñó hace muchas décadas. Y fue muy visionario para su época. Pasó mucho tiempo antes de que la comunidad de datos lo adoptara.

Eh, el término entendió lo que querías decir. Y diré muy abiertamente que soy un gran admirador de ese enfoque para hablar, pensar y educar a todo el mundo sobre la tecnología. Admiro la terminología que perdura más allá de la moda.

Y creo que este es uno de los mejores ejemplos de ello. El almacén de datos, luchaste por ese concepto durante muchas décadas antes de que fuera adoptado, y ahora es simplemente una apuesta segura. Todas las empresas del mundo de cierto tamaño y con un cierto nivel de industrialización tienen un almacén de datos.

Eso no es algo que se discuta.

04:30Concepto de almacén textual

Ahora, también ha presentado una nueva idea, el almacén textual. En realidad, no es tan nueva. Ha hablado de ella en muchos libros.

Y yo personalmente tuve el placer de verte presentar esta idea en Dayday, Texas. Por lo tanto, Bill, creo que has hecho algo no una, sino dos veces. Creo que el almacén de textos es algo que las empresas tendrán en el futuro, al igual que tienen almacenes de datos.

Y por eso me interesa explorar el almacén textual, especialmente porque ahora estamos viendo los primeros movimientos en esa dirección, con el gran revuelo o auge de la IA que tenemos en, en, en, eh, en, en el presente, en estos años. Con esto, quiero acercarme al tema que vamos a debatir, pero antes de empezar a hacerte preguntas, me gustaría comenzar con una cita o referencia de tu libro, Bill, y luego hacerte algunas preguntas muy abiertas, no sobre el almacén textual, sino sobre otra cosa. Y ya verás de qué se trata.

Estoy sosteniendo el libro Turning Text into Gold. Hiciste una presentación fantástica en Day-to-Day Texas en enero de este año, sobre el almacén textual. Y voy a leer el comienzo de este libro, o parte de la introducción.

El texto es el tejido común de la sociedad. Los negocios se escriben en texto. Los argumentos se presentan en los tribunales en forma de texto.

Los juicios se llevan a cabo por escrito. Las conversaciones entre amigos se desarrollan por escrito. En resumen, el texto es el medio de intercambio entre las personas que viven en la Tierra desde los inicios de la informática.

El texto informático es simplemente la clavija cuadrada original en el agujero redondo. Los procesos informáticos se centran en transacciones estructuradas , no en texto. Durante la mayor parte de su historia temprana, el ordenador no fue de mucha ayuda para tratar con texto.

Fue una pena, ya que parte de la información más importante estaba en forma de texto. Pero hoy en día, y esto es muy actual en nuestra era, pero hoy en día, existen avances tecnológicos que permiten al ordenador leer, almacenar y analizar texto. Y al hacerlo, se abre todo un mundo de posibilidades para la toma de decisiones informadas.

Y con esa cita, me gustaría iniciar la conversación con una pregunta que realmente tiene que ver con el texto en sí mismo. ¿Qué es lo que te fascina del texto, Bill? ¿Cuál es la naturaleza del texto?

Mi historia con los mensajes de texto comienza, perdón. Mi historia con los mensajes de texto comienza hace unos 23 o 24 años. En aquel momento trabajaba en el mundo del almacenamiento de datos, que son datos estructurados.

Y me senté y me pregunté: ¿por qué las empresas solo analizan un porcentaje realmente pequeño de sus datos, que son datos estructurados? ¿Por qué se ignora el texto? Y, y, y, eso fue lo que me llevó a intentar comprender cuáles eran los problemas del texto.

En ese momento, no tenía ni idea de la complejidad a la que me enfrentaba yo y otras personas, ya que todo el mundo da por sentado el texto porque hablamos un idioma. Pero lo que no entendemos es que, en segundo plano, cada uno de nuestros cerebros está procesando automáticamente miles de reglas al mismo tiempo.

Y ni siquiera pensamos en ello. Bueno, cuando empiezas a introducir texto en un ordenador, no tienes, en su mayor parte, esas reglas. Y, y, y, y, eso es lo que hace que el texto sea tan endiabladamente difícil para, para el ordenador.

Ahora bien, hay muchas razones por las que el texto es complejo. Tengo que decir que, eh, en el mundo actual, una de las cosas que realmente me frustra es la actitud de muchas empresas que dicen: «Bueno, tenemos texto. Vamos a coger el chat, GPT y chat».

GPT resuelve nuestros problemas con el texto. Y, de hecho, en el chat, GPT resuelve ciertos problemas con el texto. De eso no hay duda.

De hecho, el chat GPT ha abierto puertas que nunca antes se habían abierto. Pero en términos de resolver los problemas con el texto, cuando se trata del valor comercial del chat, el GPT realmente no lo hace. Así que hablemos un poco sobre por qué hay, en realidad hay algunas razones muy básicas por las que el chat GPT y el valor comercial están algo separados.

Eh, la primera razón es el chat. GPT es texto que produce texto. Y, para los fines del chat GPT, eso está bien.

Pero a efectos de realizar, eh, eh, el procesamiento analítico que necesitamos hacer, eh, eh, en la empresa, eso no está bien. Por lo tanto, para resolver muchos de los problemas de negocio, eh, valor en la empresa hoy en día, tenemos que disponer de la información en forma de base de datos. Entonces, ¿qué te aporta una base de datos que no te aporte Chat GPT?

Bueno, hace muchas cosas. Eh, voy a repasar una lista de, de, de cosas que, eh, que, eh, una base de datos puede hacer por ti.

10:41El papel de las bases de datos

La primera y probablemente la razón más importante por la que una base de datos es más valiosa para el negocio. Por cierto, no estoy menospreciando el chat. El chat GPT.

El GPT hace cosas maravillosas para las personas. Responde todo tipo de preguntas interesantes. Pero en términos de resolver el valor empresarial, no es una herramienta muy buena.

¿Por qué? En primer lugar, por el volumen de datos. Si le preguntas, por ejemplo, a un médico cuántos historiales médicos revisa cuando tiene un paciente problemático, te dirá que unos 2025.

Y eso es porque los médicos tenían que leer manualmente los registros ellos mismos. Sin embargo, cuando puedes tomar texto y ponerlo en forma de base de datos, ahora tienes un número ilimitado de, eh, piezas de información que puedes consultar. Puedes consultar 10 millones de pacientes.

Y ciertos análisis de medicina, eh, requieren absolutamente que se examinen montones y montones de registros. Así que el número, el número, bueno, y hay muchas diferencias. La diferencia número uno es en términos de volumen, porque el texto tiene que leerse manualmente.

Y como la base de datos no tiene que leerse manualmente, hay una gran diferencia en el volumen de datos que se pueden procesar, número uno. Número dos, la base misma de los datos. Chatt PT es bueno para examinar texto que se encuentra en lugares como Internet.

De hecho, es extremadamente bueno para ese propósito. Sin embargo, eh, para los datos que se encuentran en su organización, escondidos en bases de datos, bases de datos de servidores SQL, bases de datos Oracle, bases de datos DB2. Cuando los datos están escondidos allí, el chat, GPT, eh, no puede o tiene muchas dificultades para entrar y encontrar esos datos.

Y, sin embargo, esos datos de la empresa son los datos que, eh, eh, eh, constituyen el núcleo del servicio de su valor empresarial. Una tercera razón por la que una base de datos es tan importante para el procesamiento analítico es que permite visualizar los datos que salen de una base de datos. Se puede crear un panel de control, se puede crear un gráfico de conocimiento.

Incluso puedes simplemente introducirlo en una hoja de cálculo de Excel. Pero la verdad es que la visualización de los datos es muy importante para tener una visión general. No sé si alguna vez has intentado llevar una base de datos o un listado a un gerente.

¿Qué hacen los directivos del mundo cuando ven una gran cantidad de información? La ignoran. Los directivos miran gráficos.

Los gerentes miran resúmenes y, y, y tratan de obtener resúmenes y visualizaciones directamente del chat. GPT es muy difícil. Tratar de obtener esas visualizaciones de una base de datos es muy fácil de hacer.

Porque para eso, eh, para eso están los datos. Luego hay otro tema, y es la calidad de los datos en sí. Por diversas razones, y no soy un experto en chat, GPT, pero el chat, GPT produce algo que se llama alucinaciones.

En cuanto a la fiabilidad y coherencia de los datos, el chat GPT tiene fama de no hacerlo muy bien. Lo que pasa con una base de datos creada a partir de texto es que tienes la certeza absoluta de que conoces la fuente de los datos y puedes relacionar cada palabra con su fuente de origen, de modo que nunca hay dudas sobre la calidad de los datos. Eso lo tienes.

Y mi amiga Shweta, creo que es, es, eh, más experta en esto que yo. Otra razón, y te diré, voy a hacer que esta sea la última razón, pero podría seguir y seguir. Otra razón por la que el chat GPT no es especialmente bueno para realizar procesamientos analíticos es que los analistas siempre vienen y hacen lo que se denomina procesamiento iterativo o heurístico.

Envían una consulta y dicen: «Oh, eso no está del todo bien. Quiero, quiero cambiar un poco las cosas y volver a enviar la consulta». Lo hacen, miran los resultados y dicen: «Oh, eso no está del todo bien».

Quiero, y cada vez que tienes que volver a tus datos de origen, eso cuesta muchos ciclos de máquina cuando usas chat GPT. Sin embargo, ahora, cuando creas tu base de datos a partir de texto, sí, tienes que volver a tus datos de origen, pero solo tienes que hacerlo una vez. Eso es cuando el, cuando el, eh, analista quiere cambiar de opinión sobre lo que quiere preguntar, no tienes que volver atrás y obtener los datos de la fuente original.

Simplemente puedes volver a tu base de datos. Y, y yo, tengo una larga lista aquí. Eh, eso es todo lo que quiero decir, créeme.

Hay muchas otras razones por las que, eh, realizar procesamientos analíticos desde, eh, eh, chat GPT para obtener valor empresarial, realizar procesamientos analíticos para muchas otras cosas, buscar, eh, eh, ¿qué barco utilizó Colón para navegar hacia el nuevo mundo?, eh, eh, ¿cuál era el apellido de la primera persona que pisó la luna? Eh, ¿cuál fue el resultado del partido de fútbol entre el Liverpool y el Arsenal anoche? Chachi pt, eh, hace un excelente trabajo en eso, las bases de datos realmente no están diseñadas para hacer todo, pero cuando se trata de buscar valor comercial.

Y por eso me frustran tanto los directores de empresa. Creen que ChatGPT es la panacea. Creen que con solo aplicar ChatGPT a todos los datos textuales de la empresa, de repente sucederán cosas maravillosas.

¿Y adivinen qué? No lo hacen. Gracias, eh, Bill, por esta fantástica marca.

Preparé muchas preguntas y esperaba encontrar conocimiento y sabiduría, pero debo decir que me sorprende el nivel de energía y pasión. Sin embargo, es evidente que debes participar en muchas conversaciones sobre chat DBT, lo cual es natural dada la situación actual y la tecnología, ¿verdad? Pero quiero volver un poco atrás, eh, a algunas de las distinciones que haces en tu libro y a algunos de los detalles que has revelado en varios de tus libros.

En primer lugar, para el público aquí presente, la visión que tienes de la empresa, creo que es quizás un poco diferente de la del chat GT en general, que está entrenado con texto de la web abierta, ¿verdad? El texto empresarial, al menos tal y como yo lo veo, puede ser algo diferente. Tienes un concepto que llamas «texto repetitivo».

¿Qué es el texto boilerplate? Bueno, nosotros, nosotros, yo, yo lo llamo el modelo de lenguaje empresarial. Cuando, cuando echas un vistazo a la progresión de los modelos de lenguaje, eh, si estás intentando analizar todo lo que hay en el mundo, necesitas un modelo de lenguaje grande.

Tienes que ser capaz de entender todo lo que dice todo el mundo. Y, y, y, sin embargo, cuando te dedicas a los negocios, no necesitas entender todo lo que dice todo el mundo. Tienes que centrarte en el, eh, eh, eh, el negocio en sí, las aerolíneas, eh, la fabricación, eh, los productos farmacéuticos, que el, el, el lenguaje que se utiliza en cada uno de esos negocios es diferente y bastante exclusivo de ese negocio en particular.

Entonces, eh, eh, cuando estés listo para construir tu almacén textual, eh, no te centres en el mundo. Te diré algo, un verdadero, un verdadero modelo de lenguaje grande es, voy a decir imposible, es imposible de construir. Nunca vas a terminarlo, nunca jamás.

Y además, si lo terminaras, cambiaría para cuando lo terminaras, tendrías que volver atrás y rehacerlo todo de nuevo. Por lo tanto, un modelo lingüístico realmente grande es imposible. Sin embargo, en términos de modelos lingüísticos empresariales, no es imposible centrarse en el lenguaje de, eh, eh, de, eh, eh, restaurantes o, o, eh, o, o, o, o cualquier sector en el que quieras centrarte.

Entonces, eh, y, y al centrarse en, eh, un, un negocio determinado, ahora tiene una tarea que es finita. La tarea de lidiar con un LLM es infinita, verdaderamente infinita. Eh, la tarea de lidiar con un, eh, eh, un negocio, eh, eh, es una tarea desafiante, no me malinterprete.

Pero la difícil tarea, eh, eh, sigue siendo una tarea finita y factible. Y entonces, eh, entonces No, pero eso, estoy completamente de acuerdo con eso, y creo que eso abre muchas posibilidades muy, muy interesantes, precisamente. Debido a esas limitaciones.

Entonces, tal vez para el público, eh, ¿podríamos, eh, podríamos simplemente, eh, esbozar brevemente o definir qué es, qué es un almacén textual? ¿Qué es? Un almacén textual, eh, contiene varios, varios elementos.

Eh, eh, número uno, contiene vocabulario, eh, eh, eh, eh, eh, vocabulario de, de, eh, eh, cualquiera que sea la empresa que vayas a examinar. La segunda cosa que contiene, eh, eh, eh, es contexto, el texto es amable, es diferente, fundamentalmente diferente de los datos. Eh, cuando tenemos la cantidad de dinero que un banco ha prestado este mes, eso, eso, esa es una información bien conocida.

Sabemos cuál es el contexto. Pero cuando vemos una palabra que alguien usa, para entenderla, tenemos que entender el contexto. Así que, número uno, tu almacén textual tiene que contener vocabulario.

En segundo lugar, tiene que contener, eh, el contexto para el vocabulario. Ahora bien, el contexto es algo interesante. En realidad hay dos tipos de contexto.

Hay lo que se podría llamar contexto de origen, y hay lo que se llama contexto inmediato. El contexto de origen es el contexto que, normalmente, se asociaría con una palabra, eh, por ejemplo, en un diccionario. El contexto inmediato es el contexto de la palabra, eh, en el, en el contexto del texto que precede a la palabra y el texto que sigue a la palabra.

Porque a menudo, eh, el texto que precede e inmediatamente sigue a una palabra afecta al significado de la misma. Así que cuando hablamos de contexto, eh, hay, hay, hay realmente dos tipos de contexto, el contexto de origen y el contexto inmediato. Lo siguiente que el, eh, eh, el diccionario necesita contener, el, el, eh, el, um, eh, el almacén para el almacén textual necesita contener, eh, eh, es de dónde proviene la fuente.

Eso, eh, eh, ¿de dónde, cuando estabas leyendo tu documento, obtuviste la información necesaria? Porque si alguien tiene alguna pregunta sobre la, eh, eh, validez de la interpretación de la palabra, puedes remontarte hasta la fuente misma. Ahora bien, hay muchos otros factores atenuantes.

Eh, un factor atenuante de un almacén textual es el propio lenguaje. Eh, por mucho que me guste el inglés, porque es mi lengua materna, soy el primero en reconocer que no es el único idioma del mundo.

Hay, eh, eh, alemán, hay francés, hay, eh, eh, japonés, hay chino, hay español. Si no me equivoco, hay unos 220, eh, 220 idiomas reconocidos en la Tierra. Ese es otro factor atenuante.

Eh, bueno, eh, eh, eh, eh, y luego otro, otro factor del vocabulario es, eh, que hay que tener en cuenta en el vocabulario, eh, eh, las diferentes grafías de las palabras, eh, eh, eh, y, y, y, y, y cómo, cómo interpretas que el agente, eh, eh, va a tratar la palabra. Así que esos son todos los factores, eh, eh, de, de, eh, lo que entraría en un almacén textual. Sí.

Muchas gracias por esta respuesta. Yo, sin duda, percibo que si sigues de cerca este universo y has investigado la naturaleza de los grandes modelos de lenguaje, percibo sin duda un enfoque bastante diferente en el pensamiento de un almacén textual que en lo que sería un gran modelo de lenguaje, que sería la arquitectura detrás de chat gt. ¿Verdad?

Eh, bueno, pero creo que tenemos que saltarnos esa discusión concreta, eh, en esencia, por cuestiones de tiempo, porque tenemos que, eh, tenemos que pasar al menos a una pregunta concreta que me encantaría que respondieras, Bill, porque podemos discutir esto como, eh, una arquitectura teórica o algo que estaría bien tener, pero que no es realmente el caso del almacén textual. Eh, sin mencionar nombres, ¿podrías mencionar algunos ejemplos de tus clientes para los que ya has implementado, eh, almacenes textuales, qué tipo de empresas son esas empresas y qué hace el almacén textual en esas empresas? Claro.

Y yo, yo, voy a dar una breve explicación para ahorrar tiempo, pero, eh, hace un tiempo, estábamos hablando con, eh, una, eh, eh, una empresa de petróleo y gas. Esta empresa de petróleo y gas tenía muchos, muchos, eh, pozos petrolíferos, eh, eh, en muchos lugares. Cada pozo de petróleo tenía su propio conjunto de documentos, eh, documentos sobre bombas, sobre, eh, tuberías, sobre brocas de perforación, y, y un montón de, um, eh, de información que tenía cada pozo de petróleo.

Eh, y estos eran en forma de documentos. Lo que pasaba es que, eh, de vez en cuando un proveedor, eh, de la compañía petrolera venía y decía, eh, que había habido, eh, una retirada de un determinado tipo de bomba. Y la, la, la compañía petrolera tenía un problema.

Dijeron: «Ahora tenemos que revisar los miles de documentos que tenemos, ¿y cómo tenemos que revisarlos? Tenemos que revisarlos manualmente». Y fue un esfuerzo tremendo y muy importante, eh, revisar manualmente estos documentos.

Entonces, eh, eh, el, el, el, eh, objetivo del proyecto era, eh, poder tomar el contenido del documento, introducirlo en una base de datos, y ahora, cuando un proveedor viene y dice: «Tenemos algunos cambios», ahora se puede, de forma electrónica, buscar y encontrar los documentos. No es necesario, es muy parecido al catálogo de fichas de una biblioteca. Cuando vas a una biblioteca, no vas, no sé, quizá tú sí, pero la mayoría de la gente no va a la biblioteca a mirar montones y montones de libros.

En su lugar, van al catálogo de fichas, encuentran lo que buscan en el catálogo de fichas, lo sacan del catálogo de fichas y luego van a buscar los libros que buscan. De nuevo, no tienes por qué hacerlo así. Es solo que, eh, así es como se hace.

Y, y, y, y, y, y, y así, la aplicación de poder crear un catálogo de fichas documentales para, eh, para el mundo, eh, eh, es una, por cierto, hay muchas otras aplicaciones. Esta es solo una de las que tengo en mente, Maravilloso, eh, para alguien como yo que tiene formación en biblioteconomía y documentación. Lo digo mucho, pero, eh, pero es realmente un momento muy interesante para estar vivo para alguien como yo, que creció con, eh, texto y metadatos y sistemas bibliotecarios que se digitalizaron cada vez más y que están profundamente conectados al movimiento de la World Wide Web.

Mencionan lo suficiente el RDF, eh, eh, como la funcionalidad de los motores de búsqueda, todo. Ahora volvemos a ver esto en las empresas, eh, gracias a la IA y, y, y lo que estás pensando, en el contexto de, eh, del texto, eh, Bill, es realmente impresionante. Y, y me hace sonreír y soñar, um, tengo que decirlo.

Y, pero, pero, pero además, yo, nosotros necesitamos hacer la transición. Um, así que, um, Schitz, espero que te sientas preparado. Yo, quería preguntarte, te he estado entrevistando en mi podcast que yo, uh, presento junto con, uh, el director técnico de Emma.

Y hablamos de, eh, tu concepto, eh, gestión de calidad conceptual, que es un concepto con el que me topé. Veo a Malcolm en la llamada. Um, él también fue, eh, bastante precoz, eh, en descubrir tu concepto.

Yo también sigo mucho las ideas de Malcolm, pero, pero mejor, um, este concepto que has estado planteando, uh, en, en publicaciones de Medium y en LinkedIn, ¿cómo, uh, cómo, uh, se relaciona la gestión de la calidad del contenido con la idea del almacén textual? ¿Puedes explicarnos eso? Sí, por supuesto.

Me encantaría hablar de ello. Por cierto, soy un gran admirador de Bill, así que a menudo me quedo sin palabras cuando lo veo en pantalla. Bill ha explicado muy bien cómo funciona el almacén textual, ¿verdad?

Y creo que es un gran avance que finalmente hace que ese texto empresarial sea accesible, ¿verdad? Para mí es como una capa fundamental. Lo está unificando, estandarizando y haciendo que realmente se pueda consultar a gran escala, ¿verdad?

Y creo que sin esa iniciativa son casi ciegos, en lo que respecta a la mayor parte de su propio conocimiento. Como dijo Bill, la mayor parte de los datos están casi desestructurados, por lo que en realidad son ciegos a ese conocimiento, ¿de acuerdo? Pero entonces aquí está la verdadera pregunta, ¿verdad?

Eh, para mí, en términos de, una vez que tengo todo este texto en un solo lugar, vale, como un almacén textual, ¿cómo decido en qué confiar, verdad? Porque no todo el texto se crea de la misma manera. Algunos son muy claros y otros son muy fiables.

A veces los demás también son contradictorios o incompletos, ¿verdad? Creo que tratarlos de la misma manera confunde tanto a los usuarios, como a los analistas o incluso a su LMS, ¿verdad? Por lo tanto, lo primero que me gustaría confirmar en esta llamada es la gestión de la calidad del contenido, o CQM, como quiera llamarlo.

No sustituye al almacén textual. Yo creo firmemente que se sitúa por encima de él, ¿no? El almacén es un escenario, ¿verdad?

Garantiza que todo el texto no estructurado esté disponible, sea coherente y se pueda llevar puesto, tal y como decía Bill. ¿De acuerdo? Pero una vez que se levanta el telón, la verdadera pregunta es: ¿en qué parte de ese texto te puedes fiar?

¿Se puede reutilizar o incluso entregarlo al LMS, verdad? Y ahí es donde entra en juego la gestión de la calidad del contenido. Funciona con almacenes de texto, ¿de acuerdo?

Es esa capa de calificación que se encuentra encima del almacén textual. Puede ser que, cuando el almacén textual se asegura de que tienes el texto, la gestión de calidad del contenido se asegure de que ahora puedes actuar con confianza, ¿verdad? Y esto es lo que también se vincula con la parte de los resultados empresariales a la que Bill aludía hace un momento.

¿De acuerdo? Ahora bien, hay muchos aspectos técnicos que se requieren para que esto sea posible. ¿De acuerdo?

Hablaré de ello, eh, aquí. Eh, podríamos tener otra sesión sobre ello, sin duda. Y estoy trabajando en los aspectos técnicos, ¿verdad?

Eh, pero me encantaría compartir, eh, eh, me encantaría compartir por qué necesitamos realmente esta capa sobre el almacén textual, ¿verdad? Para responder a esa pregunta, me pregunté a mí mismo y elegí dos cosas que me parecieron muy relacionadas con este tema, y creo que Bill también lo ha explicado muy bien. ¿De acuerdo?

Dos cosas. Una es que, si no lo has leído, deberías leer los términos de uso de Open AI, ¿de acuerdo? En realidad, dice explícitamente que tú eres responsable del contenido, lo que incluye asegurarte de que no infringe ninguna ley aplicable ni estos términos, ¿verdad?

En otras palabras, la responsabilidad de la calidad de los datos recae en la empresa, no en el modelo. Recae en ti. Quien realmente está creando estos datos, ya sea en formato de almacén textual, en gráfico de conocimiento o en cualquier otro gráfico de conocimiento que estés creando, depende de ti asegurarte de que se mantenga la calidad cifrada.

¿De acuerdo? Y el segundo tema del que quiero hablar es que se ha publicado un estudio muy reciente, eh, de Kaas, K-A-I-S-T. ¿De acuerdo?

Se analizó por qué la gente se frustra con el chat. Beauty and Bill tenían toda la razón en esto, ¿verdad? Las principales causas, según ese artículo y ese estudio, eran que el modelo no capta la intención, que está ahí, y lo está, y también las respuestas inexactas.

Y lo más llamativo fue que, en el 72 % de los casos, el usuario no pudo solucionarlo volviendo a introducir la red. Podían hacerlo, pero no pudieron solucionarlo. No es un fallo del modelo en sí.

Es un reflejo de aquello con lo que se le ha alimentado, ¿verdad? Así que la entrada era en realidad un problema y la causa del mismo, ¿verdad? Por lo tanto, si el contenido no es válido desde el principio, la IA no puede repararlo por arte de magia.

Y eso es lo que Bill también intentaba decirte, que es bueno en algunas cosas, pero no en todo, ¿verdad? Y aquí es donde entra en juego la gestión de la calidad del contenido, ¿de acuerdo? Entonces, si el almacén textual te sitúa dentro de la matriz de flujos de texto que circulan por todas partes, yo diría que el CQM es tu neo, ¿verdad?

Detecta la señal en el ruido, elige lo que es real y proporciona esa información útil y fiable, ¿de acuerdo? Así que, en mi opinión, la conexión es muy clara. Una vez que tienes tu texto en el almacén textual, la capa de gobernanza, la capa de gestión de calidad de las burlas lo pondrá disponible todo desde la perspectiva de la gobernanza en cuanto a qué texto debe ser fiable, y qué texto es más seguro para que tu LLM sea menos alucinante, ¿verdad?

Así que esa es la conexión entre el almacén textual en cuanto a lo que tienes como texto y lo que también puedes tener como texto fiable. Sí. Gracias.

Especial, eso es lo que la calidad del contenido está conectada al almacén textual, desde mi punto de vista, muy claramente expuesto. Yo, yo, tengo más preguntas para ti, pero en esencia, por el tiempo, porque yo, ambos necesitamos escuchar, eh, um, eh, estaba a punto de llamarte mi colega, Jessica, pero te tenemos tantas veces que, eh, y además tenemos algunas preguntas brillantes en el buzón de preguntas y respuestas, eh. Así que me encantaría abordar algunas de esas dos, pero eso no es para, para, para, para hacerte sentir que debes apresurarte, a través de tu concepto.

Eh, Jessica, yo estaba presente cuando surgió la idea del pipeline ontológico. Y creo que encaja muy bien con la idea del almacén textual. Y creo que, en general, la gestión de la calidad del contenido, el pipeline ontológico y el almacén textual son ideas que nos permiten comprender mejor cómo podemos avanzar hacia la gestión de datos no estructurados para la IA, ¿verdad?

Entonces, Jessica, por favor, explícanos con más detalle y ayúdanos a comprender qué es el proceso ontológico, cómo se relaciona con estas ideas y, en particular, con la idea del almacén de textos. Gracias, Ola. El proceso ontológico fue realmente una idea de Arif, o es una variación del espectro semántico de la web semántica.

Pero también codifica procesos en biblioteconomía para estructurar, eh, vocabularios y contexto y significado. Así que, eh, ya sabes, muy parecido a lo que Bill aludió al catálogo de fichas, con el que obviamente tengo afinidad por ser también bibliotecario o bibliotecario en ciencias de la información, eh, empieza con un vocabulario controlado. Así que, eh, la idea es cómo estructurar ese vocabulario controlado.

Y el almacén textual lo hace maravillosamente, eh, eh, a partir de un vocabulario controlado. Eh, lo estructuramos y, hay ciertas partes del proceso que son algo intercambiables, pero la idea es seguir pasos iterativos y, eh, etapas de madurez para los vocabularios contextuales. Eh, y así, a partir del vocabulario controlado, buscamos construir una taxonomía, que es una jerarquía, eh, a partir de la jerarquía.

Vamos al tesauro, um, el tesauro, uh, amplía la taxonomía para establecer relaciones. Hay definiciones y significados. Um, y a partir de ahí pasamos a los esquemas de metadatos.

Obviamente, los esquemas de metadatos pueden pasar a una parte diferente del proceso. Esa es la única flexibilidad. Y luego están las ontologías, que añaden contexto y significado.

Entonces, es la estructura de codificación y, obviamente, los grafos de conocimiento. Es un proceso iterativo que ayuda a guiar a las personas y es medible, lo cual también es muy importante, pero se relaciona con el almacén textual en el sentido de que el almacén textual puede salir a la superficie y ayudar a ubicar conjuntamente el contexto del vocabulario y el significado, la ontología puede ayudar a identificar y, eh, y ayudar a guiar a los equipos para que puedan determinar las definiciones. Por ejemplo, conciliar acrónimos con, eh, terminología, codificándolos de manera que podamos conectar un concepto no solo con una definición, sino con un enlace a una fuente autorizada que valide el significado de ese concepto y ayude a, eh, codificar la existencia de ese concepto y su relación con otras cosas.

Eh, dentro, por ejemplo, del almacén textual. Maravilloso. Maravillosamente, eh, eh, dispuesto de forma muy, muy, eh, eh, sucinta.

Gracias, Jessica. Um, si hay, como, lo entiendo. Uh, también entiendo que esto se ha explicado muy brevemente, por lo que es posible que la gente tenga preguntas, pero, en esencia, por cuestiones de tiempo, ¿les parece bien que pasemos ahora a la ronda de preguntas y respuestas?

Porque veo muchas preguntas que creo que deberíamos responder. Acabo de ver, sin embargo, que quiero mencionar hoy, Jessica, que tu publicación sobre el proceso de Otología en LinkedIn tuvo más de 800 «me gusta», sí, increíble, estoy muy impresionado por eso. Y es que es un concepto muy claro, y me encanta.

Así que, es muy merecido, muy merecido. Um, sé que podemos esperar más, uh, en la línea de ontología. Así que yo, y es interesante.

Quiero añadir que lo bueno es que he hablado con personas que han implementado, eh, el proceso ontológico. Y no es que haya que implementar todo el proceso. A algunas personas les basta con trabajar solo en las taxonomías, pero al menos hay que tener una visión del resultado final, si se decide, eh, aprovechar esa oportunidad.

Sí. Y eso es como, no, me encanta, pero hablaremos más sobre ello. Um, vale, las preguntas y respuestas, voy a, eh, voy a proceder con las preguntas en orden cronológico.

Necesito, eh, um, o al menos si, si, si, si no hay otra opción, solo por si acaso, pero Kan tiene una pregunta, y supongo que es para ti, Bill. Eh, ¿estás proponiendo que tengamos un, eh, almacén de datos empresariales y un almacén de datos textuales, o un almacén textual? Supongo que debería estar, eh, combinado.

Entonces, ¿estás pensando en combinar almacenes de datos y, eh, almacenes de texto? Eh, sí. Por supuesto.

Vale. Odio esta respuesta. La respuesta es sí y no.

Que sí, que se pueden combinar y tiene mucho sentido hacerlo, pero ¿hay que combinarlos? No, no hay que hacerlo. Eh, eh, eh, y, y de nuevo, odio, odio las respuestas ambiguas, pero la respuesta es, eh, sí y no.

Lo que tenga más sentido desde el punto de vista empresarial para tu organización, creo que para no parecer indeciso, Bill, tal vez podrías decir simplemente que se trata de conceptos independientes. Sí, sí. Eso te hace, eso te hace, eso es, eh, eh, sonar, eso hace que suene más intencionado, que creo que lo es, sinceramente, para defenderte. Eh, ¿cómo comparas los almacenes de texto con las tecnologías NoSQL y los almacenes de contenido?

Una pregunta de Paul, supongo que también va dirigida a ti, Bill, ¿cómo comparas? Estoy familiarizado con las tecnologías y las tiendas de contenido. Repite, por favor.

¿Podemos oír, puedo, hemos oído la pregunta? ¿Me oís? No.

Eh, sí, yo, yo, sí. Eh, eh, yo, yo, yo, yo, no me gusta, no voy a responder a la pregunta porque yo, yo, yo, no sé lo suficiente sobre, eh, el tema para, para, para dar una opinión. Así que, eh, voy a tener que pasar en esta ocasión.

Sí, claro. No hay problema. Me encanta tu sinceridad.

Um, vale. Una pregunta sobre la arquitectura en capas, si yo, supongo si quiero decir, sí, claro, tal vez Intenta responder, es un par clave-valor cuando la mayoría de las tecnologías no SQL, como, eh, entran en juego, ¿verdad? Es principalmente desde esa perspectiva.

Entonces, ¿a lo que Bill se refiere es a un almacén adecuado que tiene más de un par clave-valor, verdad? Esa podría ser la respuesta probable aquí. Mejor.

Gracias. Eh, la siguiente pregunta tiene que ver un poco con lo que tú, eh, añadiste al concepto de almacén textual, Reta. Eh, de nuevo, Kan pregunta: ¿tendrá el almacén textual una arquitectura similar a la de las capas seleccionadas del almacén de lago, etc.?

Entonces, estamos buscando, así que, obviamente, supongo que Shweta, tu punto sería sí, es una arquitectura en capas.

43:57Calidad y gestión de datos

¿Estás de acuerdo con eso? Sí, estoy de acuerdo. Sí.

Sea lo que sea lo que se te ocurra, esto sería estar por encima de ello. Es como tu artículo sobre la calidad de los datos, ¿verdad? ¿Cuándo se tiene la calidad de los datos?

Una vez que tienes tus datos listos, en realidad tienes tu canalización de calidad de datos funcionando en ellos, ¿verdad? Pues lo mismo ocurre con la gestión de la calidad del contenido. Una vez que tienes tus datos listos en cualquier formato, ¿de acuerdo?

Deberías poder ejecutar, eh, la gestión de la calidad del contenido, como un módulo o una función que te proporcione solo el texto necesario para responder a esa pregunta en concreto, ¿no? No todo el texto. Sí.

Eh, Bill, ¿quieres decir algo o paso a la siguiente pregunta? Eh, no, pasemos a la siguiente pregunta. Vale.

Vale. Eh, es de Ramona, una de mis pocas y queridas lectoras y, eh, una amiga con la que nunca he hablado, pero que es una persona realmente estupenda, con la que te recomiendo que te conectes en LinkedIn y Substack. Bueno, pues me hace esta pregunta, y es para ti, Bill, pero también encontraré una para ti, Jessica.

Así que esto es para ti, Bill. Veo una alineación entre Bill's, el almacén textual y los modelos de lenguaje pequeños. De hecho, yo pensaba lo mismo cuando revisaste la explicación, así que en un ámbito empresarial muy específico.

Entonces, una pregunta que tengo en ambos contextos es: ¿cómo se captura el conocimiento tribal? Quizás, eh, Bill, tú puedas responder en el contexto del almacén textual. ¿De acuerdo?

¿Cómo se captura el conocimiento? En realidad, esta es una pregunta muy compleja, así que voy a intentar darte una respuesta breve y concisa, pero te advierto que no es una respuesta completa. Eh, la verdad es que, cuando construyes tus, eh, taxonomías, tu, tu negocio, eh, modelo de lenguaje, eh, eh, acabas centrándote en palabras de uso habitual, palabras que, eh, eh, tomemos la palabra «banca», que alguien del Bank of America, Citi Corp, John JP Morgan, uh, y Wells Fargo, todos entenderían la palabra, y eso es lo que entra en su, su, su, su modelo de lenguaje empresarial.

Sin embargo, cada corporación, de hecho, cada persona en este mundo tiene su pequeña cantidad de vocabulario privado, cosas que tú dices y que nadie más diría.

46:30Personalización y ontologías

Por lo tanto, cuando se crea un modelo de lenguaje empresarial, hay que hacerlo de manera que se pueda modificar y ampliar fácilmente, ya que nadie puede crear un modelo de lenguaje empresarial que incluya toda la personalización necesaria. Por lo tanto, reconocemos que tiene que haber personalización. Y la mejor respuesta es que, cuando vas a una organización en particular, encuentras el vocabulario personalizado y lo insertas rápidamente en tu modelo de lenguaje empresarial.

Ahora bien, le he dado una respuesta muy general. Si le interesa ver cómo funciona realmente, estaré encantado de hacérselo ver. Pero, pero en realidad es una pregunta compleja.

Sí, es una pregunta compleja. Pero, si me permiten un comentario al margen, es fantástico que la comunidad global de datos e inteligencia artificial esté tan bien conectada que podamos tener un seminario en línea participantes de todo el mundo, desde Japón hasta Europa y Estados Unidos. Eso es estupendo, al menos aunque no tengamos tiempo para preguntas complicadas, Paul, y, y quizá esta sea para ti, Jessica, te te preguntaré sobre esto.

Paul también pregunta cómo se aplica la gestión de datos maestros en el contexto empresarial, si se centra más en los modelos de lenguaje empresarial que en aprovechar ideas genéricas de LLM. Obviamente, es una pregunta para ti, Bill, pero voy a intentar que Jessica responda a esta. Bueno, es interesante.

Ahora mismo estoy escribiendo una serie de artículos sobre metadatos, y concretamente estoy analizando la gestión de datos maestros y los sistemas que creamos para intentar lograr cierto grado de control o fuente de veracidad, supongo. Por lo tanto, personalmente, y esto puede ser controvertido, considero que la gestión de datos maestros (MDM) es algo limitada debido al concepto de registro dorado y a la idea de que existe un único lenguaje o una única forma de describir algo que lo domina todo. De hecho, en este momento creo que muchos de nosotros estamos tratando de averiguar, vale, Seman, tenemos estos dos conceptos ante nosotros.

Tenemos la capa semántica, siento como si acabara de decir una palabrota, y, eh, y la gestión de datos maestros. Y a veces pueden ser procesos muy diferentes y dispares. Así que la idea es crear un modelo súper flexible, y eso es lo que hacen las ontologías por nosotros, crear un modelo flexible para describir estas cosas que se adapte a más de una forma perfecta de decir algo o capturar algo.

Porque la realidad en las empresas, como usted explica en su libro, «Fundamentos de la gestión de metadatos», es que el aspecto social de la gestión de datos y metadatos y la estructuración de datos es muy difícil de llevar a cabo con éxito, por no decir imposible. Por lo tanto, la idea es poder adaptar y estructurar las cosas utilizando ontologías, de modo que podamos tomar un concepto y capturar todos los matices de una empresa sobre cómo se describe esa cosa, cómo se describe ese concepto, y hacerlo bien tanto para los humanos como para las máquinas. Así que tienes la vista literal del texto, y luego tienes la vista del backend que es capaz de crear una estructura muy legible para las máquinas e interoperable de ese concepto.

Muy claro. Gracias. Gracias.

Eh, solo tenemos tiempo para un par de preguntas más.

50:12Diseño de almacén textual

Eh, Aash, um, pregunta: ¿cómo se almacenan los datos o se diseña el esquema en un almacén de datos textuales? Al igual que en los esquemas en estrella, eh, los datos se almacenan en forma de dimensiones, hechos o quizás coincidencias de datos con fines informativos. Además, ¿cómo acceden a los datos los usuarios finales?

¿Puedo saber más sobre arquitectura, almacén de arquitectura? De acuerdo, ¿para ti, Bill? Sí. De acuerdo.

Una vez más. Esta es una pregunta muy compleja, eh, eh. Voy a intentar darte la respuesta más rápida y mejor, eh, que pueda.

Eh, cuando fuimos a diseñar algo llamado textual, ETL, sabíamos que, eh, eh, en primer lugar, teníamos que tener un único formato físico para los datos, número uno. Ya sabes, yo, yo, odio decir esto. Me encantaría responder a la pregunta correctamente.

Yo, yo, yo simplemente no tengo tiempo para entrar en detalles. Así que estoy, estoy frustrado porque yo, yo, yo tengo una buena respuesta para usted. Me encantaría decirle, eh, datos, la, la estructura, la estructura de los datos es fundamentalmente diferente en un, un almacén textual que en un almacén de datos.

En un almacén de datos. Los metadatos describen los datos de la columna, en un almacén textual. Los metadatos describen los datos de una fila.

Y, y, y, y de nuevo, yo, yo tengo que, sé que esta no es una buena explicación, pero, pero es lo mejor que puedo hacer dadas las circunstancias. Creo que aceptaré su propuesta de rehenes y diré que tenemos un excelente [email protected], donde puede explicar, eh, su punto de vista para nosotros. Yo, si, si usted, si no le importa, estaría encantado de hacerlo.

Gracias, Bill. No lo olvidaré, Bill. De acuerdo.

Entonces me pondré en contacto, me pondré en contacto al respecto. Jono, mi buen amigo, tiene una pregunta. Oh, supongo que se nos está acabando el tiempo, pero veamos, ¿cuáles serían las dimensiones típicas de un almacén textil?

¿Intentando conectar aquellos en los que podríamos encontrar los datos clásicos? Bueno, es un poco la misma pregunta, supongo, ¿no, Bill? Sí, lo es.

Sí. De acuerdo. Entonces habrá una entrada en el blog sobre esto.

Acabo de secuestrar un Mon de Berlín para escribir una entrada en el blog. De acuerdo, con mucho gusto. Gracias.

Sé que estás ocupada, así que, por favor, eh, yo, si es posible, estaría muy bien. Gracias. Pero, um, Kimona, la última pregunta.

Sí, Aash, publicaremos esa entrada en el blog. Te etiquetaré, no te preocupes. De acuerdo.

Eh, y Ramona tiene la última pregunta. Como nota al margen, lo que se definirá como contexto inmediato es cómo se entrena un modelo de lenguaje obligatorio. Supongo que eso es más una observación que una pregunta.

Sí. Um, y con eso, concluimos este análisis de datos. Esta es una seminario en línea en la que exploramos las últimas tendencias y temas de actualidad en la comunidad de datos e inteligencia artificial a nivel mundial con, eh, autores, líderes de opinión y, eh, personas que son estrategas, arquitectos y líderes en, um, grandes empresas.

Hoy hemos hablado sobre la recuperación de lo que llamamos «datos no estructurados», el «almacén textual» y lo que puede aportar al texto en la era de la inteligencia artificial. Lo hemos hecho basándonos en la idea de convertir el texto en oro y, de hecho, también en el almacén textual, que también he leído y que me gusta mucho. Bill, con, nosotros, te hemos entrevistado, Bill Inman, muchas gracias por venir, Bill, y, eh, también, eh, Jessica, y muchas gracias por estar, eh, en nuestro panel como expertos que pueden contextualizar, eh, este, eh, tema, eh, aún más.

Muchas gracias, Bill, Jessica y a todos vosotros. Ha sido un placer. Muchas gracias.

Gracias. Gracias a todos. Gracias.

Gracias. Adiós. Cuídate.