Inteligencia de datos

seminario en línea Datos, explorados #3 – Fundamentos de la gestión de metadatos

10 de noviembre de 2025

53:26

Resumen

Analiza el libro de Ole sobre gestión de datos, logística y panoramas tecnológicos.
Explora la claridad de los metadatos, el concepto de Meta Grid y el impacto de la IA.
Hace hincapié en aprovechar los activos de datos existentes, especialmente en las empresas emergentes.
Pide que se mantenga el diálogo con la industria sobre las aplicaciones de metadatos.

Capítulos

00:00Introducción

00:14Inicio del evento

Voy a hablar un poco sobre la logística y por qué estamos aquí. Estamos aquí para hablar sobre los fundamentos del libro sobre gestión de datos, y vamos a tener un formato de «pregúntame lo que quieras» sobre cualquier tema relacionado con los metadatos que tengáis en mente. Antes de empezar, quiero hacer una breve presentación de mí mismo y de Ole. Ole y yo nos conocimos cuando leí su primer libro, que trataba sobre el catálogo de datos empresariales.

Y hemos estado en contacto desde entonces. Nos hemos reunido en diferentes lugares, diferentes ubicaciones, y siento que Ole Ha tiene un profundo nivel de pensamiento en cuanto al liderazgo en metadatos. Así que estoy muy emocionado, eh, de que él hable sobre, eh, su nuevo libro.

Eh, hoy, eh, yo mismo, he estado en, eh, el sector del petróleo y el gas, eh, haciendo análisis de datos e ingeniería de software durante unos 17 años. Eh, actualmente soy un Databricks, eh, permitiendo, ya sabes, a nuestros diferentes clientes, eh, utilizar la plataforma de forma eficaz. Eh, con eso, eh, en términos de logística, eh, todas las preguntas y respuestas.

Por favor, publíquenlas en la sección de preguntas y respuestas de su Zoom para que podamos verlas y priorizarlas. Para nuestra sesión de hoy, cualquier conversación que necesiten tener, obviamente pueden usar el chat de Zoom. No pueden usar el audio en esta sesión. Solo hablaremos todos y yo.

Pero todas sus preguntas y comentarios son bienvenidos en el chat y en la sección de preguntas y respuestas, eh, según corresponda. Eh, dicho esto, creo que podemos empezar. Eh, Ali, eh, antes de empezar, ¿hay algo que quieras decir al público hoy?

Bueno, gracias a todos por venir. Creo que es tan temprano que en los próximos minutos la gente seguirá conectándose. Pero, eh, gracias a todos por uniros y seguir haciéndolo.

Y también Abbe, gracias por querer hacer esto. Normalmente entrevisto a personas en esta seminario en línea , así que cambiamos los micrófonos porque tú te pusiste en contacto y tenías muchas preguntas en LinkedIn, y no eres la única. Y finalmente decidí, bueno, ¿por qué no?

Eh, ¿por qué no hacemos simplemente un formato de «pregúntame lo que quieras»? Y tú estabas dispuesto a hacerlo. Así que gracias, AB, por tomarte el tiempo de organizar este seminario en línea.

No, no, estoy realmente emocionado con esto. Ya sabes, quiero decir, es un gran libro. Es como, no recuerdo haber visto un libro centrado en los metadatos en mucho tiempo.

Así que gracias por dedicar tiempo a escribir el libro y por presentar Meta Grid al mundo. Es un tema que mucha gente está intentando entender, supongo, ¿qué es Meta Grid? ¿Cómo se utiliza?

02:50Meta Grid y TI

Entonces, supongo que podemos empezar con la meta grid. Eh, ¿qué crees que es el valor de la meta grid una vez que la gente la entiende e intenta adoptarla en sus entornos? ¿Cómo crees que va eso, Ali?

Así que, mientras escribía el libro, hubo mucha gente que se puso en contacto conmigo para decirme que eso era exactamente lo que estaban haciendo en su empresa. Y supongo que puedo revelar que uno de ellos era un tal Craig Bob, de UBS, que me dijo que estaba construyendo ese tipo de arquitectura. Hubo muchos más que se pusieron en contacto conmigo, pero tuvieron que mantenerlo relativamente discreto.

Eh, así que no pude citarlos. Pero básicamente la re arquitectura que describí en mi libro es una arquitectura. Es una arquitectura muy pequeña, lenta y sencilla para unir o coordinar, debería decir, los metadatos de diferentes repositorios de metadatos.

Así que, en realidad, es el tema más complicado del libro, podría decirse, porque hablo de los metadatos en general en el libro, pero también es un intento de dar una respuesta en un universo definido en gran medida por la falta de estándares abiertos y la complejidad de los grandes entornos informáticos con mucha deuda técnica, muchas discusiones políticas o, por ejemplo, tendencias en las organizaciones y mucha incertidumbre sobre lo que son los metadatos en general. Así que no quería dejar al lector sin una respuesta, eh, sin algún tipo de perspectiva sobre cómo resolver los problemas que abordo, y eso responde de la mejor manera. Fantástico.

Gracias. Y, eh, aquellos que se hayan unido en los últimos minutos, por favor, no duden en publicar sus preguntas en la sección de preguntas y respuestas de Zoom. Um, acabamos de empezar.

Eh, no veo ninguna pregunta por ahora. Eh, así que empecemos con una pregunta. Hablé sobre la metagrid.

¿Qué te motivó a escribir el libro y, ya sabes, con tanto detalle? Creo que esa también es una pregunta importante. Eh, el proceso de escritura en sí mismo, ya sabes, la naturaleza de escribir sobre temas técnicos está cambiando y, ya sabes, y, ya sabes, la saturación del formato de los libros.

Eh, ¿podrías contarnos un poco sobre el proceso en sí? ¿Cómo investigaste sobre este tema? ¿Por qué pensaste que era importante hablar sobre la metagrid de manera coherente?

¿Verdad? Sí, claro, claro. Gracias.

Gracias, Abbe. Creo que, bueno, es muy... Este libro lleva mucho tiempo en mi mente porque he trabajado en grandes industrias en muchos sectores diferentes, pero en particular en la industria regulada y farmacéutica. Eh, y a lo largo de mi carrera, he visto esto una y otra vez, eh, que es una falta de comprensión del panorama de las tecnologías de la información, como una falta fundamental de comprensión del panorama de las tecnologías de la información en una empresa. Preguntas clásicas, ¿cuántas aplicaciones tenemos?

¿Cómo se integran? ¿A qué tipos de datos se refieren? ¿En qué medida se trata de esos datos?

PII, como la información de identificación personal. ¿Hasta qué punto es confidencial? Eh, confidencial.

Eh, ¿cuál es la realidad de nuestra infraestructura física, nuestros servidores, dónde están ubicados? ¿Cómo se llaman? ¿Quién es su propietario?

Todos los elementos del panorama informático de una empresa son extremadamente opacos. En mi primer libro, exploré el catálogo de datos como una solución muy eficaz para sacar a la luz los datos del panorama informático de una empresa, ¿verdad? Creo firmemente en los catálogos de datos y, en esencia, creo firmemente en todas las tecnologías que utilizamos para diversos tipos de tareas en las empresas.

Pero he visto que muchas de estas tecnologías se implementan de forma aislada. Lo he visto como arquitecto empresarial, como responsable de datos en muchas empresas diferentes. Estoy bastante seguro de que esa es la realidad en todas las grandes empresas, eh, de cierta envergadura, las empresas industriales, ¿no?

Y por eso quería escribir un libro sobre ese tema. Y es complicado porque se trata de la realidad. No se trata de arquitecturas ideales, no se trata de lenguajes de programación e ideas de diseño totalmente nuevas.

Se trata de la realidad. Y la realidad es algo diferente, ¿verdad? Así que, así que, así que ese es el libro, eh, en su, eh, esencia fundamental.

Es un libro sobre todos los diferentes tipos de tecnologías que utilizamos para llevar a cabo la gestión de datos. Y hay muchas, y de ahí surgen muchos problemas. De hecho, recientemente alguien muy inteligente me preguntó:

Si tuviera que describir mi libro en una sola frase, ¿cuál sería? Y creo que mi respuesta a eso es que las empresas suelen tener más de un catálogo de datos. Correcto.

Y entonces, si piensas en esa respuesta, puedes empezar a pensar: «Vale, ¿qué es lo que representas en un catálogo de datos? ¿Qué es lo que representas en otro? ¿Y cuál es el vínculo entre estas tecnologías?».

Y si ampliamos eso para decir, vale, pero también tenemos bases de datos de gestión de la configuración y sistemas de gestión de activos, y sistemas de gestión del aprendizaje y sistemas de gestión de la seguridad de la información, muchas tecnologías diferentes que en realidad no realizan nada en la cadena de valor, sino que solo observan toda la infraestructura de TI que está llevando a cabo la cadena de valor. Solo recopila los datos. Entonces, ¿cómo se conecta eso?

De eso trata el libro. Fantástico. Así es como yo lo interpreto.

Yo digo, vale, hay un montón de catálogos. Bueno, ¿cómo les sacamos partido? ¿Verdad?

Eh, sí.

09:20Catálogos de datos e inteligencia artificial

Pero hablando de catálogos de datos, creo que hay algo interesante que estamos viendo gracias a la IA, y sé que ahora estamos pasando directamente a la IA, pero creo que es una cuestión importante, como el papel de los catálogos en la IA. Antes se solía organizar el catálogo, se intentaba tener un catálogo empresarial centralizado, y se tenían, ya sabes, todos estos catálogos diferentes en distintos lugares. Ya sabes, como has mencionado, gestión de activos, seguridad, sistemas de gestión del aprendizaje, hay muchos, ¿verdad?

Eh, bueno, con los avances de la IA, donde, ya sabes, las interfaces conversacionales se están volviendo más, eh, fáciles de usar, diría yo. ¿Crees que el papel de estos catálogos va a ser aún más importante? ¿O cómo ves, eh, esta transición o, eh, este cambio en cuanto a cómo la gente interactúa con los catálogos?

Claro. Ah, sí. Gran pregunta.

Bueno, eso creo, y lo comento en mi libro, pero también se sale un poco del tema del libro. Pero, eh, eso no importa porque también lo comento un poco en mi libro. Bueno, mi forma de ver cómo la gente interactúa con los catálogos en la era de la IA ha cambiado bastante.

Eh, por dos razones. Lo que hacemos en los catálogos de datos, al igual que en cualquier otro repositorio de metadatos, se verá complementado por la inteligencia artificial. Por lo tanto, muchas de las cosas que se están haciendo en el catálogo de datos se verán complementadas, o ya se están viendo complementadas, por la inteligencia artificial.

Y ese es un avance delicado, eh, porque algunas cosas pueden ser, eh, mejoradas por la IA o aumentadas, y otras no. Eh, simplemente estamos hablando de las leyes de la semántica aquí.

Ciertas cosas podrán, serán, eh, aumentadas y otras cosas no. Así que, eso es definitivamente algo que está, eh, cambiando con la IA. Es el comportamiento, es el rendimiento real de la gestión de metadatos en el interior, en este caso un catálogo de datos.

Pero, por otro lado, creo que los catálogos de datos también se están convirtiendo en fuentes en sí mismas, lo cual es algo completamente nuevo, un cambio en la forma en que se lleva a cabo la gestión de metadatos. Así que, en lugar de limitarme a registrar un montón de fuentes, el elemento central, la definición básica de los metadatos que propongo en mi libro es que están en dos lugares a la vez, de modo que cumplan su función. Pensemos en Amazon, por ejemplo, o en cualquier otra librería online, ¿no?

Buscas en esa librería online y encuentras un libro. Ahora bien, los metadatos son lo que une el objeto que encuentras en esa librería online y el objeto en sí. Por lo tanto, podrían ser el título, la editorial o el autor.

Todo eso son metadatos, y están esencialmente en dos lugares a la vez, ¿verdad? Ese es el papel tradicional de los metadatos. Estar en dos lugares a la vez, para que podamos descubrir, encontrar, utilizar, gestionar y controlar las cosas en sí mismas, ya sean servidores, conjuntos de datos, ordenadores o lo que sea.

Pero con la introducción de la inteligencia artificial, también vemos que las estructuras de metadatos, especialmente las ontologías, se están convirtiendo en fuentes muy, muy valiosas. Así que, al igual que todo el auge del contexto de los modelos, el protocolo y el protocolo de agente a agente es algo que realmente da testimonio del nuevo papel de los metadatos, que es el de ser una fuente. Y lo describo en mi libro, al final, utilizando la arquitectura de la metagrid como fuente para la IA.

Oh, eso es fantástico. Creo que sí, es una de esas cosas que están surgiendo. Y sería interesante ver cómo se desarrolla esto, porque la razón por la que hice esta pregunta era realmente sobre la semántica que se utilizaba para estar cerca de los usuarios empresariales, ¿verdad?

Mm-hmm. Estaba pensando si la semántica debería estar cerca del catálogo ahora, ¿verdad? Porque mm-hmm.

Ya sabes, eh, si la gente tiene su propia semántica cerca del límite o cerca de donde están utilizando estos datos, eh, ¿dónde tiene más sentido tener esos datos? ¿Verdad? ¿Qué opiniones hay al respecto?

¿Dónde debería estar la semántica? Ya sabes, en la inteligencia empresarial, las herramientas de visualización o cerca del catálogo, ¿verdad? O, ya sabes, tal vez un catálogo centralizado si lo hay, o si la gente está intentando tener un catálogo centralizado.

¿Has pensado en eso? ¿Hay Sí. Sí.

Creo, creo, creo que no hay nada correcto o incorrecto en lo que dices. Quiero, quiero darle la vuelta un poco en el sentido de que creo que una medida del éxito debería ser que los usuarios empresariales, los usuarios finales, no consideren el catálogo de datos como algo alejado de los usuarios empresariales, ¿verdad? Creo, creo que la semántica está muy cerca de cada uno de los empleados, usuarios finales, si se quiere, que deberían estar en un catálogo que no debería ser algo muy alejado de un catálogo o cualquier otro repositorio de metadatos.

Ese es mi ideal. Pero básicamente, creo que no será posible tener una única solución o una configuración concreta. Creo que los metadatos convivirán con muchas soluciones diferentes, um, muchas soluciones de almacenamiento y tecnologías diferentes, prácticamente para siempre.

Así es como se comportan los metadatos. Sí. Tenemos un par de preguntas en la sección de preguntas y respuestas.

Déjame responder a la primera pregunta. Una de las preguntas es: ¿depende de esto un modelo de IA serializado? ¿O hay una arquitectura exclusiva para un modelo serializado?

Creo que la forma en que interpreto esa pregunta es, eh, creo que, eh, probablemente necesitemos más aclaraciones sobre esa pregunta, pero hay una primera pregunta sobre ¿qué importancia tiene el catálogo de datos y la adopción del modelo de datos de la industria del modelo de IA? Creo que es una pregunta pertinente, una pregunta importante, ¿verdad? Al igual que en la adopción de la IA, ¿qué papel desempeña realmente el catálogo de datos y qué importancia tiene?

¿Verdad? Sí, creo que es muy importante que tu catálogo de datos esté construido de la manera correcta. Y quiero decir esto ahora, sé que estamos con, um, como si yo fuera el jefe de acción en acción, y yo, creo profundamente en nuestra tecnología, um, pero manteniéndola independiente del proveedor, todavía quiero decir algo que creo que no es independiente de la tecnología, porque creo que los días de los no, uh, gráfico de conocimiento, catálogos de datos potentes, al menos si tienes la ambición de ser como un catálogo empresarial que sea para toda la empresa, creo que los días de esos catálogos que no están impulsados por gráficos de conocimiento han terminado.

Y considero que la IA es una señal muy, muy clara de ello. Volviendo a la pregunta, por eso lo he mencionado. En la adopción de la IA, los catálogos de datos desempeñan un papel muy importante, simplemente porque pueden construirse sobre un gráfico de conocimiento, y ese gráfico de conocimiento proporcionar contexto para casos de uso de IA para muchos tipos diferentes de casos de uso de IA.

Por ejemplo, eh, el análisis de datos, um, los grafos de conocimiento son capaces de proporcionar un contexto muy valioso para que puedas mejorar la IA, eh, realizada, eh, el análisis de datos, eh, con un toque de, eh, inteligencia humana, comprueba el grafo. Así que creo, creo que, para responder a la pregunta de una manera sencilla, creo que los catálogos de datos desempeñan un papel muy importante en la adopción de la IA, sinceramente. De acuerdo.

Según lo entiendo, estás hablando de catálogos impulsados por gráfico de conocimiento algo muy crucial para que la IA funcione de manera adecuada. ¿Es ese un buen resumen de lo que estás diciendo en términos del gráfico de conocimiento Sí, claro.

Es un patrón muy popular, ¿verdad? El gráfico de conocimiento, eh, más, eh, los grandes modelos de lenguaje, eh, es algo que es súper interesante porque digamos que el gran modelo de lenguaje es el texto y el, y el gráfico de conocimiento el contexto, así que, claro. Eh, así que, así que esa es una forma muy buena, eh, muy buena de combinar, eh, tecnologías para lograr, eh, mejores resultados para la IA.

Y resulta que esos catálogos de datos, ellos, están construidos sobre o conectados a, o ampliados por, eh, grafos de conocimiento. Eh, y, y eso, y ese gráfico de conocimiento es algo realmente valioso para los casos de uso de la IA. Fantástico.

Eh, la segunda pregunta, eh, creo que una vez que tenga claridad sobre eso, la haré. Eh, pero vayamos a los fundamentos. Ya sabes, tu libro trata sobre los fundamentos.

¿Cómo defines los metadatos en tu visión del mundo? ¿Cuáles son los criterios que utilizas para determinar que algo es un metadato? ¿Cómo piensas al respecto?

Como, vale, esto son metadatos, ¿no? Porque la cuestión es que la gente podría llamar a la universidad de metadatos, la gente llamará, ya sabes, al vector que incrusta algunos metadatos. Quiero decir, hay tantas cosas que podrían etiquetarse como metadatos.

Así que me interesaba mucho conocer tu proceso de pensamiento. Por ejemplo, ¿cómo decimos que esto es realmente metadatos y esto es, eh, cómo lo definimos según el caso de uso? Por ejemplo, ¿cómo abordamos la definición de metadatos en una empresa y en un entorno empresarial o para un caso de uso, sea cual sea la forma en que lo pienses, ¿verdad?

Sí. Gracias por esa pregunta, Avi. Creo, creo que, para empezar, y últimamente he estado en la comunidad de gestión de datos.

Entonces, ¿por qué no continuar? Creo que la forma en que se han definido los metadatos en la literatura tradicional sobre gestión de datos y en la literatura sobre ingeniería de datos, con un par de excepciones, pero en gran parte de la literatura, lamentablemente encuentro definiciones de metadatos que son simplemente listas de subcategorías de metadatos. Así, por ejemplo, los tipos típicos de subcategorías se enumerarían como metadatos técnicos, metadatos operativos y metadatos empresariales.

Y estas explicaciones, que se pueden encontrar en muchos libros, dicen que hay varios tipos de metadatos: los técnicos, los operativos y los empresariales. Y realmente no hay nada malo en estas listas. Pero desde un punto de vista filosófico, y sé que esta es una palabra peligrosa en el contexto tecnológico, pero filosóficamente, sí.

Desde un punto de vista filosófico, no se puede definir realmente nada simplemente enumerando subcategorías. Eso no es una definición, es solo una lista de subcategorías. No se capta la esencia de lo que se está hablando.

Y volviendo a tus preguntas, ¿no podría todo ser como un vector? ¿Por qué no es eso metadatos? Bueno, obviamente puede serlo, porque la definición básica de metadatos, tal y como yo la veo, y me baso en siglos de ciencia de la información bibliotecaria y práctica bibliotecaria, que es mi formación.

Tengo formación académica en este campo. Los metadatos tratan sobre algo, los metadatos están básicamente en dos lugares a la vez. Esa es la definición de metadatos, lo que significa que no es lo que es, sino dónde está lo que caracteriza a los metadatos.

Los metadatos pueden ser cualquier cosa. Pueden ser operativos, técnicos, comerciales, muchas otras cosas, pueden ser metadatos de redes sociales. Se puede enumerar cualquier subcategoría que se desee.

Esa no es la esencia de los metadatos. Es dónde están, y están en dos lugares a la vez. Eso es lo que caracteriza a los metadatos.

Tiene que estar en dos sitios a la vez. Entonces sí, una incrustación vectorial, ¿por qué no incluirla en algún sitio para encontrar esa incrustación vectorial, y así se convierte en datos de encuentro? Vale.

Y, ya sabes, hay una pregunta fundamental. Quiero decir, no voy a entrar en filosofía, como, ya sabes, las empresas quieren datos en los que puedan confiar, ya sabes, creo que deberíamos hablar de eso. Y los datos en los que se confía a veces, ya sabes, la gente, eh, habla en términos de confianza, ya sabes, que estos son los datos en los que podemos confiar, ¿verdad?

Entonces, en términos de tu definición de metadatos, ¿cómo hacemos, cuántas capas y cuánto linaje, y cómo construimos un linaje que no existía para llegar a la definición de datos confiables? ¿Cómo debemos abordar eso en empresas donde, por lo general, la gestión de metadatos no ha sido una prioridad? ¿Cómo podemos pensar ahora en ello y abordarlo de frente?

¿Verdad? Creo, creo que, creo que estamos presenciando algo bastante significativo. Creo que estamos presenciando un cambio sustancial en la priorización de, um, de iniciativas estratégicas y empresas que pasan de ambiciones científicas de datos con datos estructurados a ambiciones de IA basadas en datos no estructurados.

Mm-hmm. Y, y creo que muchos estudios lo documentan, como, eh, y dicen muchas cosas diferentes. Estos estudios, el estudio del MIT, por ejemplo, recientemente enumeró que el 95 % de todos los proyectos de IA, eh, no tienen ningún papel, como se puede discutir en los detalles de ese estudio.

¿Es justo realizar este análisis en este momento? ¿Son correctas las métricas? Creo que los críticos tienen razón en algunos aspectos sobre las métricas de este estudio, pero el estudio en sí mismo demuestra que el interés estratégico, como las conversaciones de los altos directivos en las empresas, ha cambiado radicalmente hacia la IA.

Eso está fuera de discusión. Como todas las empresas del mundo con un poco de ambición quieren impulsar una agenda de IA. ¿Qué se necesita para ello?

Bueno, de repente no solo se necesitan datos estructurados, también se necesitan datos no estructurados, ¿verdad? Correcto. Entonces, crear y... Y esos datos no estructurados están en formato de... eh... texto de... eh... imágenes de... eh... todo lo que ayuda Victor Embeddings, ¿verdad?

Hablando de eso, ¿verdad? Y entonces, creo que los metadatos en este contexto de repente forman parte de estas conversaciones muy, muy estratégicas a nivel del mar. No es algo que los ingenieros o el personal de cumplimiento estén tratando de impulsar.

En realidad, es un ingrediente muy importante para tener éxito con la IA, porque puede aportar mucho contexto, porque puede aportar ese aumento de precisión que mejora el rendimiento de la IA. Y creo que cada vez más directivos están empezando a entenderlo. Y creo que la gestión tradicional de datos se encuentra en realidad en una situación un poco complicada.

Por ejemplo, si eres un ingeniero de datos tradicional que ha estado creando canalizaciones para disciplinas de análisis de datos más consolidadas, creo que la financiación estratégica de tu empresa está a punto de cambiar y deberías adaptarte a esa situación. Y creo que eso es algo que realmente está transformando la comunidad de datos en estos años, que la jerarquía entre datos estructurados y no estructurados está cambiando. El papel de los metadatos se está transformando en otra cosa.

Se está convirtiendo en parte de las discusiones de la alta dirección debido a la IA y a muchos proyectos más tradicionales de ciencia, aprendizaje automático, aprendizaje automático profesional, que son realmente geniales. No es que no respete estas disciplinas, pero tendrán que enfrentarse a un tipo de conversación diferente para entrar en las conversaciones de los altos directivos. Así es como veo el cambio, y estoy generando confianza en los datos.

Bueno, creo que se necesitarán las mismas cosas que antes, ¿no? Si te refieres a datos estructurados, más o menos, ¿no? Sí.

Mi pregunta era más bien, ya sabes, obviamente eso es como una batalla constante, ya sabes, generar confianza en los datos, ¿no? Y, obviamente, los metadatos y el linaje juegan un papel muy importante. Así que, eh, como has dicho, ya sabes, cuando nos enfrentamos a la IA con, ya sabes, no podemos confiar en las respuestas de la IA, así que necesitamos basarla en el linaje y los metadatos y los grafos de conocimiento, ya sabes, las ontologías que has mencionado.

¿Verdad? Así que esas son las cosas en las que creo que la gente está trabajando. Tenemos otras preguntas sobre el modelo de IA serializado.

Mi comprensión de los modelos de IA serializados es que son modelos que podemos guardar y recuperar cuando los necesitamos. La pregunta es, en realidad, si existe una arquitectura de gestión de metadatos recomendada para respaldar la implementación y el ciclo de vida de un modelo de IA serializado. Bueno, recomiendo... Siento que me estoy repitiendo, pero diría que utilizar el protocolo de contexto del modelo para permitir el uso de grafos de conocimiento con el fin de aumentar la precisión es algo realmente recomendable.

Eh, y con eso me refiero a buscar tecnologías que, eh, lo permitan, que tengan un servidor MCP o un conector MCP que, eh, haga que sus datos estén disponibles en un servidor MCP. Así que si sus tecnologías de IA, si sus proyectos de IA, eh, quieren aumentar su precisión con metadatos, entonces, um, entonces, conectarse a un servidor MCP, eh, es, es una forma de, de, de aumentar eso posiblemente. Así que en cualquier estrategia de gestión de metadatos, eh, que funcione con, eh, IA, creo que es un elemento fundamental que no se puede ignorar.

Espero que eso responda a la pregunta, y si no es así, por favor, amplíela. Sí, supervisaré las preguntas y respuestas si hay alguna continuación. Pero hablando de, ya sabe, ya que está hablando de la IA y los metadatos, y también hemos hablado bastante sobre la definición de metadatos.

Eh, uno de los fenómenos del uso habitual de la IA es el resumen. La gente resume documentos largos y, eh, ya sabes, luego lo que contiene la esencia de ese documento. ¿Cuál es tu opinión al respecto?

¿Crees que los resúmenes automáticos o los resúmenes generados por IA son metadatos útiles o, eh, son un ruido que no se puede desactivar, y que solo se suma a la carga de, eh, nuestro malentendido común? Sabes, creo que, sí, bueno, en mi opinión, estamos solo al principio de esto, así que mejorará, mejorará mucho. De hecho, creo que estamos empezando a ver algunos resultados realmente interesantes en ese ámbito concreto.

No, no, no, no me molesta en absoluto. Y creo que la precisión, de nuevo, creo que la precisión aumentará con el tiempo, pero creo, así que creo que una llamada a la acción es empezar a pensar muy detenidamente, cuidadosamente, en las acciones únicas que se llevan a cabo en la empresa. Creo que algunas disciplinas muy tradicionales, como crear un glosario empresarial y comprender tus taxonomías y ontologías, así como las diversas tecnologías que utilizas, son algo que debería tener la máxima prioridad, eh, atención, porque aumentará todo.

Eh, ai, es realmente necesario, ¿verdad? Por lo tanto, creo que es algo que, eh, que, eh, veremos un aumento, eh, un aumento de la atención. No, creo que tienes toda la razón.

Yo, yo incluso pensé en el mismo tema. Yo digo, vale, bueno, tienes que ajustar los modelos basándote en tu glosario que prevalece en tu espacio. De lo contrario, vas a obtener este glosario generado por IA y, eh, eh, palabras y usos, que no van a ser escalables.

¿Sabes? Entonces probablemente tengas que ajustar los modelos para que respondan de una manera que, eh, los empleados de tu compañía o de tu empresa lo entiendan, ¿verdad? Entonces, um, efectivamente, efectivamente.

Yo, ¿puedo comentar algo al respecto, Abby? Sí, claro, claro, claro. Sí, porque creo que uno de los aspectos realmente interesantes aquí es que no se puede automatizar la creación de un glosario empresarial que sea un complemento.

Eh, no deberías hacer eso. Ni siquiera deberías intentarlo. El problema al que te enfrentas es que estás creando, por así decirlo, si utilizamos una palabra larga, una «tología», pero una palabra más sencilla sería simplemente una repetición.

No estás extrayendo nada de ningún sitio. Solo estás repitiendo cosas. Por lo tanto, intentar repetir cosas a nivel de metadatos y decir: «Ahora tenemos un glosario empresarial, ahora tenemos una lista de términos» o incluso crear una ontología basada simplemente en la IA sería muy complicado y muy improductivo.

Y la cuestión es que, si haces eso, si realizas esa actividad humana al principio de crear un glosario empresarial, una taxonomía o incluso una ontología, ¿verdad? Como un gráfico que tú creas, sí, que realmente unifica la comprensión de, eh, de tu empresa. Si haces eso y lo utilizas como fuente para mejorar la inteligencia artificial, obtienes grandes beneficios.

Eh, podrías, podrías automatizar, por ejemplo, podrías realizar la actividad de etiquetado. Así que, por poner un ejemplo muy básico, podrías realizar la actividad de etiquetar, eh, productos de datos o activos de datos en, eh, en un catálogo de datos, eh, algo que, que algunos, esa actividad que podría realizar la IA. Pero si has creado el glosario empresarial con el que etiquetas estos productos de datos, si has creado ese glosario empresarial con IA, toda la actividad se viene abajo.

No aportará ningún valor. Así que se pueden automatizar las repeticiones, pero no las acciones humanas únicas. La creación de la palabra en sí misma es algo que debe hacer un humano.

Exactamente. No, creo que eso no es una estimación, eso es lo que estaba diciendo, que no se puede confiar en la IA para cosas como los glosarios porque no, ya sabes, eso no es una receta para el éxito rotundo. Um, vale, hablando de, ya sabes, la IA y el contenido generativo, um, um, ¿cuáles son algunas de tus estrategias recomendadas, como en el mundo de la IA?

Eh, ¿has pensado en...? No creo que hayas escrito esto en el libro, pero con la IA, ¿cómo debería ser el flujo de trabajo para desarrollar metadatos? Te refieres a los repositorios existentes, ¿cómo los vemos? ¿Cómo los aumentamos con IA? ¿Cómo los llevamos al descubrimiento, eh, en toda la empresa?

¿Has pensado mucho en esto, o cuáles son tus opiniones sobre cada uno de estos temas? Sí, claro. Bueno, en mi libro dejo muy claro que no creo que una arquitectura de metagrid sea algo que debas, eh, poner en una tecnología específica.

En realidad, se trata de mejorar la pila tecnológica existente y los metadatos, eh, la pila tecnológica que tiene en su empresa. Así que si tiene un catálogo de datos, o dos catálogos de datos, cinco catálogos de datos, lo que sugiero no es, desde luego, añadir nuevos datos a todos estos catálogos de datos para unirlos. Creo que eso ya lo hacen ellos mismos internamente.

Eh, y, eh, uno de esos cinco catálogos de datos podría ser el catálogo de datos de la empresa. Y eso está bien. No propongo otra capa encima, y se obtiene otra tecnología.

Lo que propongo es una metodología para unir, desde el punto de vista organizativo, a todos los equipos que trabajan con tecnologías, de modo que puedan aprender unos de otros y mejorar mutuamente. Y luego, si realmente avanzamos, imagina, por ejemplo, una lista de aplicaciones en una herramienta de gestión de arquitectura empresarial con descripciones excelentes, como «dedicado a la exploración futura de cómo se podría hacer que su entorno de TI sea más rentable y potente». Si tomamos esa lista y la coordinamos estrechamente con una base de datos de gestión de la configuración, de repente tendremos una base de datos de gestión de la configuración mejor y más actualizada, y ya una base de datos de gestión de la configuración una vez que estas cosas se transfieran a ese otro equipo.

Y si se toman todos estos equipos y todas estas tecnologías y se explora cómo funcionan juntos, entonces se puede mejorar la cantidad total de tecnologías, cómo están funcionando. Así que se puede ahorrar mucho tiempo, pero ya que preguntas por la IA, también puedes usar esa documentación, todos esos diagramas, todas esas descripciones de tipos de metadatos, y puedes poner eso en, puedes crear una especie de arquitectura de rack con la que potencialmente podrías tener una conversación, ¿verdad? Como preguntar, preguntar para qué se usan los repositorios de metadatos, para qué tipo de cosas, ¿verdad?

Y explorarlo horizontalmente. Pero al ser una tecnología en sí misma, no creo que ese sea el objetivo. Quiero mejorar las tecnologías existentes.

De acuerdo. Hazlo, tiene sentido. Sí.

De acuerdo. Tiene sentido. Hablemos de... bueno, hasta ahora no hemos utilizado la palabra «gobernanza», pero utilicémosla mucho, porque muchas iniciativas de metadatos, por así decirlo, mueren por el cansancio de la gobernanza, ¿no?

Eh, ¿cómo pensamos en la gobernanza cuando hablamos de, eh, ya sabes, iniciativas de metadatos? ¿Qué papel desempeña la gobernanza y qué tan pequeña o grande debe ser? Supongo que esa es la pregunta.

Mm-hmm. Sí. Así que yo, yo creo que lo dividiría en dos, eh, preguntas, en realidad.

Una pregunta es sobre, eh, la gobernanza de datos y, otra pregunta sería sobre la gobernanza en general. Creo que la gobernanza de datos es algo que se realiza habitualmente. Sí, no me gusta que la gobernanza de datos se realice habitualmente de una manera relativamente aislada.

Me gustaría, desearía, desearía que más empresas fueran más, eh, holísticas en sus datos, en la gobernanza de datos, eh, en sus perspectivas. Algunas empresas cuentan sin duda con grandes autores y líderes intelectuales que explican esto. Pero las actividades de gobernanza de datos como disciplina específica, creo que deberían funcionar de forma más horizontal en la organización.

Y eso me lleva, entonces, y puedo explicarlo diciendo, hablando de gobernanza en términos más generales. Así que también tienes un director de seguridad de la información o un responsable de protección de datos o, eh, incluso como calidad, eh, personal de calidad que se encarga de medir el nivel de, eh, eh, formación. ¿Es como, es suficiente y todo eso, verdad?

Si estuvieras en una industria regulada, ya sabes, necesitarías conocer los procesos que funcionan con ella, etc. Así que creo que el aspecto de la gobernanza en su conjunto es más amplio que la simple gobernanza de datos. ¿No es así?

Realmente, realmente animo a las personas encargadas de la gobernanza de datos a que trabajen con otras funciones de gobernanza y cumplimiento normativo de la empresa para mejorar realmente, ahorrar mucho tiempo y mejorar la calidad de los metadatos en sus tecnologías para poder trabajar juntos y crear resultados más eficientes. No, eso es fantástico. Bueno, gracias por eso.

Creo que tu respuesta me ha recordado otro aspecto que tratas en tu libro: los metadatos oscuros. ¿Podrías hablar un poco sobre ello y sobre cómo lo abordas en tu libro? ¿Y qué entendemos realmente por metadatos oscuros o datos oscuros?

¿Cómo lo vemos? Vale. Eh... Repite, ¿sobre los metadatos rec o qué?

No, creo que te refieres a los metadatos oscuros y los datos oscuros. Ah, metadatos oscuros, oscuros. Sí.

Gracias. Sí. Genial.

Gracias. Gracias por traer eso. Muy bien.

Sí, me encanta que lo menciones, porque es algo que realmente me importa mucho. Estamos hablando de datos oscuros, datos que aún no hemos descubierto con nuestras tecnologías, que aún no hemos encontrado. Y yo creo en eso.

Eh, pero los metadatos oscuros son algo, eh, es decir, son bastante, eh, en realidad son bastante fáciles de explicar, ¿verdad? Cada vez que implementamos una nueva tecnología para examinar nuestro panorama informático, empezamos, por desgracia, he descubierto, y esto nos ha resonado a todos en todo el mundo, para ser sinceros. Empezamos con una pizarra.

Empezamos explicando, eh, eh, por dónde debemos empezar, qué tipo de estructura tiene nuestra empresa, qué tipo de empleados, qué tipo de datos, etc. Así que empezamos, empezamos desde cero, empezamos desde cero cada vez que implementamos una tecnología de metadatos. Y creo que eso es un error, eh, porque toda la semántica, todo lo que estamos tratando de mapear, ya existe.

Existe en tecnologías que desconocemos porque solemos trabajar con un enfoque muy aislado, ¿verdad? Piensa, por ejemplo, en la implementación de un catálogo de datos en el que participarían un grupo de ingenieros de datos, científicos de datos, analistas de IA y demás, estrategas que trabajarían juntos en la implementación de un catálogo de datos. Pero si entrevistaran al equipo del sistema de gestión de activos, que normalmente se encuentra en el departamento de finanzas, o si entrevistaran al equipo de gestión de registros e información, otra función de cumplimiento, que normalmente se encuentra en el departamento de calidad o jurídico, obtendrían gran parte de la semántica, gran parte de los metadatos que están tratando de deducir por sí mismos en un silo.

Lo obtendrían nada más sacarlo de la caja. Y esos son mis metadatos oscuros. Son todos los metadatos que ya están ahí fuera, en su organización.

Y esa es la realidad en todas y cada una de las organizaciones, ¿verdad? Todas las empresas tienen esos metadatos oscuros alojados en muchos sistemas diferentes sin descubrir. Y están ahí para quien los quiera.

Y si lo tomas y lo utilizas, puedes avanzar más rápido, mucho más rápido con, eh, tus iniciativas de, eh, como obtener valor de los metadatos para la IA o simplemente implementar nuevas tecnologías. Así que eso es, eso son los metadatos oscuros. Es realmente este concepto de que, creo que estamos ignorando la realidad de los metadatos que ya existen en las empresas.

Tiene que ver con la forma en que las empresas impulsan estas agendas. Siempre se impulsa con nueva tecnología, en una combinación de empleados internos que quieren tener éxito, que quieren ascender, consultores que ayudan a estas empresas a implementar tecnologías y luego proveedores de tecnología que han creado el software, ¿verdad? Sí.

Así que, así están las cosas, no hay forma de evitarlo. Y esa es una realidad que a veces puede resultar muy molesta, pero es la realidad. No puedes, no puedes salir de eso.

Entonces, ¿cómo utilizamos esa realidad para crear algo mejor, más rápido y más inteligente? Bueno, mi respuesta es muy sencilla: fíjate en los metadatos que ya existen. Mira más allá de tu silo.

Si te dedicas al análisis de datos, si eres científico de datos, si eres un ai, fíjate en el sistema de gestión de terminales que utiliza el servicio de asistencia técnica para distribuir ordenadores portátiles y iPhones a los nuevos empleados. Ese sistema contiene mucha semántica. Echa un vistazo al sistema de gestión del conocimiento, que se implementó hace 10 o 15 años, hay mucha semántica.

No dejes que eso se desperdicie. Eso es datos oscuros. Creo que estás insinuando una forma de pensar en analizar los metadatos y conectar disciplinas para alcanzar tu objetivo empresarial, en lugar de hacerlo de forma aislada.

¿Estoy entendiendo bien tu respuesta? Como si estuvieras analizando los datos existentes e intentando conectar los puntos para construir... mm-hmm. Para cumplir tus objetivos.

Ya sabes, estás analizando los puntos finales, estás analizando la gestión del conocimiento, ya sabes, la gestión del conocimiento es, ya sabes, enorme, eh, una especie de, un lugar donde hay muchos metadatos sobre la competencia organizativa en términos de empleados, ¿verdad? Así que creo que estás hablando de utilizar esos metadatos existentes para informar los programas de desarrollo futuros. Y en lugar de, en lugar de construir un nuevo sistema por completo para evaluar, ya sabes, cómo están rindiendo los empleados, creo que eso es lo que estás insinuando, ¿verdad?

Así es, así es, así es como lo entendí. Bueno, el propósito de mi libro no es decir que no se debe implementar la tecnología y que hay que rendirse y que todo es un desastre. Lo que digo es que las empresas suelen encontrarse en un desastre, pero hay una manera de salir de él.

Y ese desorden tiene eso, ese desorden es en realidad algo que es extremadamente poderoso. Si simplemente lo usas, si descubres todos los metadatos en ese desorden, puedes, puedes mejorar las tecnologías existentes y puedes aumentar la probabilidad de éxito al implementar nuevas tecnologías. Así que no estoy en contra de nada aquí.

No estoy en contra de las tecnologías. No estoy en contra de las empresas, las personas, los consultores, etc. Lo que digo es que estamos trabajando de una manera que no es la mejor para hacer algo diferente.

Y eso es la meta grid. La arquitectura de la meta grid realmente dice que no se debe intentar explorar qué aplicaciones tiene una empresa. No intentes explorar qué tipos de datos tiene.

Ya está catalogado, ya está ahí fuera. Ve a buscar esos otros repositorios de metadatos y benefíciate de ellos. Aprovéchalos, úsalos en lugar de perder el tiempo con otro proyecto nuevo poco realista.

46:33Aprovechamiento de los recursos

Eso es, eh, eso es, eso es, eso es lo que se piensa en el ámbito de la arquitectura médica. Exactamente. Eso es lo que yo también estaba viendo.

Yo digo que no hay que descartar lo que ya tienes, sino construir sobre ello. Exacto. Eso es lo que estaba diciendo.

Exactamente, y creo que a menudo nos vemos atrapados en una mecánica que incentiva lo contrario, a menudo nos vemos atrapados en proyectos totalmente nuevos porque son muy seductores. Si no tienes ningún legado, todo es sencillo. ¿Verdad?

Pero el problema es que, aunque puedas, aunque puedas implementar eso en una pequeña burbuja, en tu pequeño silo, nunca se ampliará realmente. Porque no aborda el mundo que lo rodea, ¿verdad? Así que, tal vez puedas despegar y hacer algún trabajo interesante, pero si realmente quieres escalar, necesitas hablar con tus compañeros, necesitas involucrarte con la gente que te rodea.

Sí. Sí, eso es exactamente lo que yo pensaba, así es exactamente como lo entendí. Y eso es lo que decía, yo pienso que hay que analizar los activos existentes que se tienen, interconectarlos y darles sentido.

Incluso si estás llevando a cabo un proyecto totalmente nuevo, es necesario informarse sobre los activos existentes que tienes en términos de metadatos o, ya sabes, datos, ¿verdad? Así que, sí. Eh, creo que hemos hablado de, ya sabes, el conocimiento de grafos, las ontologías de grafos, y la pregunta que tenía al respecto era, eh, ¿cuál es tu criterio a la hora de elegir entre los modelos de grafos, eh, eh, o ontologías frente a un simple par clave-valor, ¿verdad?

¿Cómo pensamos, cuándo necesitamos realmente gráfico de conocimiento sabes gráfico de conocimiento así? ¿En lugar de solo un documento de valores clave, verdad? Creo que ahora nos estamos acercando a la sutil frontera entre los consejos y los ideales, ¿verdad?

Eh, mis ideales, quiero dejarlos muy claros. Eh, se basan en mi propia experiencia, pero acepto que haya gente que piense de otra manera. Pero tal y como yo lo veo, sería acertado elegir, es acertado elegir, um, un gráfico, un metadato a nivel de metadatos.

Así que los grafos de conocimiento son extremadamente eficaces a nivel de metadatos para todo. La gestión de metadatos, son realmente geniales. Y conozco catálogos de datos basados en grafos.

Conozco herramientas de gestión de arquitectura empresarial basadas en gráficos, y conozco otros tipos de herramientas de metadatos y gestión del conocimiento que también se basan en gráficos. Y creo que los gráficos funcionan muy, muy bien en la capa de metadatos, en la propia capa de datos. Eh, no estoy seguro de que se pueda dirigir toda una empresa con una base de datos gráfica.

No estoy seguro de que yo te aconsejara eso. Ahí es donde está mi distinción. Es entre la capa de datos y la capa de metadatos.

Ahora bien, algunos estarán de acuerdo, otros estarán de acuerdo, y otros no lo estarán, y eso está perfectamente bien. Es simplemente mi opinión. Lo que he visto que funciona es que sé que los gráficos son extremadamente potentes en la capa de estados de encuentro.

De acuerdo. Estamos llegando al final de la hora. Eh, si hay más preguntas del público, por favor, eh, no duden en incluirlas en la sección de preguntas y respuestas.

Eh, sé que tienes una parada obligatoria, Ole, y yo también. Sí. Um, déjame ver, eh, mientras esperamos más preguntas, supongo que, eh, puede que tenga una pregunta más.

Una última pregunta por mi parte.

50:23Metadatos e inteligencia artificial

Eh, ya sabes, una empresa que realmente no tiene muchos metadatos y que está empezando desde cero, es un entorno de startup, algo así. Eh, ¿cómo deberían enfocar, eh, ya sabes, no hay, no hay concepto de metagrid porque realmente no tienen, ya sabes, dónde pueden aprovechar lo existente. Eh, ¿qué opinas sobre ese entorno, ya sabes, un entorno completamente nuevo y, ya sabes, la IA se alimenta de metadatos, ya sabes, incrustaciones y ya sabes, todo tipo de cosas?

¿Cuál es tu enfoque ideal para la gestión de metadatos en un entorno totalmente nuevo? ¿Cómo crees que se debería enfocar eso en ese tipo de entorno? ¿Verdad?

Bueno, en ese tipo de entorno, creo que, eh, eh, voy a parecer un viejo, pero creo que hacer la documentación por adelantado te ahorrará mucho, mucho tiempo en el futuro. Es un problema típico de las startups, ¿verdad? Que eres tan pequeño que no necesitas hacer la documentación, y luego creces y luego explotas, y entonces ya no encuentras nada, ¿verdad?

Sí. Pero si eres capaz de hacer la documentación por adelantado, y quizás ahora, en esta era, creo que eres capaz de aprovechar los resultados de la gestión de metadatos de problemas similares de forma instantánea. Y creo que eso es un cambio revolucionario, ¿no?

Como estamos inmersos en esta carrera por la IA, puedes utilizar los metadatos que has registrado de forma eficaz, eh, instantáneamente. Y creo que eso cambia las reglas del juego, eh, es un cambio revolucionario. Un verdadero cambio revolucionario.

No, creo que eso me resulta familiar. Sabes, creo que durante un tiempo pensábamos que no necesitábamos documentación, pero ahora las máquinas necesitan mucho contexto y documentos para responder con precisión. Así que estamos volviendo al punto en el que necesitamos este tipo de documentación para tener éxito con la IA en particular.

Eh, si quieres, estamos buscando la verdad, ¿no? Sobre esto. Exactamente.

Exacto. Sí. Vale.

Bueno, eh, supongo que si, eh, si no hay más preguntas, me encantaría, terminar, eh, a menos que tengas otra pregunta en No, creo que, eh, podemos terminar entonces. Muchas gracias por dedicarnos tu tiempo hoy. Eh, no hay más preguntas.

Creo que podemos darlo por concluido y volver a dar las gracias. Espero que haya sido útil para el público y, eh, estoy deseando ver si hay más interés en, ya saben, tener otra discusión sobre los metadatos o quizá más orientada a cómo se está utilizando esto ya en la industria. Estoy seguro de que nos pondremos en contacto y lo averiguaremos.

Claro. Y nos veremos por ahí, en eventos de Databricks o eventos de acción, o quizá eventos conjuntos. Quién sabe. Exactamente.

Por supuesto. Nos vemos. Cuídate.