¿Qué hace que un catálogo de datos sea "inteligente"? #4 - El motor de búsqueda
Corporación Actian
16 de febrero de 2022

Un catálogo de datos aprovecha enormes cantidades de información muy diversa, y su volumen crecerá exponencialmente. Esto planteará 2 grandes retos:
- ¿Cómo alimentar y mantener el volumen de información sin triplicar (o más) el coste de la gestión de metadatos?
- ¿Cómo encontrar los conjuntos de datos más pertinentes para un caso de uso específico?
Creemos que un catálogo de datos debería ser inteligente para responder a estas 2 preguntas, con características tecnológicas y conceptuales inteligentes que vayan más allá de la mera integración de algoritmos de IA.
A este respecto, hemos identificado 5 áreas en las que un catálogo de datos puede ser "inteligente", la mayoría de las cuales no implican aprendizaje automático:
- Metamodelado
- El inventario de datos
- Gestión de metadatos
- El motor de búsqueda
- Experiencia del usuario
Un potente motor de búsqueda para una exploración eficaz
Dados los enormes volúmenes de datos que contiene un catálogo de empresa, consideramos que el motor de búsqueda es el principal mecanismo a través del cual los usuarios pueden explorar el catálogo. Elmotor de búsqueda debe ser fácil de usar, potente y, lo que es más importante, eficiente: los resultados deben cumplir las expectativas de los usuarios. Google y Amazon han puesto el listón muy alto en este sentido, y la experiencia de búsqueda que ofrecen se ha convertido en una referencia en este campo.
Esta experiencia de búsqueda inigualable puede resumirse así:
- Escribo algunas palabras en la barra de búsqueda, a menudo con la ayuda de un sistema de sugerencias que me ofrece frecuentes asociaciones de términos para ayudarme a acotar la búsqueda.
- La respuesta casi instantánea ofrece resultados en un orden específico y espero encontrar el más relevante en la primera página.
- Si no es el caso, puedo añadir términos para limitar aún más la búsqueda o utilizar los filtros disponibles para anular los resultados no pertinentes.
Por desgracia, lo mejor que se ofrece actualmente en el mercado de la catalogación de datos en cuanto a capacidades de búsqueda parece limitarse a sistemas capaces de indexar, puntuar y filtrar. Este enfoque es satisfactorio cuando el usuario tiene una idea concreta de lo que busca (búsqueda de alta intención) pero puede resultar decepcionante cuando la búsqueda es más exploratoria (búsqueda de baja intención) o cuando se trata simplemente de sugerir espontáneamente al usuario resultados pertinentes (sin intención).
En resumen, la indexación simple es estupenda para encontrar información cuyas características son bien conocidas, pero se queda corta cuando la búsqueda es más exploratoria. Los resultados suelen incluir falsos positivos y el orden en que sale la búsqueda está sobrerrepresentado con coincidencias exactas.
Un enfoque de búsqueda multidimensional
Decidimos desde el principio que un simple sistema de indexación resultaría limitado y se quedaría corto a la hora de ofrecer los resultados más relevantes a los usuarios. Por eso optamos por aislar el motor de búsqueda en un módulo específico de la plataforma y convertirlo en una potente zona de innovación (e inversión).
Naturalmente, nos interesamos por el trabajo de los fundadores de Google sobre Page Rank, su algoritmo. Page Rank tiene en cuenta varias docenas de aspectos (denominados características), entre los que se encuentran la densidad de la relación entre distintos objetos del grafo (enlaces de hipertexto en el caso de las páginas de Internet), el tratamiento lingüístico de los términos de búsqueda o el análisis semántico del grafo de conocimiento.
Por supuesto, no disponemos de los medios que tiene Google, ni de su experiencia en términos de optimización de los resultados de búsqueda. Pero hemos integrado en nuestro motor de búsqueda varias funciones que proporcionan un alto nivel de resultados pertinentes, y esas funciones están en permanente evolución.
Hemos integrado las siguientes funciones básicas:
- Indexación estándar, plana, de todos los atributos de un objeto (nombre, descripción y propiedades) ponderándolos en función del tipo de propiedad.
- Una capa NLP (Procesamiento del Lenguaje Natural) que tiene en cuenta los near misses (errores tipográficos u ortográficos).
- Una capa de análisis semántico que se basa en el tratamiento del grafo de conocimiento.
- Una capa de personalización que actualmente se basa en una simple clasificación de los usuarios en función de sus usos, y que en el futuro se enriquecerá con la elaboración de perfiles individuales.
Filtrado inteligente para contextualizar y limitar los resultados de búsqueda
Para completar el motor de búsqueda, también proporcionamos lo que llamamos un sistema de filtrado inteligente. El filtrado inteligente es algo que encontramos a menudo en sitios web de comercio electrónico (como Amazon, booking.com, etc.) y consiste en proporcionar filtros contextuales para limitar el resultado de la búsqueda. Estos filtros funcionan de la siguiente manera:
- Sólo las propiedades que ayudan a reducir la lista de resultados se ofrecen en la lista de filtros - las propiedades no discriminatorias no aparecen.
- Cada filtro muestra su impacto, es decir, el número de resultados residuales una vez aplicado el filtro.
- Al aplicar un filtro, la lista de resultados se actualiza instantáneamente.
Con esta combinación de búsqueda multidimensional y filtrado inteligente creemos que ofrecemos una experiencia de búsqueda superior a la de cualquiera de nuestros competidores. Y nuestra arquitectura desacoplada nos permite explorar continuamente nuevos enfoques e integrar rápidamente los que nos parecen eficientes.
Para más información sobre Smart mejora un Catálogo de Datos, descargue nuestro eBook: "¿Qué es un Catálogo de Datos Inteligente?".
Suscríbase al blog de Actian
Suscríbase al blog de Actian para recibir información sobre datos directamente en su correo electrónico.
- Manténgase informado: reciba lo último en análisis de datos directamente en su bandeja de entrada.
- No se pierda ni una publicación: recibirá actualizaciones automáticas por correo electrónico que le avisarán cuando se publiquen nuevas publicaciones.
- Todo depende de usted: cambie sus preferencias de entrega para adaptarlas a sus necesidades.