Qu'est-ce qui rend un catalogue de données "intelligent" ? #4 - Le moteur de recherche
Résumé
- Un catalogue de données un moteur de recherche performant, car la recherche est le principal moyen utilisé par les utilisateurs pour parcourir de grands volumes de métadonnées.
- L'indexation de base est efficace pour les recherches précises, mais s'avère moins performante pour les recherches exploratoires ou celles qui ne visent pas un objectif précis.
- Un moteur de recherche plus intelligent associe l'indexation au traitement du langage naturel, à l'analyse sémantique et à la personnalisation.
- Le filtrage intelligent améliore la pertinence en n'affichant que les filtres utiles et leur incidence sur les résultats.
- En combinant la recherche multidimensionnelle et le filtrage contextuel, les utilisateurs peuvent trouver les jeux de données appropriés jeux de données et avec plus de précision.
A catalogue de données exploite d'énormes quantités d'informations très diverses, et son volume va croître de manière exponentielle. Cela soulèvera deux défis majeurs :
- Comment alimenter et maintenir le volume d'informations sans tripler (ou plus) le coût de la gestion desmétadonnées ?
- Comment trouver les jeux de données les plus pertinents pour un cas d'usage spécifique ?
Nous pensons qu'un catalogue de données devrait être intelligent pour répondre à ces 2 questions, avec des caractéristiques technologiques et conceptuelles intelligentes qui vont plus loin que la seule intégration d'algorithmes d'IA.
A cet égard, nous avons identifié 5 domaines dans lesquels un catalogue de données peut être "intelligent" - la plupart d'entre eux ne faisant pas appel à l'apprentissage automatique:
- Métamodélisation
- L'inventaire des données
- Gestion des métadonnées
- Le moteur de recherche
- expérience utilisateur
Un moteur de recherche puissant pour une exploration efficace
Compte tenu des énormes volumes de données impliqués dans un catalogue d'entreprise, nous considérons le moteur de recherche comme le principal mécanisme par lequel les utilisateurs peuvent explorer le catalogue. Lemoteur de recherche doit être facile à utiliser, puissant et, surtout, efficace - les résultats doivent répondre aux attentes des utilisateur . Google et Amazon ont placé la barre très haut à cet égard, et l'expérience de recherche qu'ils offrent est devenue une référence dans le domaine.
Cette expérience de recherche inégalée peut se résumer ainsi :
- J'écris quelques mots dans la barre de recherche, souvent avec l'aide d'un système de suggestion qui propose des associations fréquentes de termes pour m'aider à affiner ma recherche.
- La réponse quasi instantanée fournit des résultats dans un ordre précis et je m'attends à trouver le plus pertinent sur la première page.
- Si ce n'est pas le cas, je peux simplement ajouter des termes pour réduire encore davantage la recherche ou utiliser les filtres disponibles pour éliminer les résultats non pertinents.
Hélas, le meilleur de l'offre actuelle sur le marché du catalogage de données en termes de Fonctionnalités recherche semble se limiter à des systèmes performants d'indexation, de scoring et de filtrage. Cette approche est satisfaisante lorsque l'utilisateur a une idée précise de ce qu'il recherche (recherche à forte intention) mais peut s'avérer décevante lorsque la recherche est plus exploratoire (recherche à faible intention) ou lorsque l'idée est simplement de suggérer spontanément des résultats pertinents à un utilisateur (pas d'intention).
En résumé, l'indexation simple est excellente pour trouver des informations dont les caractéristiques sont bien connues, mais elle est insuffisante lorsque la recherche est plus exploratoire. Les résultats comprennent souvent des faux positifs et l'ordre de sortie de la recherche est surreprésenté avec des correspondances exactes.
Une approche de recherche multidimensionnelle
Nous avons décidé dès le départ qu'un simple système d'indexation s'avérerait limité et ne permettrait pas de fournir les résultats les plus pertinents aux utilisateurs. Nous avons donc choisi d'isoler le moteur de recherche dans un module dédié de la plateforme et d'en faire une puissante zone d'innovation (et d'investissement).
Nous nous sommes naturellement intéressés aux travaux des fondateurs de Google sur le Page Rank, leur algorithme. Le Page Rank prend en compte plusieurs dizaines d'aspects (appelés features), parmi lesquels la densité de la relation entre les différents objets du graphe (les liens hypertextes dans le cas des pages internet), le traitement linguistique des termes de recherche, ou encore l'analyse sémantique du graphe de connaissances.
Certes, nous n'avons pas les moyens de Google, ni son expertise en matière d'optimisation des résultats de recherche. Mais nous avons intégré dans notre moteur de recherche plusieurs fonctionnalités qui permettent d'obtenir un niveau élevé de résultats pertinents, et ces fonctionnalités évoluent en permanence.
Nous avons intégré les fonctionnalités de base suivantes :
- Indexation standard et uniforme de tous les attributs d'un objet (nom, description et propriétés), pondérée en fonction du type de propriété.
- Une couche NLPtraitement du language naturel) qui prend en compte les "near misses" (erreurs de frappe ou d'orthographe).
- Une couche d'analyse sémantique qui repose sur le traitement du graphe de connaissances.
- Une couche de personnalisation qui repose actuellement sur une simple classification des utilisateur en fonction de leurs usages, et qui sera à l'avenir enrichie par un profilage individuel.
Filtrage intelligent pour contextualiser et limiter les résultats de la recherche
Pour compléter le moteur de recherche, nous proposons également ce que nous appelons un système de filtrage intelligent. Le filtrage intelligent est une fonctionnalité que l'on retrouve souvent sur les sites de commerce électronique (tels qu'Amazon, booking.com, etc.) ; il consiste à proposer des filtres contextuels permettant de restreindre les résultats de recherche. Ces filtres fonctionnent de la manière suivante :
- Seuls les biens qui contribuent à réduire la liste des résultats sont proposés dans la liste des filtres - les biens non discriminants n'apparaissent pas.
- Chaque filtre indique son impact, c'est-à-dire le nombre de résultats résiduels une fois le filtre appliqué.
- L'application d'un filtre actualise instantanément la liste des résultats.
Grâce à cette combinaison de recherche multidimensionnelle et de filtrage intelligent, nous estimons offrir une expérience de recherche supérieure à celle de tous nos concurrents. De plus, notre architecture découplée nous permet d’explorer en permanence de nouvelles approches et d’intégrer rapidement celles qui s’avèrent efficaces.
Pour plus d'informations sur la manière dont un moteur de recherche intelligent moteur de recherche intelligent améliore un catalogue de données, téléchargez notre eBook : « Qu'est-ce qu'un catalogue de données intelligent ?»