Qu'est-ce qui rend un catalogue de données "intelligent" ? #4 - Le moteur de recherche
Actian Corporation
16 février 2022

A catalogue de données exploite d'énormes quantités d'informations très diverses - et son volume va croître de manière exponentielle. Cela soulèvera deux défis majeurs :
- Comment alimenter et maintenir le volume d'informations sans tripler (ou plus) le coût de la gestion desmétadonnées ?
- Comment trouver les ensembles de données les plus pertinents pour un cas d'usage spécifique ?
Chez Zeenea, nous pensons qu'un catalogue de données doit être Smart pour répondre à ces 2 questions, avec des caractéristiques technologiques et conceptuelles intelligentes qui vont plus loin que la seule intégration d'algorithmes d'IA.
À cet égard, nous avons identifié 5 domaines dans lesquels un catalogue de données peut être "intelligent" - la plupart d'entre eux n'impliquant pas l'apprentissage automatique:
- Métamodélisation
- L'inventaire des données
- Gestion des métadonnées
- Le moteur de recherche
- expérience utilisateur
Un moteur de recherche puissant pour une exploration efficace
Compte tenu des énormes volumes de données impliqués dans un catalogue d'entreprise, nous considérons le moteur de recherche comme le principal mécanisme par lequel les utilisateurs peuvent explorer le catalogue. Lemoteur de recherche doit être facile à utiliser, puissant et, surtout, efficace - les résultats doivent répondre aux attentes des utilisateur . Google et Amazon ont placé la barre très haut à cet égard et l'expérience de recherche qu'ils offrent est devenue une référence dans le domaine.
Cette expérience de recherche inégalée peut se résumer ainsi :
- J'écris quelques mots dans la barre de recherche, souvent avec l'aide d'un système de suggestion qui propose des associations fréquentes de termes pour m'aider à affiner ma recherche.
- La réponse quasi instantanée fournit des résultats dans un ordre précis et je m'attends à trouver le plus pertinent sur la première page.
- Si ce n'est pas le cas, je peux simplement ajouter des termes pour réduire encore davantage la recherche ou utiliser les filtres disponibles pour éliminer les résultats non pertinents.
Hélas, le meilleur de l'offre actuelle sur le marché du catalogage de données en termes de capacités de recherche semble se limiter à des systèmes capables d'indexation, de notation et de filtrage. Cette approche est satisfaisante lorsque l'utilisateur a une idée précise de ce qu'il recherche (recherche à forte intention) mais peut s'avérer décevante lorsque la recherche est plus exploratoire (recherche à faible intention) ou lorsque l'idée est simplement de suggérer spontanément des résultats pertinents à un utilisateur (pas d'intention).
En résumé, l'indexation simple est excellente pour trouver des informations dont les caractéristiques sont bien connues, mais elle est insuffisante lorsque la recherche est plus exploratoire. Les résultats comprennent souvent des faux positifs et l'ordre de sortie de la recherche est surreprésenté avec des correspondances exactes.
Une approche de recherche multidimensionnelle
Nous avons décidé dès le départ qu'un simple système d'indexation s'avérerait limité et ne permettrait pas de fournir les résultats les plus pertinents aux utilisateurs. Nous avons donc choisi d'isoler le moteur de recherche dans un module dédié de la plateforme et d'en faire une puissante zone d'innovation (et d'investissement).
Nous nous sommes naturellement intéressés aux travaux des fondateurs de Google sur le Page Rank, leur algorithme. Le Page Rank prend en compte plusieurs dizaines d'aspects (appelés features), parmi lesquels la densité de la relation entre les différents objets du graphe (les liens hypertextes dans le cas des pages internet), le traitement linguistique des termes de recherche, ou encore l'analyse sémantique du graphe de connaissances.
Certes, nous n'avons pas les moyens de Google, ni son expertise en matière d'optimisation des résultats de recherche. Mais nous avons intégré dans notre moteur de recherche plusieurs fonctionnalités qui permettent d'obtenir un niveau élevé de résultats pertinents, et ces fonctionnalités évoluent en permanence.
Nous avons intégré les fonctionnalités de base suivantes :
- Indexation standard, plate, de tous les attributs d'un objet (nom, description et propriétés) en les pondérant en fonction du type de propriété.
- Une couche NLPtraitement du language naturel) qui prend en compte les "near misses" (erreurs de frappe ou d'orthographe).
- Une couche d'analyse sémantique qui repose sur le traitement du graphe de connaissances.
- Une couche de personnalisation qui repose actuellement sur une simple classification des utilisateur en fonction de leurs usages, et qui sera à l'avenir enrichie par un profilage individuel.
Filtrage intelligent pour contextualiser et limiter les résultats de la recherche
Pour compléter le moteur de recherche, nous fournissons également ce que nous appelons un système de filtrage intelligent. Le filtrage intelligent est quelque chose que l'on retrouve souvent sur les sites de commerce électronique (comme Amazon, booking.com, etc.) et qui consiste à fournir des filtres contextuels pour limiter le résultat de la recherche. Ces filtres fonctionnent de la manière suivante :
- Seuls les biens qui contribuent à réduire la liste des résultats sont proposés dans la liste des filtres - les biens non discriminants n'apparaissent pas.
- Chaque filtre indique son impact, c'est-à-dire le nombre de résultats résiduels une fois le filtre appliqué.
- L'application d'un filtre actualise instantanément la liste des résultats.
Grâce à cette combinaison de recherche multidimensionnelle et de filtrage intelligent, nous pensons offrir une expérience de recherche supérieure à celle de tous nos concurrents. Notre architecture découplée nous permet d'explorer en permanence de nouvelles approches et d'intégrer rapidement celles qui semblent efficaces.
Pour plus d'informations sur la manière dont un Smart améliore un catalogue de données, téléchargez notre eBook : "Qu'est-ce qu'un catalogue de données intelligent ?
S'abonner au blog d'Actian
Abonnez-vous au blogue d'Actian pour recevoir des renseignements sur les données directement à vous.
- Restez informé - Recevez les dernières informations sur l'analyse des données directement dans votre boîte de réception.
- Ne manquez jamais un article - Vous recevrez des mises à jour automatiques par courrier électronique pour vous avertir de la publication de nouveaux articles.
- Tout dépend de vous - Modifiez vos préférences de livraison en fonction de vos besoins.