Thèse de Cédric Boscher

Sujet :

Recherche d'information multimodale dans des collections de documents écrits

Date de début : 02/01/2023
Date de fin (estimée) : 02/01/2026

Encadrant : Véronique Eglin
Co-encadrant : Elod Egyed-Zsigmond
Co-direction : Christine Largeron

Résumé :

Cette thèse s’inscrit dans le cadre du projet SYMTESENS – Pack Ambition Recherche soutenu par la région Auvergne-Rhône-Alpes, qui vise à mettre en place un système automatisé et interactif de recherche multimodale ciblée sur la sensorialité permettant d’exploiter des sources documentaires anciennes issues du patrimoine numérisé des bibliothèques et archives de la région et constituées de textes manuscrits ou imprimés. Ce système devra autoriser l’association de requêtes à la fois textuelles et de caractéristiques visuelles pour permettre une recherche par le texte, par le contenu visuel ou par les deux à la fois.

Habituellement découplées, les recherches d’information en mode « plein texte » et « image » visent à extraire des sources documentaires des fragments informationnels pertinents. Chacun des domaines de recherche (texte et image) dispose de son lot de techniques qui ont fait leur preuve dans des domaines où l’accès au contenu ne pouvait se faire que par une seule modalité d’interrogation. En permettant la construction d’espaces vectoriels de représentation commun dans lesquels peuvent être projetés conjointement les textes comme les images, les travaux récents réalisés en apprentissage automatique profond amènent à revoir aujourd’hui ce sujet. En effet, à partir d’un jeu d’apprentissage composés de paires (mot et image associés à l’objet décrit par le mot), ces modèles, basés sur des réseaux de neurones, génèrent automatiquement la représentation d’objets pour lesquels seul le mot ou seule l’image est disponible [Silberer 2014, Lazaridou 2015 Kodirov2017, Han 2017]. Les avancées très récentes dans le domaine montrent qu’en faisant appel à des architectures de réseaux plus élaborées comme Elmo, BERT, Transformer, RobertA ou encore Albert ou, avec de nouvelles contraintes d’apprentissage, les performances peuvent encore être améliorées. Cependant, les travaux dans ce domaine demeurent très rares pour ce qui est de la représentation du sensible (maillage texte-image). En effet, quelle image associer à des mots tels que “son” ou “goût” ? Notre objectif est de s’attaquer à ce défi en procédant en trois étapes et en prenant comme cas d’étude l’extraction d’indices sonores.

En s’appuyant sur l’approche méthodologique de Lexifield que nous avons mis en place dans le projet SoundCITYve [Mpouli2020], la première étape, assimilable à de l’extension de requêtes, consistera à construire un lexique à partir de quelques mots textuels, appelés graines et fournis pour exprimer le besoin d’information sensible (comme par exemple les mots son, bruyant). Ce lexique contiendra des marqueurs sonores générés à partir des graines à l’aide de ressources terminologiques. Ainsi par exemple, à partir de la graine « bruit » on peut retrouver les marqueurs « bruyant», «son» ou «sonner».
L’étape suivante vise à partir de cet ensemble d’apprentissage composé de paires (mot textuel, image du mot textuel) à construire un modèle permettant d’associer à chaque élément, mot ou image, une représentation vectorielle de sorte que figurent à proximité dans l’espace de représentation les éléments d’une même paire. Ce modèle permettra ensuite à partir d’un nouvel élément textuel de retrouver la représentation vectorielle de l’image associée. L’échantillon d’apprentissage sera constitué soit à partir de benchmarks existants soit en faisant appel à des modèles de type Gan utilisés pour générer des images de synthèse. Cependant, comme les modèles basés sur l’apprentissage profond requiert en général des jeux de données de grande taille, un premier modèle pourra être appris sur ce jeu générique, puis adapté en suivant une approche basée sur du self supervised learning, pour modéliser le vocabulaire associé à l’information sensible. Une fois appris, ce modèle permettra de générer une représentation vectorielle pour chacun des marqueurs sonores figurant dans le lexique produit précédemment. Ainsi, l’avantage de ce plongement vectoriel est double : 1- il permet d’obtenir automatiquement le vecteur associé à l’image du mot non seulement pour les graines fournies par l’utilisateur mais pour l’ensemble des mots du lexique facilitant ainsi le requêtage pour l’utilisateur, 2- il permet de générer une représentation vectorielle désambiguïsée des images pour les mots qui d’après leur graphisme pourraient être confondus, y compris par un humain, comme par exemple les mots différents par une seule lettre et qui grâce au plongement seront associés à des vecteurs bien distincts.

La troisième étape sera l’étape de recherche d’information à proprement parler. Elle consistera à développer un système qui, à partir d’une requête fournie par un utilisateur et composée de quelques mots ou images ou les deux, extrait du corpus d’intérêt les documents répondant à cette requête. La mise en correspondance reposera sur une mesure de similarité calculée après plongement des documents et des termes de la requête dans l’espace vectoriel construit à l’étape précédente. Le prototype d’interrogation final qui sera produit dans le cadre de la thèse sera évalué sur des benchmarks et sur un corpus issu de collections du 18ème siècle.