Thèse de Corentin Kervadec


Sujet :
Reconnaissance visuelle et traitement du langage naturel par apprentissage neuronal profond pour la compréhension de scènes

Résumé :

Dans le cadre de cette thèse, nous serons amené à travailler sur un sujet à l’intersection de trois domaines de recherche : l’intelligence artificielle (et plus particulièrement le deep learning), la vision par ordinateur et le traitement automatique du langage. L’objectif étant : 1. de proposer des modèles neuronaux entraînés à extraire des descripteurs issus des deux modalités (contenus visuel et textuel), et 2. d’étudier la manière de mettre en relation ces descripteurs appris et de proposer ainsi un système de recherche de contenus visuels capable d’interagir avec l’utilisateur via des requêtes textuelles complexes.

 

Bien que des avancées significatives aient été accomplies durant ces dernières années dans ce domaine, les résultats obtenus restent néanmoins assez éloignées des performances humaines, surtout quand l’interaction se fait via des requêtes complexes (par exemple des questions dont la réponse n’est pas binaire). Plusieurs verrous scientifiques restent ainsi à lever. Tout d’abord, l’extraction de descripteurs pertinents pour les deux modalités reste en soi un problème ouvert, toujours étudié au sein de la communauté du deep learning. La mise en relation et l’exploitation conjointe de ces descripteurs demeure également un challenge. Certaines études récentes ont démontré en effet que, dans le cadre d’une application de VQA (Visual Question Answering), les méthodes proposées avaient tendance à sous-exploiter le contenu visuel, et à se limiter à faire une prédiction de la réponse en fonction de la question posée. Ceci pose également le problème de l’évaluation de ce type d’approches, qui reste encore un sujet ouvert aujourd’hui. Enfin, il serait également intéressant d’étudier l’extension de ce type d’approches au cas de la vidéo, au-delà d’une simple analyse « image par image ». Ceci permettrait d’adresser de nouveaux types de requêtes, qui concerneraient par exemple la localisation temporelle d’un évènement ou une interaction inter-objets, ou encore l’évolution dans le temps d’un objet dans une scène.


Encadrant : Christian Wolf