Thèse de Corentin Kervadec

Sujet :

Reconnaissance visuelle et traitement du langage naturel par apprentissage neuronal profond pour la compréhension de scènes

Date de début : 01/10/2018
Date de soutenance : 09/12/2021

Encadrant : Christian Wolf

Résumé :

Dans le cadre de cette thèse, nous serons amené à travailler sur un sujet à l’intersection de trois domaines de recherche : l’intelligence artificielle (et plus particulièrement le deep learning), la vision par ordinateur et le traitement automatique du langage. L’objectif étant : 1. de proposer des modèles neuronaux entraînés à extraire des descripteurs issus des deux modalités (contenus visuel et textuel), et 2. d’étudier la manière de mettre en relation ces descripteurs appris et de proposer ainsi un système de recherche de contenus visuels capable d’interagir avec l’utilisateur via des requêtes textuelles complexes.

Bien que des avancées significatives aient été accomplies durant ces dernières années dans ce domaine, les résultats obtenus restent néanmoins assez éloignées des performances humaines, surtout quand l’interaction se fait via des requêtes complexes (par exemple des questions dont la réponse n’est pas binaire). Plusieurs verrous scientifiques restent ainsi à lever. Tout d’abord, l’extraction de descripteurs pertinents pour les deux modalités reste en soi un problème ouvert, toujours étudié au sein de la communauté du deep learning. La mise en relation et l’exploitation conjointe de ces descripteurs demeure également un challenge. Certaines études récentes ont démontré en effet que, dans le cadre d’une application de VQA (Visual Question Answering), les méthodes proposées avaient tendance à sous-exploiter le contenu visuel, et à se limiter à faire une prédiction de la réponse en fonction de la question posée. Ceci pose également le problème de l’évaluation de ce type d’approches, qui reste encore un sujet ouvert aujourd’hui. Enfin, il serait également intéressant d’étudier l’extension de ce type d’approches au cas de la vidéo, au-delà d’une simple analyse « image par image ». Ceci permettrait d’adresser de nouveaux types de requêtes, qui concerneraient par exemple la localisation temporelle d’un évènement ou une interaction inter-objets, ou encore l’évolution dans le temps d’un objet dans une scène.

Jury :

Mr Picard David	Professeur(e)	Ecole des Ponts - ParisTech	Rapporteur(e)
Mr Thome Nicolas	Professeur(e)	CNAM	Rapporteur(e)
Mme SchmidD Cordelia	Directeur(trice) de recherche	Inria / DI - ENS	Examinateur(trice)
Mr Teney Damien	Docteur	IDIAP	Examinateur(trice)
Mme Zeynep Akata	Professeur(e)	Université de Tubingen,	Examinateur(trice)
Mr Wolf Christian	Professeur(e) associé(e)	INSA de Lyon / LIRIS CNRS UMR 5205	Directeur(trice) de thèse
M Baccouche Moez	Docteur	Orange	Examinateur(trice)
Mr Antipov Grigory	Docteur	Orange	Examinateur(trice)