Thèse de Marc Chapus
Sujet :
Date de début : 01/11/2022
Date de fin (estimée) : 01/11/2025
Encadrant : Atilla Baskurt
Co-encadrant : Carlos Crispim-Junior
Co-direction : Véronique Eglin
Résumé :
La vision par ordinateur combinée à l'intelligence artificielle est un domaine de recherche d’actualités concurrentiel et prometteur. Des applications dans le domaine de l’analyse vidéo ont vu le jour ces dernières années, comme la description automatique de scènes (conversion d'images et de vidéos en texte), la récupération d'images/vidéos par requête (textuelle ou image), ainsi que la réponse automatique à des questions posées sous format textuel sur le contenu des images/vidéos (visual question answering).
Ce sujet de thèse se situe à l'intersection de la vision par ordinateur, de l'analyse multimédia et la compréhension de scènes et intègre également une dimension linguistique dans la description de leur contenu. Il vise à développer des méthodes de vision multimodale capables d'aider les usagers à décrire et à retrouver automatiquement des images et des séquences vidéo en fonction de questions portant sur les scènes. Ce processus de description couplant les modalités images et descriptives devra également permettre d’interroger des bases d’images ou des séquences et de retrouver des scènes visuelles similaires (sur des critères qu’il faudra définir).
Pour y parvenir, le doctorant aura pour tâche de proposer un système capable de décrire automatiquement des images et des vidéos et de les interroger avec de questions posées sans contrainte linguistique. Même si la tâche scientifique de répondre à des questions formulées pour interroger des images (Visual-question answering en anglais, VQA) a connu de grands progrès dus à la diffusion des méthodes d'apprentissage profond, les performances de ces méthodes sur les vidéos ne sont pas encore satisfaisantes et ne permettent pas de justifier les réponses fournies.
Durant la thèse, le doctorant devra également constituer un jeu de données complet pour l’étude de différents scénarios de description sémantique (via des embeddings multimodaux appris sur des images, des séquences d’images, de l’audio et du texte) à partir de bases vidéos publiques qui seront sélectionnées pour les qualités qu’elles possèdent et leur faculté à illustrer tout un ensemble de contraintes (variations d'éclairage, occlusions, entités sémantiques spécifiques et relations).