Thesis of Damien Fourure


Subject:
Etiquettage semantique de scènes par deep learning

Summary:

L’objectif principal de cette thèse est d’explorer les approches innovantes basées sur les techniques de vision par ordinateur et d’apprentissage automatique, mais aussi d’explorer l’utilisation de multiples sources d’informations, en particulier les sources géométriques et visuelles. Nous visons à apprendre des descripteurs plutôt que de les créer manuellement. Une évolution récente en apprentissage automatique, connu sous le nom de Deep Learning, a montré comment les descripteurs hiérarchiques peuvent être appris directement des données. Nous aborderons le problème de la création de modèles structurés pour des données faiblement structurées (exemple : vidéo) ou l’utilisation technique d’apprentissage automatique traditionnelle non structurées ne donnent pas de bon résultats. En particulier, dans l’application visée, le mouvement présent dans les données pourra être un mouvement lié au véhicule, un mouvement lié aux interactions entre les véhicules ou un mouvement non pertinent. Dans ces cas là, la représentation de scène basée sur seulement des descripteurs de bas niveau n’est pas efficace et le contexte doit être pris en compte. Cela peut généralement influencer les relations entre les véhicules, l’extraction et l’injection d’informations sur le type de scène, l’information sur l’état de l’environnement, et autre.

Au vu de ces exigences, l’intégration de plusieurs types de descripteurs à plusieurs niveaux semble être une idée prometteuse. Cependant, l’application du deep learning aux problèmes complexes impliquant des informations de nature structurée reste un problème ouvert. Structurer les descripteurs permettra de rendre la représentation robuste aux occlusions, changement de points de vue et plus important, de faire face à d’importantes variations photométrique. L’apprentissage de représentations hiérarchiques des structures de la scène sera étudié. Le modèle et l’algorithme développé durant cette thèse seront testés sur un nouvel ensemble de données, tel que l’ensemble de données Kitti.


Advisor: Christian Wolf