Thèse de Taygun Kekec


Sujet :
LApprentissage automatique de représentations visuelles à partir de données 3D et temporelles

Date de soutenance : 31/08/2017

Encadrant : Christian Wolf

Résumé :

L'objectif de cette thèse est la conception de méthodes d'apprentissage pour la segmention de haut niveau (dite sémantique) de vidéos. Il s'agit d'apprendre, de manière automatique, des réprésentations hiérarchiques permettant d'étiquetter l'intégralité des pixels d'une vidéo en classes, telles que route, bâtiment, végétation, personne etc.
Les caractéristiques conçues manuellement, telles que SIFT, HoG/HoF etc., sont actuellement employées dans des nombreuses approches de reconnaissance d'objets. Cependant, ces informations decrivent uniquement les propriétés de bas niveau et il s'est avéré difficile de les étendre à des niveaux plus élévés. Les développements récents dans l'apprentissage machine, connus sous le nom d'apprentissage profond, ont montré comment des représentations hiérarchiques peuvent être appris de manière non supervisée directement à partir de données .
Cette thèse va commencer par étudier plusieurs architectures de base et par explorer la façon dont ils apprennent les caractéristiques. Ensuite, la thèse proposée abordera le problème de la création de modèles structurés pour les données faiblement structurées. En particulier, nous visons des données temporelles (des vidéos), où le mouvement peut être lié à des phénomènes différents : le mouvement du véhicule (ego motion), le mouvement lié aux interactions entre les véhicules (relativement aux conditions de circulation), le mouvement d'autres acteurs, ou le mouvement non pertinent. Dans ces situations, les représentations de bas niveau s'avèrent peu efficace, nécessitant la prise en compte du contexte.
Compte tenu de ces exigences, l'intégration des différents types de caractéristiques à des niveaux différents semble une idée prometteuse.