Thèse de Devashish Lohani


Sujet :
Apprentissage profond non supervisé de représentations spatio-temporelles pour la vidéo

Résumé :

Identifier des actions ou une succession d’événements en fonction de l'expérience est une partie importante du processus de prise de décision humaine. Les progrès récents dans l'apprentissage en profondeur nous permettent d'effectuer une analyse vidéo automatisée, mais la plupart de ces algorithmes reposent sur une énorme quantité de données étiquetées (apprentissage supervisé). Utilisant des vidéos non-étiquetées, nous souhaitons apprendre de manière non-supervisée un réseau profond encodant des représentations pour les vidéos. L'objectif est de capturer la nature spatio-temporelle des vidéos dans un modèle unique, et non de traiter indépendamment les dimensions spatiales (images) et la dimension temporelle. Au même titre que les premières couches des réseaux convolutionnels 2D encodent des descripteurs locaux spécialisés pour les images, nous souhaitons apprendre des descripteurs spatio-temporels permettant de modéliser les évènements vidéo. Une fois appris, ces descripteurs pourront être utilisés pour une tâche supervisée, telle que la reconnaissance d'actions ou des tâches non supervisées, telles que la détection d'intrusions ou d'anomalies.


Encadrant : Laure Tougne
Co-encadrant : Carlos Crispim-Junior