Thèse de Salma Moujtahid
Sujet :
Date de soutenance : 03/11/2016
Encadrant : Atilla Baskurt
Co-encadrant : Stefan Duffner
Résumé :
L’objectif de cette thèse est le développement de nouveaux modèles et algorithmes efficaces pour le suivi et la reconnaissance d’objets et de personnes dans des vidéos issues de caméras mobiles. Le contexte mobile rend difficile,voire impossible, des méthodes classiques de soustraction de fond et demandent la construction et l’utilisation de modèles plus discriminants de détection et reconnaissance d’objets. Pour cela, des méthodes d’apprentissage automatique, reposant par exemple sur Adaboost ou des réseaux de neurones, seront utilisées et devront être adaptées aux contraintes non-statiques et temps réel. Pour le suivi d’objet, de nombreuses approches de ce type ont été proposées, par exemple Online Adaboost [11], des méthodes basées sur des SVM [1], Multiple Instance Learning (MIL) [2], ou les forêts aléatoires [9]. Elles sont par contre souvent évaluées sur des vidéos statiques et de courte durée (quelques secondes ou minutes), et, en général, elles demandent beaucoup de temps de calcul.
Dans le cas de vidéos plus longues dans des scènes dynamiques, les modèles doivent être appris et adaptés au fur et à mesure, car les objets à suivre peuvent changer leur apparence et forme de manière considérable, surtout avec une caméra mobile. La problématique d’adaptation ou apprentissage incrémentiel a été abordée par de nombreux travaux de recherche (par exemple [11, 1, 2, 13]), mais des difficultés subsistent, notamment la divergence du modèle de l’objet au fil du temps. Les modèles appris ainsi devront être utilisé pour (ré-)identifier des objets ou des parties de scène qui (ré-) apparaissent au cours du temps.
Dans cette thèse, des approches robustes basées apprentissage neuronal et apprentissage profond seront explorées ; ce qui n’a jamais été fait auparavant dans ce contexte. Ces méthodes ont prouvé leur puissance dans des environnements plutôt statiques et génériques (par exemple la détection et reconnaissance de visages), et les appliquer en temps réel dans un contexte dynamique à des vidéos issues de caméras mobiles représentera une vraie nouveauté par rapport à l’état de l’art du domaine.
Les méthodes développées dans cette thèse seront testées dans des conditions réelles sur des vidéos issues de caméra mobile, par exemple d’un téléphone portable ou d’un robot mobile. Une évaluation sur des bases internationales de tests permettra également la comparaison aux méthodes de l’état de l‘art.
Des applications sont multiples. Par exemple, dans le domaine de l’interaction homme-robot, un système visuel «intelligent »permettrait à un robot de se repérer dans un environnement complexe et inconnu et de reconnaître des objets et/ou des personnes avec qui il doit interagir (par exemple pour aider une personne malvoyante ou ayant un autre
handicap). L’aspect interaction homme-machine (IHM) et l’adaptation du système à l’environnement pourraient ensuite être traités à plus haut niveau, par exemple dans le contexte d’Environnements Informatiques pour l’Apprentissage Humain (EIAH) ou de Travail Collaboratif Assisté par Ordinateur (TCAO) en collaboration avec l’équipe SILEX du
laboratoire LIRIS.