Thèse de Fabien Baradel

Sujet :

Deep Learning pour la reconnaissance des humains (gestes, postures, activités)

Date de début : 15/10/2016
Date de soutenance : 29/06/2020

Encadrant : Christian Wolf
Co-direction : Julien Mille

Résumé :

Avec l’augmentation massive du contenu vidéo sur Internet et au-delà, la compréhension automatique du contenu visuel pourrait avoir un impact sur de nombreux domaines d’application différents tels que la robotique, la santé, la recherche de contenu ou le filtrage. Le but de cette thèse est de fournir des contributions méthodologiques en vision par ordinateur et apprentissage statistique pour la compréhension automatique du contenu des vidéos. Nous mettons l’accent sur les problèmes de la reconnaissance de l’action humaine à grain fin et du raisonnement visuel à partir des interactions entre objets.

Dans la première partie de ce manuscrit, nous abordons le problème de la reconnaissance fine de l’action humaine. Nous introduisons deux différents mécanismes d’attention, entrainés sur le contenu visuel à partir de la pose humaine articulée. Une première méthode est capable de porter automatiquement l’attention sur des points pré-sélectionnés importants de la vidéo, conditionnés sur des caractéristiques apprises extraites de la pose humaine articulée. Nous montrons qu’un tel mécanisme améliore les performances sur la tâche finale et fournit un bon moyen de visualiser les parties les plus discriminantes du contenu visuel. Une deuxième méthode va au-delà de la reconnaissance de l’action humaine basée sur la pose. Nous développons une méthode capable d’identifier automatiquement un nuage de points caractéristiques non structurés pour une video à l’aide d’informations contextuelles. De plus, nous introduisons un système distribué entrainé pour agréger les caractéristiques de manière récurrente et prendre des décisions de manière distribuée. Nous démontrons que nous pouvons obtenir de meilleures performances que celles illustrées précédemment, sans utiliser d’informations de pose articulée au moment de l’inférence.

Dans la deuxième partie de cette thèse, nous étudions les représentations vidéo d’un point de vue objet. Étant donné un ensemble de personnes et d’objets détectés dans la scène, nous développons une méthode qui a appris à déduire les interactions importantes des objets à travers l’espace et le temps en utilisant uniquement l’annotation au niveau vidéo. Cela permet d’identifier une interaction inter-objet importante pour une action donnée ainsi que le biais potentiel d’un ensemble de données.

Enfin, dans une troisième partie, nous allons au-delà de la tâche de classification et d’apprentissage supervisé à partir de contenus visuels, en abordant la causalité à travers les interactions, et en particulier le problème de l’apprentissage contrefactuel. Nous introduisons une nouvelle base de données, à savoir CoPhy, où, après avoir regardé une vidéo, la tâche consiste à prédire le résultat après avoir modifié la phase initiale de la vidéo. Nous développons une méthode basée sur des interactions au niveau des objets capables d’inférer les propriétés des objets sans supervision ainsi que les emplacements futurs des objets après l’intervention.

Jury :

Mr Laptev Ivan	Directeur(trice) de recherche	INRIA	Rapporteur(e)
Mr Verbeek Jakob	Chargé(e) de Recherche	Facebook AI Research	Rapporteur(e)
Mr Picard David	Professeur(e)	Ecole des Ponts ParisTech	Examinateur(trice)
Mme Larlus Diane	Chercheur	Naver Labs Europe	Rapporteur(e)
M. Mille Julien	Maître de conférence	LIFAT INSA Centre Val de Loire	Co-encadrant(e)
Mr Wolf Christian	Maître de conférence	INSA Lyon	Directeur(trice) de thèse
Mme Neverova Natalia	Chercheur	Facebook AI Research	Invité(e)
Mme Schmid Cordelia	Directeur(trice) de recherche	INRIA/Google	Invité(e)