Thèse de Emre Dogan

Sujet :

Estimation de pose humaine et reconnaissance d’action par un système multi-robots

Date de début :
Date de soutenance : 07/07/2017

Encadrant : Atilla Baskurt
Co-encadrant : Christian Wolf

Résumé :

Cette the?se s’inte?resse a? deux proble?matiques lie?es et comple?mentaires, a? savoir l’estimation de la posture humaine et la reconnaissance des activite?s humaines. Il s’agit d’e?tapes importantes dans de nombreuses applications, tels que les interfaces informatiques humaines, les soins me?dicaux, la robotique, la surveil- lance et la se?curite?, etc. Malgre? les efforts continus dans ce domaine, ces proble?mes ne sont toujours pas re?solus, en particulier dans des environnements non-coope?ratifs. L’estimation de la posture et la re- connaissance d’activite?s posent de nombreux de?fis, comme les occultations , les variations de points de vues, de morphologies humaines et d’apparences physiques, les fonds complexes, la nature articule?e du corps humain et la diversite? des comportements des personnes. L’usage de la profondeur permet de ge?rer les proble?mes lie?s a? l’arrie?re-plan et a? l’apparence. En revanche, son application est limite?e a? des faibles distances entre capteurs et objets d’inte?re?t. En conse?quence, ces types de me?thodes sont peu adapte?es a? des sce?narios non coope?ratifs. Plus pre?cise?ment, nous avons envisage? des sce?narios de reconnaissance d’actions ou? la position du capteur visuel n’est pas fixe?e, et qui ne?cessitent une me?thode invariante au point de vue.
Dans la premie?re partie, nous nous sommes concentre?s sur la reconnaissance d’actions complexes dans des vide?os. Nous avons explore? plusieurs me?thodologies et avons introduit une repre?sentation spatio-temporelle en 3D, qui de?crit une se?quence vide?o de manie?re invariante au point de vue. Plus pre?cise?ment, nous avons caracte?rise? le mouvement de la personne pour une dure?e limite?e en utilisant un capteur de profondeur et nous l’avons encode? de manie?re compacte pour repre?senter l’activite? effectue?e. Un descripteur de caracte?ristiques en 3D a ensuite e?te? utilise? pour construire un dictionnaire, qui regroupe des caracte?ristiques communes. Les activite?s sont reconnue?es a? l’aide d’une approche de type “bag-of- words”.
Pour la deuxie?me partie, notre objectif e?tait l’estimation de posture articule?e, une e?tape interme?diaire fre?quemment utilise?e pour la reconnaissance d’activite?s. Notre motivation e?tait d’incorporer des infor- mations obtenues a? partir de plusieurs des vues, et de les fusionner. Nous avons propose? une extension du mode?le de me?lange de parties a? une gestion de plusieurs vues. Nous avons de?montre? que les contraintes ge?ome?triques et de cohe?sion d’apparence sont particulie?rement efficaces pour renforcer la cohe?rence en- tre les points de vue. Par ailleurs, notre approche est capable de ge?rer les auto-occultations et d’ame?liorer la robustesse.