Thèse de Moez Baccouche


Sujet :
Détection automatique d'objets visuels déformables et classification automatique de séquences vidéo

Date de soutenance :

Encadrant : Atilla Baskurt
Co-direction : Franck Mamalet

Résumé :

A l'heure actuelle, l'indexation des contenus multimédia repose sur des descriptions globales, construites à partir de signatures numériques qui visent à résumer le contenu de l'image en termes de répartition globale de l'intensité lumineuse, de la couleur ou de la texture. Ces signatures descriptives, servant d'index, sont composées de mesures bas-niveau, proches du signal et particulièrement sensibles au bruit. Si ces descripteurs sont utiles pour comparer entre eux les documents multimédia, ils sont en revanche incapables de décrire leur contenu d'un point de vue plus sémantique et sont difficiles à manipuler pour un utilisateur à la recherche d'un document précis. Or, les moteurs de recherche reposant sur des requêtes langagières nécessitent la détection d'indices de haut niveau, plus proches de la notion d'objets visuels comme les visages, les corps humains, les bâtiments pour ne citer que ces exemples. Ils nécessitent aussi une catégorisation de segments vidéo, une reconnaissance automatique de leur contenu: journaux télévisés, publicités, matchs de football, etc...
Dans le cadre de cette thèse, nous nous intéresserons à la catégorisation sémantique et automatique de segments vidéo préalablement obtenus à l'issue de la détection automatique de plans et d'une macro-segmentation reposant sur la détection d'inter-programmes. Nous nous focaliserons d'une part sur la détection et le suivi d'objets visuels déformables et d'autre part sur la modélisation de segments vidéo dans leur ensemble. L'intérêt sera porté, dans un premier temps, sur le développement de techniques nouvelles visant à modéliser et à localiser des objets d'intérêt à partir de leur seule apparence visuelle, sans modélisation a priori ou filtrage heuristique mais par apprentissage automatique, directement à partir d'exemples extraits dans les images. Ces travaux feront suite à des travaux de France Télécom R&D portant sur la détection d'objets fixes (dans les images), reposant sur des modèles neuronaux. Nous nous focaliserons sur la détection et la reconnaissance d'objets déformables, par une prise en compte conjointe de la texture lumineuse et du mouvement, dans un cadre vidéo. Un exemple d'application pourra être la détection et le suivi d'objets mobiles, comme des visages dans des journaux télévisés ou des joueurs, dans des vidéos de sport. Dans un second temps, nous nous intéresserons à la reconnaissance automatique du thème d'un segment vidéo. Pour cela, nous poursuivrons des travaux de recherche déjà initiés, visant à la catégorisation de collections d'image fixes en les étendant au cas de la vidéo. Dans ce cas, chaque image de la vidéo sera traitée dans sa globalité, une signature, intégrant des mesures relatives à la couleur, la texture et le mouvement permettant de résumer son contenu. Il s'agira de développer des méthodes permettant de caractériser le segment vidéo dans son ensemble. Des techniques robustes d'apprentissage statistique et neuronal seront mises en œuvre pour catégoriser le contenu en fonction d'une base d'exemple définissant les concepts.