Thèse de Matthieu Rogez
Sujet :
Date de soutenance : 09/06/2015
Encadrant : Laure Tougne Rodet
Résumé :
Depuis quelques années les caméras de surveillance se multiplient dans notre quotidien. En effet, elles sont présentes un peu partout dans les villes, les supermarchés, le métro, les autoroutes, les aéroports, etc. Ce nombre important de caméras fait qu'il est impossible de mettre un opérateur devant chacune d'elles pour détecter des événements « anormaux », des intrusions par exemple.
Une solution, couramment utilisée, consiste à stocker pendant une certaine durée l'intégralité des enregistrements et à relire a posteriori la vidéo concernée lorsqu'un problème a été signalé. Cependant une telle solution manque de réactivité et n'est donc pas envisageable pour des applications en vidéosurveillance. Une alternative consiste à mettre en place des systèmes de détection et de reconnaissance automatique des objets en mouvement dans les séquences vidéo.
Cependant, la réalisation d'un tel système pose un certain nombre de difficultés : en effet, ce système doit être capable de détecter tout les objets d'intérêt (pas d'omission), et seulement ceux-ci (pas de fausses détections), tout opérant en temps réel.
L'approche classique pour la réalisation d'un tel système consiste dans un premier temps à segmenter la scène afin d'estimer les pixels de l'image qui correspondent à des objets, puis à calculer un ensemble de caractéristiques sur ces formes afin reconnaître celles qui correspondent aux objets suivis.
Contrairement à ces approches basées uniquement sur les images acquises par les caméras, cette thèse propose d'utiliser le contexte spatial et temporel de la scène observée afin d'améliorer la détection et le suivi des objets.
La prise en compte du contexte spatial de la scène a été abordée grâce aux données issues des études de pré-déploiement des caméras (positions GPS et orientations des caméras) et à l'utilisation de bases de données géographiques telle que OpenStreetMap. Ces données nous permettent en effet de construire un modèle géométrique de la scène vue par les caméras en tenant compte des obstacles fixes, tel que des bâtiments, pouvant restreindre le champ de vision de la caméra. Ce modèle permet ainsi de raisonner sur les positions et les tailles réelles des objets détectés.
Concernant la prise en compte du contexte temporel, nous utilisons le formalisme des machines à état, qui permettent de modéliser efficacement l'état actuel de chaque objet détecté ainsi que les transitions qu'il lui est possible d'effectuer. Nous pouvons ainsi adapter le traitement de chaque objet en fonction de l'état dans lequel il se trouve.
Par ailleurs, nous avons envisagé le problème des ombres, souvent segmentées à tort avec les objets les projetant, en modélisant les sources lumineuses principales de la scène. Pour le cas des scènes en extérieur, nous combinons la coordonnées GPS de la scène à l'heure courante afin de prédire la position de celui-ci au cours de la journée. Cette modélisation des ombres de la scène permet ainsi de prédire quels pixels sont susceptibles de correspondre à de l'ombre afin d'aider le processus de segmentation objet/fond.