Object Tracking and Re-identification in Multi-Camera Environments

Atif Ilyas

Résumé

The video surveillance domain shows very strong growth in recent years. But the proliferation of cameras in public or private spaces makes it extremely difficult for human operators to analyze the data produced by these systems. Many techniques for automatic analysis of the video have been proposed by researchers, and begin to be commercially available. But most of these systems consider the cameras independently one of each other. The objective of this thesis is to address the wide area surveillance, covered by multiple non-overlapping field of view cameras. One of the problems we are interested in is the objects re-identification: when an object appears in the field of a camera, the system should decide whether this object has already been observed and monitored by one camera system or it is a new object. We want to perform this task without any a priori knowledge of the cameras position relative to each other. In the literature, many algorithms exist for moving objects tracking in a video. These algorithms are sufficient to detect object trajectories and to verify that objects have a coherent motion. But these algorithms are not sufficiently robust to object occlusions, intersections, merges and splits. This drawback of current algorithms is problematic, since they form the building blocks of a multi-camera environment. Therefore, the first part of this thesis is to improve the segmentation and object tracking algorithms. At first, we propose an improvement to the foreground/background segmentation algorithms based on codebook. We also propose an evaluation methodology to objectively compare segmentation techniques, based on the analysis of the precision and recall of algorithms. Based on a test set derived from public databases, we show the good behavior of our modified algorithm. A second contribution of this thesis concerns the development of a robust and compact descriptor for moving object tracking in videos. We propose a simple 1-D appearance model, called the Vertical Feature (VF), independent of the view angle and of the apparent size of objects. This descriptor provides a good compromise between very compact color models, that lose all the spatial information of tracked object’s color, and traditional appearance models, too expensive for deformable objects. We associate a motion model of tracked objects and our descriptor, and show the superiority of a combined model approach on traditional tracking approaches, based on the mean shift or on Kalman filter. A descriptor is associated with each object tracked by a camera. Multi-camera tracking, we presents a variability of these descriptors, due to changes in lighting conditions, and also due to the technical characteristics of the cameras, which can differ from one model to the other. We are therefore interested in the problem of the cameras color calibration in order to make similar the descriptors of a same object, seen by different cameras in the system. Existing approaches estimate the Brightness Transfer Functions (BTF) by measuring the response of each camera using known objects. We compare methods based on the Mean BTF (MBTF) and on Cumulative BTF (CBTF) of their color histograms, and show the weaknesses of these approaches when some colors are not enough represented in the objects used for calibration. We propose an alternative (MCBTF) algorithm and we show its superiority over existing methods. Finally, systematic experiments are conducted on the objects re-identification problem in a multi-camera environment, which allows validating all of our proposed algorithms.

Le domaine de la vidéosurveillance a connu une très forte expansion ces dernières années. Mais la multiplication des caméras installées dans des espaces publics ou privés, rend de plus en plus difficile l’exploitation par des opérateurs humains des masses de données produites par ces systèmes. De nombreuses techniques d’analyse automatique de la vidéo ont été étudiées du point de vue de la recherche, et commencent à être commercialisées dans des solutions industrielles, pour assister les opérateurs de télésurveillance. Mais la plupart de ces systèmes considèrent les caméras d’une manière indépendante les unes des autres. L’objectif de cette thèse est de permettre d’appréhender la surveillance de zones étendues, couvertes par des caméras multiples, à champs nonrecouvrants. L’un des problèmes auxquels nous nous sommes intéressés est celui de la ré-identification d’objets : lorsqu’un objet apparaît dans le champ d’une caméra, il s’agit de déterminer si cet objet a déjà été observé et suivi par l’une des caméras du système. Nous souhaitons effectuer cette tâche sans aucune connaissance a priori du positionnement des caméras les unes par rapport aux autres. Il existe dans la littérature beaucoup d’algorithmes permettant le suivi des objets en mouvement dans une vidéo. Ces algorithmes sont suffisants pour détecter des fragments de la trajectoire et vérifier que les objets ont un mouvement cohérent. Par contre, ces algorithmes ne sont pas suffisamment robustes aux occultations, aux intersections, aux fusions et aux séparations. Cette insuffisance des algorithmes actuels pose problème, dans la mesure où ils forment les briques de base d’un suivi multi-caméras. Une première partie du travail de thèse a été donc de perfectionner les algorithmes de segmentation et de suivi de façon à les rendre plus robustes. Dans un premier temps, nous avons donc proposé une amélioration aux algorithmes de segmentation premier plan/arrière plan basés sur les dictionnaires (codebooks). Nous avons proposé une méthodologie d’évaluation afin de comparer de la manière la plus objective possible, plusieurs techniques de segmentation basées sur l’analyse de la précision et du rappel des algorithmes. En nous basant sur un jeu d’essai issu de bases de données publiques, nous montrons le bon comportement de notre algorithme modifié. Une deuxième contribution de la thèse concerne l’élaboration d’un descripteur robuste et compact pour le suivi des objets mobiles dans les vidéos. Nous proposons un modèle d’apparence simplifié, appelé caractéristique verticale (VF pour Vertical Feature), indépendant de l’angle de vue et de la taille apparente des objets. Ce descripteur offre un bon compromis entre les modèles colorimétriques très compacts, mais qui perdent toute l’organisation spatiale des couleurs des objets suivis, et les modèles d’apparence traditionnels, peu adaptés à la description d’objets déformables. Nous associons à ce descripteur un modèle de mouvement des objets suivis, et montrons la supériorité d’une approche combinant ces deux outils aux approches traditionnelles de suivi, basées sur le mean shift ou sur le filtre de Kalman. Chaque objet suivi par une caméra peut ainsi être associé à un descripteur. Dans le cadre du suivi multi-caméras, nous sommes confrontés à une certaine variabilité de ces descripteurs, en raison des changements des conditions d’éclairage, mais également en raison des caractéristiques techniques des caméras, qui peuvent être différentes d’un modèle à l’autre. Nous nous sommes donc intéressés au problème de l’étalonnage des couleurs acquises par les caméras, qui visent à rendre identiques les descripteurs d’un même objet observé par les différentes caméras du système. Les approches existantes estiment les fonctions de transfert de luminosité (BTF pour Brightness Tranfert Function) en mesurant la réponse donnée par chaque caméra à des objets connus. Nous comparons les méthodes basées sur une moyenne (MBTF) ou sur un cumul (CBTF) des histogrammes de couleur, et montrons les faiblesses de ces approches lorsque certaines couleurs sont trop peu représentées dans les objets servant à l’étalonnage. Nous proposons une alternative (MCBTF) dont nous montrons la supériorité par rapport aux méthodes existantes. Enfin, des expérimentations systématiques sont menées sur le problème de la ré-identification d’objets dans un environnement multi-caméras, qui permettent de valider l’ensemble de nos propositions.

Object Tracking and Re-identification in Multi-Camera Environments

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager