Thèse de Devashish Lohani

Sujet :

Apprentissage profond non supervisé pour les représentations spatio-temporelles de vidéos : application à la vidéosurveillance

Date de début : 01/10/2019
Date de soutenance : 03/04/2023

Encadrant : Laure Tougne Rodet
Co-encadrant : Carlos Crispim-Junior
Co-tutelle : Lionel Robinault

Résumé :

Au cours des deux dernières décennies, nous avons assisté à une augmentation massive des caméras de surveillance dans notre environnement. L'une des utilisations les plus importantes de ces caméras est de détecter les comportements suspects ou anormaux. C'est une tâche extrêmement chronophage pour les professionnels de surveiller manuellement la vidéo. Par conséquent, l'analyse vidéo automatique est essentielle. Les systèmes traditionnels ont du mal à généraliser à des événements anormaux qu'ils n'ont jamais vus auparavant. Nous avons constaté d'énormes progrès dans les systèmes de vidéosurveillance basés sur l'apprentissage en profondeur. Ces systèmes dérivent des caractéristiques représentatives des données elles-mêmes. C'est pourquoi, dans cette thèse, nous explorons des méthodes basées sur l'apprentissage profond. Cependant, la majorité des travaux nécessitent un grand volume de données étiquetées. Mais comme les événements anormaux sont rares, il est très difficile d'avoir des données étiquetées. Nous avons donc besoin d'approches qui peuvent fonctionner directement sur les vidéos, sans nécessiter d'annotations. Puisque ces événements se produisent dans des vidéos, l'approche doit donc être capable d'apprendre des représentations spatio-temporelles pour différencier les événements anormaux des événements normaux.

Ainsi, dans cette thèse, nous visons à apprendre des représentations spatio-temporelles à partir de vidéos non étiquetées pour détecter des événements anormaux. Plus précisément, nous abordons la tâche de détection d'anomalies vidéo et la détection d'intrusion périmétrique. Nous avons proposé des définitions mathématiques qui ont un impact direct sur l'évaluation, donc nous avons également proposé de nouveaux schémas d'évaluation adaptés. Concernant l'apprentissage des représentations spatio-temporelles sans annotations, nous avons deux approches. Dans la première approche, nous avons conçu un réseau d'auto-encodeur convolutif 3D. L'idée principale est d'apprendre la représentation normale à partir de données d'apprentissage sans intrusions (ou anomalies) et de détecter les intrusions (ou anomalies) lorsqu'elles s'écartent de la normalité apprise. Il a été utilisé pour la tâche de détection d'intrusion périmétrique. Pour faire face à l'évolution de la dynamique de la scène, nous avons introduit une approche de seuillage adaptatif. Nos nombreuses expérimentations ont montré la viabilité de notre approche. Pour améliorer encore la compréhension spatio-temporelle de la normalité, nous avons introduit notre seconde approche. Il s'agissait d'un cadre qui exploite l'apprentissage non supervisé et auto-supervisé dans un encodeur automatique. Nous avons proposé plusieurs tâches bien conçues (non supervisées et auto-supervisées) qui sont exécutées dans un seul auto-encodeur. Cette méthode est également entraînée de bout en bout et conjointement, où les données d'entraînement sont sans anomalies ni intrusions. Pour la détection d'anomalies (ou d'intrusions), chacune des tâches fournit un score d'anomalie et le score combiné est utilisé pour la détection finale. Cette approche est générique et a été appliquée aux deux tâches. Nous avons obtenu des résultats au-delà de l'état de l'art pour les deux tâches, dans les principaux ensembles de données publiques.

Mot clés : apprentissage profond, vision par ordinateur, apprentissage non supervisé, apprentissage auto-supervisé, vidéosurveillance, détection d’anomalie vidéo, détection d’intrusion périmétrique

Jury :

M. Nicolas THOME	Professeur(e)	CNAM Paris	Rapporteur(e)
M. Thierry CHATEAU	Professeur(e)	Université Clermont Ferrand II	Rapporteur(e)
M. François BRéMOND	Directeur(trice) de recherche	Inria Sophia Antipolis	Président(e)
Mme Jenny BENOIS-PINEAU	Professeur(e)	Université de Bordeaux	Examinateur(trice)
Mme Laure Tougne Rodet	Professeur(e)	Université Lyon 2	Directeur(trice) de thèse
M. Carlos CRISPIM-JUNIOR	Maître de conférence	Université Lyon 2	Co-encadrant(e)
M. Lionel ROBINAULT	Docteur	Foxstream	Co-encadrant(e)