Thèse de Devashish Lohani


Sujet :
Apprentissage profond non supervisé pour les représentations spatio-temporelles de vidéos : application à la vidéosurveillance

Date de soutenance : 03/04/2023

Encadrant : Laure Tougne Rodet
Co-encadrant : Carlos Crispim-Junior
Co-tutelle : Lionel Robinault

Résumé :

Au cours des deux dernières décennies, nous avons assisté à une augmentation massive des caméras de surveillance dans notre environnement. L'une des utilisations les plus importantes de ces caméras est de détecter les comportements suspects ou anormaux. C'est une tâche extrêmement chronophage pour les professionnels de surveiller manuellement la vidéo. Par conséquent, l'analyse vidéo automatique est essentielle. Les systèmes traditionnels ont du mal à généraliser à des événements anormaux qu'ils n'ont jamais vus auparavant. Nous avons constaté d'énormes progrès dans les systèmes de vidéosurveillance basés sur l'apprentissage en profondeur. Ces systèmes dérivent des caractéristiques représentatives des données elles-mêmes. C'est pourquoi, dans cette thèse, nous explorons des méthodes basées sur l'apprentissage profond. Cependant, la majorité des travaux nécessitent un grand volume de données étiquetées. Mais comme les événements anormaux sont rares, il est très difficile d'avoir des données étiquetées. Nous avons donc besoin d'approches qui peuvent fonctionner directement sur les vidéos, sans nécessiter d'annotations. Puisque ces événements se produisent dans des vidéos, l'approche doit donc être capable d'apprendre des représentations spatio-temporelles pour différencier les événements anormaux des événements normaux.

Ainsi, dans cette thèse, nous visons à apprendre des représentations spatio-temporelles à partir de vidéos non étiquetées pour détecter des événements anormaux. Plus précisément, nous abordons la tâche de détection d'anomalies vidéo et la détection d'intrusion périmétrique. Nous avons proposé des définitions mathématiques qui ont un impact direct sur l'évaluation, donc nous avons également proposé de nouveaux schémas d'évaluation adaptés. Concernant l'apprentissage des représentations spatio-temporelles sans annotations, nous avons deux approches. Dans la première approche, nous avons conçu un réseau d'auto-encodeur convolutif 3D. L'idée principale est d'apprendre la représentation normale à partir de données d'apprentissage sans intrusions (ou anomalies) et de détecter les intrusions (ou anomalies) lorsqu'elles s'écartent de la normalité apprise. Il a été utilisé pour la tâche de détection d'intrusion périmétrique. Pour faire face à l'évolution de la dynamique de la scène, nous avons introduit une approche de seuillage adaptatif. Nos nombreuses expérimentations ont montré la viabilité de notre approche. Pour améliorer encore la compréhension spatio-temporelle de la normalité, nous avons introduit notre seconde approche. Il s'agissait d'un cadre qui exploite l'apprentissage non supervisé et auto-supervisé dans un encodeur automatique. Nous avons proposé plusieurs tâches bien conçues (non supervisées et auto-supervisées) qui sont exécutées dans un seul auto-encodeur. Cette méthode est également entraînée de bout en bout et conjointement, où les données d'entraînement sont sans anomalies ni intrusions. Pour la détection d'anomalies (ou d'intrusions), chacune des tâches fournit un score d'anomalie et le score combiné est utilisé pour la détection finale. Cette approche est générique et a été appliquée aux deux tâches. Nous avons obtenu des résultats au-delà de l'état de l'art pour les deux tâches, dans les principaux ensembles de données publiques.

Mot clés : apprentissage profond, vision par ordinateur, apprentissage non supervisé, apprentissage auto-supervisé, vidéosurveillance, détection d’anomalie vidéo, détection d’intrusion périmétrique


Jury :
M. Nicolas THOMEProfesseur(e)CNAM ParisRapporteur(e)
M. Thierry CHATEAUProfesseur(e)Université Clermont Ferrand IIRapporteur(e)
M. François BRéMONDDirecteur(trice) de rechercheInria Sophia AntipolisPrésident(e)
Mme Jenny BENOIS-PINEAUProfesseur(e)Université de BordeauxExaminateur​(trice)
Mme Laure Tougne RodetProfesseur(e)Université Lyon 2Directeur(trice) de thèse
M. Carlos CRISPIM-JUNIORMaître de conférenceUniversité Lyon 2Co-encadrant(e)
M. Lionel ROBINAULTDocteurFoxstreamCo-encadrant(e)