Thèse de Lucas Foulon


Sujet :
Détection d'anomalies dans les flux de données par structure d'indexation et approximation. Application à l'analyse en continu des flux de messages du système d'information de la SNCF

Résumé :

Dans cette thèse, nous proposons des méthodes de calcul approchées d'un score d'anomalie, pouvant être mises en oeuvre sur des flux de données pour détecter des portions anormales. La difficulté du problème est de deux ordres. D'une part, la haute dimensionnalité des objets manipulés pour décrire les séries temporelles extraites d'un flux brut, et d'autre part la nécessité de limiter le coût de détection afin de pouvoir la réaliser en continu au fil du flux. Concernant le premier aspect du problème, notre étude bibliographique a permis de sélectionner un score de détection d'anomalie proposé récemment, le score CFOF, qui est le seul pour lequel il existe des garanties formelles quant à son adéquation pour les données en haute dimensionnalité. Nos contributions ont alors porté sur la proposition de deux méthodes d'approximation du score CFOF pour permettre son usage en continu sur des flux. La première est une approche combinant élagage et approximation lors du parcours des voisinages dans l'espace de description des objets. Notre second apport est une approximation par agrégation de scores obtenus sur des sous-espaces, qui complète la première contribution et se combine avec elle. Nous avons montré sur une collection de jeux de données, utilisés comme cadre d'évaluation de référence dans le domaine, que nos méthodes permettaient des gains importants en temps de calcul, tout en fournissant des approximations qui préservent la qualité des détections. Enfin, nous présentons également l'application de ces approches au sein du système d'information de la SNCF dans lequel de nombreux flux sont collectés en temps réel, transformés et rediffusés. Dans ce contexte, nous avons étendu la supervision de bout-en-bout existante par la mise en oeuvre d'un outil d'aide à la détection d'anomalies sur le flux de messages entrant d'une des principales plateformes de traitement.


Encadrant : Serge Fenet
Co-direction : Christophe Rigotti

Date de soutenance : vendredi, 16 octobre, 2020

Jury :
Mr Cournier AlainProfesseur(e)Université de Picardie Jules Verne, AmiensRapporteur(e)
Mr Charnoy ThierryProfesseur(e)Université Paris 13Rapporteur(e)
Mme Calabretto SylvieProfesseur(e)INSA LyonExaminateur​(trice)
Mr Sturm PeterDirecteur(trice) de rechercheINRIA Grenoble Rhône-AlpesExaminateur​(trice)
Mr Rigotti ChristopheMaître de conférenceINSA LyonDirecteur(trice) de thèse
Mr Fenet SergeMaître de conférenceUniversité Claude Bernard Lyon 1Examinateur​(trice)
Mme Fromont ElisaProfesseur(e)Université de Rennes 1Examinateur​(trice)