Thèse de Romin Durand


Sujet :
Conception d'un data lake pour les fichier logs et leur inférence interprétable

Date de début : 01/03/2023
Date de fin (estimée) : 01/03/2026

Encadrant : Angela Bonifati

Résumé :
De nos jours, les entreprises utilisent de plus en plus de centres de données, en raison de la diffusion du paradigme du cloud computing. 
Les centres de données génèrent une énorme quantité de journaux d'événements, et la recherche a tendance à exploiter ces données pour extraire des informations utiles sur les événements dangereux dans les journaux.

Tout d'abord, nous voulons concevoir un lac de données pour toutes sortes de journaux d'événements. Le premier objectif consiste à trouver des similitudes de la sémantique des champs de valeur dans les journaux, quel que soit le type de journal (Windows, Linux, Apache,..). 
La manière d'extraire les données du data lake doit être générique, quelle que soit l'utilisation des données par la suite. D'autres projets de l'entreprise bénéficieront de la conception de ce lac de données.

Ensuite, nous utiliserons le lac de données en extrayant des données pour les processus d'inférence. Les données seront normalisées car il existe différents formats de données et entrées de données. 
Ensuite, des métadonnées seront nécessaires pour savoir ce qui est unifié et ce qui ne l'est pas, et comment l'unification a lieu. L'idée est d'extraire des modèles de comportements normaux et malveillants grâce à un apprentissage supervisé et non supervisé. 
En conséquence, nous pourrons construire des graphiques de l'état de notre système pour expliquer à l'administrateur ce qui se passe et faire des prédictions.

Enfin, nous prévoyons de réinjecter les résultats des processus d'inférence dans le lac de données pour améliorer la "sagesse du lac de données". 
Cet aspect est également nouveau car il pourrait y avoir des informations dans les résultats qui sont pertinentes pour la normalisation des journaux. 
Les résultats produits seront liés aux jeux de données d'entrée, les rendront persistants sans redondance et les réutiliseront par la suite.