Thèse de Paul Lachat


Sujet :
Détecter les attaques d'inférence impliquant des données de capteurs

Date de soutenance : 12/04/2024

Encadrant : Lionel Brunie
Co-encadrant : Nadia Bennani

Résumé :

La collecte d’informations personnelles par des organisations est devenue de plus en plus important pour les interactions sociales. Néanmoins, conformément au règlement général sur la protection des données (GDPR), ces organisations doivent protéger les données collectées. Les mécanismes de contrôle d’accès (CA) sont traditionnellement utilisés pour sécuriser les systèmes d’information contre l’accès non autorisé aux données sensibles. La disponibilité accrue des données de capteurs personnels, grâce aux applications basées sur l’IoT (Internet of Things), motive de nouveaux services à offrir des connaissances sur les individus. Par conséquent, des algorithmes d’exploration de données ont été proposés pour déduire des informations personnelles à partir des données de capteurs collectées. Bien qu’ils puissent être utilisés à des fins légitimes, les attaquants peuvent exploiter ces résultats, en les combinant avec d’autres types de données et en portant atteinte à la vie privée des individus. Le contournement des mécanismes de CA via ces informations constitue donc un problème concret.

Dans cette thèse, nous abordons ce problème en analysant les requêtes que les utilisateurs adressent à une base de données de capteurs, et en identifiant le moment où ils obtiennent suffisamment d’informations pour déduire des idées grâce à des algorithmes d’exploration de données. Nous appelons ce type d’inférence « attaque par inférence impliquant des données de capteurs » (Inference Attack Involving Sensor Data (IAISD)). La détection de ces attaques renforce la protection des données des individus. Lorsque les attaquants interrogent la base de données des capteurs, l’information importante n’est pas tant la valeur exacte des points de données obtenus, mais plutôt si les informations pertinentes (par exemple, le type de données) sont obtenues conformément aux conditions de divulgation de ces algorithmes. Pour atteindre cet objectif, nous proposons trois contributions :

« Le modèle de canal d’inférence basé sur les données brutes des capteurs » (Raw sensor data based Inference ChannEl Model (RICE-M)) modélise l’historique des requêtes d’un utilisateur, qui contient des informations obtenues à partir de requêtes, ainsi que les conditions de divulgation associées à une connaissance sur un individu. RICE-M permet tout d’abord de modéliser les requêtes adressées à une base de données de capteurs sous la forme d’un ensemble d’unités de métadonnées. Ces unités sont construites à partir des paramètres de la requête (par exemple, les attributs sélectionnés), du contexte de la requête (par exemple, l’identité de l’utilisateur effectuant la requête) et des métadonnées du résultat de la requête (par exemple, le nombre de points de données). Cet ensemble constitue les métadonnées de la requête. Deuxièmement, RICE-M modélise à la fois les contraintes que les connaissances d’un utilisateur doivent satisfaire pour appliquer l’algorithme d’exploration de données et la connaissance d’un individu obtenu dans ce cas. Ces descriptions correspondent aux canaux d’inférence sur lesquels les attaquants s’appuient pour effectuer des IAISD.

La deuxième contribution de cette thèse est le « système de détection d’inférence basé sur RICE-M » (RICE-M based inference detection System (RICE-Sy)). Pour chaque utilisateur, notre système maintient un historique qui garde la trace des métadonnées des requêtes extraites des requêtes qu’ils ont émises vers une base de données de capteurs. Lorsqu’un utilisateur émet une nouvelle requête, les métadonnées correspondantes sont extraites et traitées par le système. Pour correctement prendre en compte les connaissances de l’utilisateur actuel, RICE-Sy extrait de l’historique les unités de métadonnées qui peuvent être fusionnées avec les unités nouvellement obtenues. Il détermine ensuite si ces unités satisfont les contraintes d’un canal d’inférence décrit, auquel cas une tentative d’IAISD est détectée. Dans le cas contraire, l’historique de l’utilisateur est mis à jour avec les nouvelles métadonnées de la requête. Pour filtrer efficacement les unités de l’historique, nous dotons RICE-Sy de deux optimisations conceptuelles : le « filtrage basé sur les requêtes » (Query Based Filtering (QBF)) et le « filtrage des ensembles de recherche » (Search Set Filtering (SSF)).

La dernière contribution de la thèse est un générateur de séquences de métadonnées de requêtes dont l’objectif est d’évaluer la performance de RICE-Sy. Pour produire des séquences réalistes, nous identifions les comportements de requêtage en analysant les stratégies d’attaque par inférence et la nature des bases de données de capteurs. Sur la base de ces comportements, nous définissons trois archétypes : l’attaquant non récurrent, l’employé honnête et l’attaquant trompeur. Nous démontrons la validité des ensembles de données générés en fournissant des visualisations de séquences pour chaque archétype. Grâce au résultat du générateur, nous évaluons RICE-Sy en termes de temps de détection par requête et de taille de l’historique. Les résultats obtenus valident l’efficacité de QBF et SSF, et démontrent la faisabilité de la détection des IASDs au moment de la requête à l’aide de RICE-Sy.


Jury :
M. Cuppens FredericProfesseur(e)Polytechnique MontrealRapporteur(e)
M. Felfernig Alexander FELFERNIG, Professeur des Universités,, RapporteurProfesseur(e)Graz University of TechnologyRapporteur(e)
M. Döller MarioProfesseur(e)Kufstein University of Applied ScienceExaminateur​(trice)
M. Granitzer MichäelProfesseur(e)Université de PassauExaminateur​(trice)
Mme Sassi SalmaMaître de conférenceUniversité de JendoubaExaminateur​(trice)
M. Brunie LionelProfesseur(e)LIRIS INSA LyonDirecteur(trice) de thèse
M. Kosch HaraldProfesseur(e)Université de PassauDirecteur(trice) de thèse
Mme Bennani NadiaMaître de conférenceLIRIS INSA LyonExaminateur​(trice)