Thèse de Loujain Liekah


Sujet :
Matching d'entités et clustering de données longitudinales multivariées: Application au sous-typage des patients

Date de soutenance : 29/09/2023

Encadrant : Mohand-Said Hacid
Co-encadrant : Haytham Elghazel
Co-direction : Fabien De Marchi

Résumé :

L’intégration des données est utilisée pour élargir les informations disponibles pour une analyse subséquente en reliant plusieurs sources. Par exemple, la combinaison d’informations sur les analyses sanguines et les évaluations cliniques des patients permet d’enrichir les données et d’obtenir des renseignements plus complets pour des applications ultérieures. La tâche principale de l’intégration des données est de reconnaître plusieurs représentations d’un même objet ou sujet du monde réel, ce qui est appelé matching d’entités (EM). La plupart des solutions EM sont basées soit sur l’apprentissage d’un classifieur binaire, soit sur le clustering d’un graphe de similarité généré à l’aide de mesures de similarité textuelle. Cependant, les données labellisées pour EM sont rares et les données du monde réel sont hétérogènes, contenant non seulement des attributs textuels, mais aussi des attributs numériques, catégoriels et booléens.

Lorsque les données intégrées se réfèrent au même groupe de personnes à différents points dans le temps, elles constituent des données longitudinales. L’analyse des données longitudinales permet de comprendre l’évolution des observations dans le temps pour un ensemble d’individus. Le clustering de données longitudinales permet d’identifier des groupes de personnes partageant des caractéristiques similaires au fil du temps. Cependant, l’application répétée des algorithmes classiques de clustering sur les données est inefficace et nécessite des efforts supplémentaires pour interpréter la signification des résultats. En outre, la plupart des algorithmes actuels de clustering longitudinal sont soit univariés, c’est-à-dire qu’ils n’analysent qu’une seule variable, soit basés sur un modèle, c’est-à-dire qu’ils sont spécifiques à certaines distributions, ce qui limite leur adaptabilité a différents ensembles de données. Bien que les méthodes de flux de données offrent des solutions potentielles pour le clustering longitudinal, elles dépendent de paramètres définis par l’utilisateur et ne se concentrent pas sur le sujet concerné.

Cette étude aborde deux défis majeurs : i. réaliser le matching d’entités pour relier des sources de données avec des types d’attributs hétérogènes sans données labellisées, et ii. clusteriser dynamiquement des données longitudinales multivariées pour identifier des patterns à différents moments de l’évaluation. La solution à ces défis est en deux volets : Tout d’abord, nous développons un framework non supervisé appelé "Deduplication over Heterogeneous Attribute Types (D-HAT)", qui réalise efficacement le matching d’entités sur des ensembles de données présentant une grande dimensionalité, des valeurs manquantes et divers types d’attributs. D-HAT produit des résultats de pointe sur différents ensembles de données de benchmark et du monde réel. Ensuite, nous développons un algorithme dynamique pour le clustering de données longitudinales multivariées. Cette approche exploite le matching d’entités pour trouver et relier des clusters similaires à différents moments de l’évaluation, ce qui permet d’identifier des patterns et des trajectoires temporelles. Notre méthode proposée permet une meilleure transparence pour les applications médicales telles que le sous-typage des patients et la modélisation de la progression des maladies. Nous validons notre approche sur la base des données réelles de l’Alzheimer’s Disease Neuroimaging Initiative (ADNI), démontrant son efficacité dans l’identification des sous-types et la détection des premiers signes de démence.

Mots-clés : intégration des données, matching d’entités, données longitudinales, apprentissage automatique non supervisé, clustering multivarié, sous-typage des patients, modélisation de la progression des maladies, maladie d’Alzheimer.


Jury :
Mme ZEITOUNI KarineProfesseur(e) Université de Versailles SaintQuentin-en-YvelinesRapporteur(e)
Mme AZZAG HaneneMaître de conférenceUniversité Paris 13 Rapporteur(e)
M. MEPHU NGUIFO EngelbertProfesseur(e)Université Clermont AuvergneExaminateur​(trice)
Mme SEBA HamidaMaître de conférenceUniversité Lyon 1Examinateur​(trice)
M. HACID Mohand-Saïd Professeur(e)Université Lyon 1Directeur(trice) de thèse
M ELGHAZEL HaythamMaître de conférenceUniversité Lyon 1Co-directeur (trice)
M. DE MARCHI Fabien Maître de conférenceUniversité Lyon 1Co-encadrant(e)