Thèse de Abdelhamid Gaddari


Sujet :
Apprentissage Multi-vues pour l'extraction des connaissances à partir des parcours patients

Date de début : 01/09/2023
Date de fin (estimée) : 01/09/2026

Encadrant : Mohand-Said Hacid
Co-encadrant : Haytham Elghazel

Résumé :

Cegedim propose à ses clients, assureurs complémentaires, une offre pour la prise en charge de tout ou partie de leurs activités de gestion de l’ensemble des prestations de santé de leurs adhérents. Cegedim souhaite étendre cette offre en valorisant la notion de « parcours de soins » de chaque adhérent, afin d’enrichir la relation de chaque assureur / délégataire de gestion avec ses clients, et proposer en conséquence des services plus personnalisés. Dans cette optique , CEGEDIM a lancé en 2018 un chantier visant à valoriser - via les outils de Machine Learning - le capital de données dont il dispose à l’occasion de la liquidation des prestations. L’objectif du programme scientifique derrière ce projet de thèse est de développer la meilleure adéquation entre l’aspect fondamental, par de nouveaux algorithmes d’apprentissage automatique et l’aspect applicatif qui s’inscrit dans le cœur de la démarche d’innovation de CEGEDIM lui permettant de mettre en place des solutions innovantes à des problématiques complexes et d’actualité.

Dans ce contexte, le doctorant travaillera sur l’exploitation des premiers résultats des travaux menés chez CEGEDIM sur le clustering des clients (en fonction de leurs consommations de soins) afin de développer des outils de fouille de données à base de modèles d’apprentissage automatique pour l’analyse des parcours de soins, dans chaque cluster de patients, à partir de grandes masses de données complexes et hétérogènes. La problématique sous-jacente dans cette partie suscite plusieurs niveaux de complexité en apprentissage automatique. L’objectif visé étant donc la mise en place d’un système de d’apprentissage des parcours de soins capable de mettre en évidence des corrélations significatives entre les spécificités individuelles de chaque parcours (DMT, traitements et actes médicaux et extra-médicaux, prix des soins, durées des soins, âge, sexe, etc.) : (1) pour identifier le profil de parcours dont il se rapproche le plus, (2) pour prévoir quelle sera sa prochaine DMT (traitement) la plus probable, et d’en estimer les caractéristiques principales (type, durée, prix, etc.)  et (3) pour déceler des anomalies dans ces parcours dans le but d’identifier des comportements atypiques. Les données descriptives des parcours de soins étant donc hétérogènes et caractérisées par des espaces de description différents (en termes de dimension et de contenu), ce qui place l’apprentissage pour la l’analyse de ces parcours dans un contexte multi–vues.

Dans ce contexte multi-vues, l’apprentissage aura pour but d’explorer ensemble les différentes vues de manière à ce que les informations complémentaires qu’elles contiennent soient corrélées pour optimiser les résultats obtenus et que l’analyse et la prédiction soient efficaces. Plutôt que de concaténer les vues entre elles pour les transformer en une vue unique et n’optimiser qu’une seule fonction d’apprentissage, les approches multi-vues optimisent une fonction statistique par vue disponible de manière jointe afin d’améliorer les performances en généralisation. La méthodologie d’apprentissage multi-vues développée dans cette thèse permettra d’exploiter au mieux les diverses sources de données pour obtenir des prises de décision plus pertinentes.