Thèse de James Sudlow


Sujet :
Confidentialité et équité dans l'apprentissage fédéré pour la santé numérique

Date de début : 03/11/2025
Date de fin (estimée) : 03/11/2028

Encadrant : Sara Bouchenak

Résumé :

L'apprentissage fédéré (FL) est un paradigme prometteur qui gagne du terrain dans le contexte de l'apprentissage automatique préservant la confidentialité pour les systèmes informatiques de pointe. Grâce au FL, plusieurs propriétaires de données appelés clients (par exemple, des organisations dans le FL intersilo) peuvent collaborer pour former un modèle à partir de leurs données privées, sans avoir à envoyer leurs données brutes à des prestataires de services externes. Le FL a été rapidement adopté dans plusieurs applications florissantes telles que la santé numérique [1], qui génère le plus grand volume de données au monde [2]. Dans les systèmes de santé, les problèmes de confidentialité et de partialité sont particulièrement importants.
Bien que le FL constitue un premier pas vers la confidentialité en conservant les données au niveau local pour chaque client, cela n'est pas suffisant car les paramètres du modèle partagés par le FL sont vulnérables aux attaques contre la confidentialité [3], comme le montre une série de publications récentes [4]. 

Il est donc nécessaire de concevoir de nouveaux protocoles FL qui soient résistants à ce type d'attaques contre la vie privée. En outre, les clients FL peuvent disposer de données très hétérogènes et déséquilibrées, ce qui peut entraîner un modèle FL injuste, avec des disparités entre les groupes socio-économiques et démographiques [5][6]. Des études récentes montrent que l'utilisation de l'IA peut exacerber les disparités entre les groupes et que le FL peut être un vecteur de propagation des biais entre différents clients FL. Dans ce contexte, des travaux récents publiés dans NDSS [7] et AAAI [8] montrent que l'équité et la confidentialité sont en concurrence ; les traiter indépendamment, comme c'est généralement le cas, peut avoir des effets secondaires négatifs l'un sur l'autre.
Il est donc nécessaire d'adopter une nouvelle approche multi-objectifs pour garantir l'équité du FL et la protection contre les menaces à la confidentialité. Cela est particulièrement difficile dans le cadre du FL, où aucune connaissance globale des informations statistiques sur l'ensemble des données hétérogènes n'est disponible, alors que cette connaissance est nécessaire dans les techniques classiques de pointe. Ce projet relève ce défi et vise à traiter avec précision les questions soulevées à l'intersection de la confidentialité et de l'équité des modèles FL, grâce à : (i) de nouveaux protocoles FL distribués ; (ii) une approche multi-objectifs tenant compte des aspects de confidentialité, d'équité et d'utilité, ces objectifs étant antagonistes ; (iii) l'application de ces techniques à des cas d'utilisation de la santé numérique basés sur le FL.