Thèse de Thi Hoa Le


Sujet :
Améliorer la qualité et l'équité des données pour les systèmes fédérés basés sur l'apprentissage : Une approche humaine de la curation de données distribuées

Date de début : 10/03/2025
Date de fin (estimée) : 10/03/2028

Encadrant : Angela Bonifati
Co-encadrant : Andrea Mauri

Résumé :

L'adoption croissante de l'apprentissage fédéré (AF) a apporté des opportunités significatives pour la prise de décision basée sur les données tout en préservant la confidentialité des données. Toutefois, le succès de l'apprentissage fédéré dépend de la qualité et de l'équité des données sous-jacentes. Les ensembles de données hétérogènes et distribués souffrent souvent d'une mauvaise qualité, d'un déséquilibre et de biais, ce qui peut nuire à la robustesse et à l'équité des solutions de soins de santé. Il est essentiel de relever ces défis pour garantir que les systèmes basés sur la FL fournissent des résultats fiables et équitables.

Le premier élément de ce travail est une caractérisation complète de la qualité, du déséquilibre et de l'hétérogénéité des données, car cela peut conduire à des inefficacités significatives et à des résultats biaisés, affectant de manière disproportionnée les populations sous-représentées ou marginalisées. Nous menons une étude empirique pour évaluer des ensembles de données distribuées provenant à la fois de cas d'utilisation spécifiques à un projet et de sources accessibles au public. Cette étude examine comment les incohérences telles que les données manquantes, sales ou erronées exacerbent les biais, en particulier lorsque ces problèmes surviennent de manière systématique ou non aléatoire. Les attributs sensibles tels que la race, le sexe ou le statut socio-économique sont analysés parallèlement aux indicateurs indirects, tels que les codes postaux, qui peuvent involontairement propager la discrimination. En utilisant des mesures de biais établies, telles que la différence de parité statistique et la différence d'égalité des chances, l'analyse fournit une compréhension nuancée des biais et de la qualité des données, établissant une base de référence pour les tâches ultérieures.

Sur cette base, le deuxième volet se concentre sur le développement de méthodes de curation de données adaptées aux systèmes FL. Les approches traditionnelles de la conservation, bien qu'efficaces, ne permettent souvent pas de traiter les erreurs complexes qui requièrent une connaissance du domaine ou une compréhension du contexte. Dans les environnements distribués, où les données résident sur plusieurs clients FL et sont généralement non indépendantes et identiquement distribuées (non IID), le défi devient encore plus prononcé. Ce travail présente des algorithmes de curation guidés par l'homme qui intègrent l'expertise du domaine dans le processus de réparation des données. Ces algorithmes adoptent un cadre d'apprentissage actif pour équilibrer le coût et la disponibilité de l'engagement d'experts du domaine avec le besoin de réparations précises. En combinant l'intuition humaine et l'intelligence artificielle, les algorithmes s'adaptent dynamiquement aux différents niveaux d'expertise et aux exigences de réparation.