Thèse de Yacine Belal
Sujet :
Date de début : 01/01/2022
Date de fin (estimée) : 01/01/2025
Encadrant : Sonia Ben Mokhtar
Résumé :
De plus en plus de fournisseurs de services (e.g., systèmes de recommandation, moteurs de recherche,
systèmes géo-localisés) font appel à des techniques d’apprentissage statistique afin d’offrir des
réponses personnalisées à leurs utilisateurs. Ces techniques nécessitent souvent que les données
collectées par les participants soient envoyées à un serveur central qui les utilise pour entraîner des
modèles (e.g., classifieurs, modèles prédictifs). Hors les données collectées peuvent révéler des
informations sensibles sur les usagers (e.g., données de santé, données de mobilité, données d’achats
en ligne). Par ailleurs, les données personnelles collectées par les fournisseurs de services leur servent
à générer des revenus publicitaires sans qu’aucun bénéfice financier ne soit retourné aux propriétaires
de ces données.
Pour faire face à ces deux problèmes nous envisageons dans le cadre de cette thèse, la combinaison de
deux mécanismes: l’apprentissage fédéré et les places de marché décentralisées.
L’apprentissage fédéré [1,2] est une technique d’apprentissage dans laquelle ce sont les modèles
d’apprentissage qui se déplacent (entre un serveur central et les dispositifs mobiles des usagers) alors
que les données personnelles restent au plus près de ces derniers (e.g., sur leur téléphone ou leur
ordinateur personnel). L'agrégation des modèles provenant de plusieurs usagers s’effectue ensuite sur
le serveur central.
Par ailleurs, les places de marché décentralisées basées sur la technologie Blockchain permettent à des
usagers de monétiser des ressources dont ils disposent telles que des ressources de calcul, de stockage
ou des jeux de données.
La combinaison de l’apprentissage fédéré et des places de marché décentralisées permettent donc
d’envisager un paradigme qui révolutionnerait la gestion des données personnelles. En effet, une telle
solution offrirait aux usagers la possibilité de monétiser l’usage de leurs données tout en préservant
leur confidentialité.
Atteindre cet objectif nécessite néanmoins de résoudre de nombreux défis en termes de sécurité et de
résilience. (1) quelle confiance pouvons-nous avoir dans le serveur central responsable d'agréer les
modèles issus de l’apprentissage fédéré ? et (2) quelle confiance pouvons-nous avoir dans les modèles
envoyés par les dispositifs des usagers ?
En effet, plusieurs études ont démontré que des attaques effectuées par un serveur malicieux ou par
des usagers malicieux peuvent faire diverger le processus d’apprentissage [3,4]. Par ailleurs, plusieurs
travaux ont pointé du doigt les risques de fuite de données à partir des données d’apprentissage
partagés par les usagers.
L’objectif de cette thèse est donc d’étudier la robustesse des algorithmes d’apprentissage fédéré
dans le cadre des places de marchés décentralisées.
Les étapes de cette thèse sont donc les suivants :
• Etude bibliographique autour de deux aspects suivants :
o Etat de l’art sur les places de marchés décentralisées basées sur la technologie Blockchain.
o Etat de l’art sur la robustesse des techniques d’apprentissage fédéré avec identification
des vecteurs d’attaques possibles.
• Conception d’un algorithme d’apprentissage fédéré décentralisé au-dessus d’une place de
marché décentralisée.
• Implémentation d’un ensemble d’attaques permettant d’évaluer la robustesse de l’algorithme
d’apprentissage fédéré décentralisé.
• Conception et évaluation de mécanismes de résilience.
Références bibliographiques:
[1] Jakub Konecný, H. Brendan McMahan, Daniel Ramage, and Peter Richtárik. 2016. Federated
optimization: Distributed machine learning for on-device intelligence. CoRR abs/1610.02527 (2016).
arxiv:1610.02527 http://arxiv.org/abs/1610. 02527
[2] Yang, Q., Liu, Y., Chen, T., & Tong, Y. (2019). Federated machine learning: Concept and applications.
ACM Transactions on Intelligent Systems and Technology (TIST), 10(2), 1-19.
[3] Bhagoji, A. N., Chakraborty, S., Mittal, P., & Calo, S. (2019, May). Analyzing federated learning through
an adversarial lens. In International Conference on Machine Learning (pp. 634-643). PMLR.
[4] Bagdasaryan, E., Veit, A., Hua, Y., Estrin, D., & Shmatikov, V. (2020, June). How to backdoor federated
learning. In International Conference on Artificial Intelligence and Statistics (pp. 2938-2948). PMLR.