Thèse de Timon Deschamps
Sujet :
Date de début : 07/11/2023
Date de fin (estimée) : 07/11/2026
Encadrant : Laetitia Matignon
Résumé :
L'objectif de la thèse est le développement de l'apprentissage continu de comportements éthiques du système, dans des limites contrôlées, intégré dans un processus de co-construction avec la rétroaction humaine pour guider l'apprentissage. Le système d'apprentissage sera composé de plusieurs agents interagissant: chaque agent est responsable de contrôler/recommander des actions en fonction des préférences morales de l'utilisateur avec lequel il interagit ; et chaque agent interagit également avec les autres agents du système (par exemple, ceux qui interagissent avec d'autres utilisateurs du système de transport). Ainsi, la thèse se concentre sur la combinaison de l'apprentissage par renforcement multi-objectifs et multi-agents (MOMARL), afin de prendre en compte les décisions d'autres agents d'apprentissage et les multiples valeurs morales (objectifs) des utilisateurs.
Très peu de travaux ont abordé à la fois le MORL et le MARL [6] et aucun travail dans le domaine de l'éthique des machines ne considère une approche multi-objectifs, multi-agents [6-7] et centrée sur l'humain [16]. La principale contribution de la thèse serait de proposer un algorithme d'apprentissage multi-objectifs multi-agents capable d'identifier des ensembles de politiques optimales, en considérant différents compromis pour les objectifs en conflit et les multiples agents, tout en opérant dans des limites spécifiées. Une approche de preuve de concept, développée dans un projet précédent [4], permet à un agent artificiel et à un utilisateur humain d'identifier conjointement des objectifs en conflit et des compromis possibles. Une première approche dans cette thèse pourrait être d'étendre ce travail pour prendre en compte plusieurs agents dans le même environnement et aborder des compromis qui pourraient impliquer plus d'un agent, en proposant des actions conjointes au lieu d'actions unilatérales. La plupart des approches de MARL [8-9] nécessitent le partage d'informations avec d'autres agents (paradigme d'apprentissage centralisé et exécution décentralisée), ce qui compromet la confidentialité. En plus des considérations éthiques "conçues", en améliorant le nombre et la qualité des compromis trouvés avec une politique conjointe, la contribution devra respecter les considérations éthiques "intégrées". Un aspect important consistera à préserver la confidentialité lors du partage de données entre les agents. Pour cette partie, l'apprentissage social intrinsèquement motivé [13-14] sera pris en compte.
Un autre aspect concerne les situations de "dilemmes", où plusieurs valeurs morales entrent en conflit et aucune décision unique ne permet de les satisfaire toutes en même temps : chaque choix entraînera des regrets. Nous soutenons que ces situations ne peuvent pas être résolues "autonomement" uniquement par des machines, du moins pas de la manière dont les humains souhaiteraient (s'attendent à ce qu'elles le soient). Ainsi, une autre contribution de la thèse sera de proposer une approche intelligible de MOMARL prenant en compte plusieurs (plus de trois) objectifs, et capable d'identifier et de résoudre des situations de dilemmes, en particulier celles nécessitant une intervention humaine. Tout d'abord, étant donné que le nombre de situations de "dilemmes" pourrait être trop élevé pour être efficacement présenté aux utilisateurs finaux, un processus guidé par l'exploration basé sur l'apprentissage par renforcement intrinsèquement motivé (par exemple, des modèles de curiosité, de progrès de l'apprentissage, ...) [10] sera étudié. Ensuite, pour permettre une présentation intelligible des alternatives aux utilisateurs, un processus de raffinement sera également étudié pour classer les dilemmes et impliquer les utilisateurs grâce à une interaction homme-machine non invasive. Nous proposons également de tirer parti des préférences humaines pour décider comment résoudre certains dilemmes. À cette fin, le système doit être capable d'utiliser la rétroaction humaine comme une récompense [11] ou d'apprendre des modèles des préférences des utilisateurs, en enquêtant sur des approches qui apprennent les préférences/profils avec peu ou pas de données a priori [12] et les adaptent ensuite grâce à une interaction homme-machine non invasive.