Thèse de Arthur Aubret
Sujet :
Date de soutenance : 30/11/2021
Encadrant : Salima Hassas
Co-encadrant : Laetitia Matignon
Résumé :
En apprentissage par renforcement, un agent apprend par essais-erreurs à maximiser l’espérance des récompenses reçues suite aux actions effectuées dans son environnement. Dans un scénario multi-agents, les tâches à réaliser peuvent nécessiter que plusieurs agents coopèrent ; or, malgré de récentes avancées en apprentissage profond par renforcement, la coordination des agents reste difficile, en particulier quand le nombre d'agents augmente. La communication peut être un moyen efficace pour améliorer la coordination des agents, cependant les modèles actuels permettent de communiquer seulement les informations contenues dans les observations et considèrent des scénarios avec peu d'agents. Pour adresser ces problèmes, nous souhaitons tirer parti des récents travaux sur la motivation intrinsèque. Dans un premier temps, nous souhaitons permettre aux agents de communiquer des informations de haut-niveau, par exemple leurs intentions en plus de leurs observations, pour améliorer leur coordination. Pour cela, nous nous intéressons à l’apprentissage de la représentation de leurs compétences. Dans un second temps, notre objectif est que les agents apprennent quoi communiquer, quand et à qui.
Jury :
Mr Dutech Alain | Professeur(e) | Rapporteur(e) | |
Mr Filliat David | Professeur(e) | Rapporteur(e) | |
Mr Oudeyer Pierre-Yves | Professeur(e) | Examinateur(trice) | |
Mr Aussem Alexandre | Professeur(e) | Université Lyon 1 | Examinateur(trice) |
Mme Hassas Salima | Professeur(e) | Université Lyon 1 | Directeur(trice) de thèse |
Mme Matignon Laëtitia | Maître de conférence | Université Lyon 1 | Co-encadrant(e) |