Thèse de Arthur Aubret


Sujet :
Apprentissage profond par renforcement de compétences pour la coordination multi-agents

Résumé :

En apprentissage par renforcement, un agent apprend par essais-erreurs à maximiser l’espérance des récompenses reçues suite aux actions effectuées dans son environnement. Dans un scénario multi-agents, les tâches à réaliser peuvent nécessiter que plusieurs agents coopèrent ; or, malgré de récentes avancées en apprentissage profond par renforcement, la coordination des agents reste difficile, en particulier quand le nombre d'agents augmente. La communication peut être un moyen efficace pour améliorer la coordination des agents, cependant les modèles actuels permettent de communiquer seulement les informations contenues dans les observations et considèrent des scénarios avec peu d'agents. Pour adresser ces problèmes, nous souhaitons tirer parti des récents travaux sur la motivation intrinsèque. Dans un premier temps, nous souhaitons permettre aux agents de communiquer des informations de haut-niveau, par exemple leurs intentions en plus de leurs observations, pour améliorer leur coordination. Pour cela, nous nous intéressons à l’apprentissage de la représentation de leurs compétences. Dans un second temps, notre objectif est que les agents apprennent quoi communiquer, quand et à qui.


Encadrant : Salima Hassas
Co-encadrant : Laetitia Matignon