Thèse de Quentin Gallouedec


Sujet :
Apprentissage par renforcement profond pour des tâches robotiques à stratégie d'exploration complexe

Date de soutenance : 26/03/2024

Encadrant : Emmanuel Dellandréa

Résumé :

Les algorithmes d'apprentissage par renforcement de l'état de l'art reposent sur la disponibilité d'un signal de récompense qui doit être suffisamment informatif pour converger vers une politique d'action optimale. Ces algorithmes perdent de leur efficacité lorsque ce signal est bruité ou éparse, ce qui est souvent le cas pour des tâches robotiques. Pour résoudre ce problème, l'agent doit adopter une stratégie d'exploration efficace qui ne repose pas uniquement sur l'obtention d'une récompense à partir de l'environnement.

La motivation intrinsèque a largement été étudiée dans la littérature et a permis d'améliorer significativement la performance de ces algorithmes dans de nombreux environnements, particulièrement dans le cas d'exploration complexe. Néanmoins, les algorithmes basés sur la motivatin intrinsèque peuvent échouer à résoudre des tâches d'exploration complexe qui peuvent pourtant être résolues facilement par des humains (par exemple le jeu Montezuma Revenge). La cause de ces échecs est due à deux faiblesses importantes : (1) le détachement : l'agent pert la trace de régions non explorées en raison de l'épuisement de la récompense intrinsèque pour des régions intermédiaires, et (2) le déraillement : l'agent is incapable de retourner dans des états précédemment visités. Ainsi, un nouveau paradigme a émergé consistant à entrainer un agent à retourner dans certains états, et à explorer à partir de ces états. Ce nouveau paradigme est le premier à permettre d'obtenir une performance supérieure à celle de l'humain pour des jeux tels que Montezuma revenge ou encore Pitfall.

Néanmoins, cette approche repose sur un partitionnement de l'espace d'observation en cellules. Les buts sont ensuite sélectionnés en fonction du nombre de visiste de chaque cellule. La manière de partitionner l'espace est un point critique, et conditionne grandement la qualité des résultats. Ce partitionnement peut même rendre l'algorithme complètement inefficace dans le cas d'environnements générés de manière procédurale (PGE). Nous pensons donc que cette méthode n'est adaptée à des espaces de grande dimension, tel qu'un espace d'observation basé sur des pixels d'images. Cependant, les travaux sur la motivation intrinsèque ont exploré de nombreuses possibilités de calculer une récompense intrinsèque dans des espaces continus et de grande dimension.

Ainsi, dans cette thèse, nous proposons de tirer partie du meilleur de ces deux approches en proposant un algorithme basé sur le paradigme Go-Explore pour lequel la stratégie de sélection des buts sera adaptée à des espaces d'états continus et de grande dimension.


Jury :
M. Allibert GuillaumeProfesseur(e)Université Côte d'AzurRapporteur(e)
M. Honeine PaulProfesseur(e)Université de Rouen NormandieRapporteur(e)
Mme Matignon LaëtitiaMaître de conférenceLIRIS Université Lyon 1Examinateur​(trice)
M. Sigaud OlivierProfesseur(e)Sorbonne UniversitéExaminateur​(trice)
M. Filliat DavidProfesseur(e)ENSTA ParisExaminateur​(trice)
M. Dellandréa EmmanuelMaître de conférenceLIRIS - ECLDirecteur(trice) de thèse