Rémi Casado / remi.casado@etu.univ-lyon1.fr
M2-IADE, LIRIS, Université Claude Bernard Lyon 1
Cadre du sujet
Exemples d'applications
Apprentissage développemental (Georgeon, 2014)
Apprentissage par renforcement (Sutton et Barto, 1998)
“Reinforcement learning is learning what to do -how to map situations to actions- so as to maximize a numerical reward signal.”
Objectifs de l'étude
Apprentissage par renforcement
Apprentissage par renforcement
Processus de décision markovien (MDP)
MDP partiellements observables (POMDP)
Apprentissage développemental
(Georgeon et Cordier, 2014)
Problème XY
(Singh et al., 1994)
Un benchmark pour l'apprentissage développemental inspiré du problème XY
Une modélisation de ce problème pour l'apprentissage par renforcement
Problème XXYY
On observant les propriétés du problème XXYY, nous avons l'intuition qu'il faut doter l'agent d'une mémoire de ses actions passées.Problème XXYY
Problème XXYY
Application des TAOs pour la résolution du problème XXYY avec un apprentissage par renforcement
Résolution de XXYY par apprentissage développemental
Small loop problem
Synthèse
La majeure partie des différences entre l'apprentissage développemental et l'apprentissage par renforcement vient du fait que leurs objectifs respectifs diffèrent.
En effet, le but de l'apprentissage développemental va être de fournir à un agent incarné les moyens de construire des comportements sur la base des régularités qu'il va observer dans ses interactions.
D'un autre coté, l'apprentissage par renforcement va chercher à associer des états (en général markoviens) à des actions pour maximiser une récompense extrinsèque.
On pourra néanmoins tirer profits des différences dans les mécanismes de chaque méthodes pour lever des barrières que ces deux approches peuvent rencontrer.