reveal.js - The HTML Presentation Framework

Apprentissage de comportements hiérarchiques :

étude comparative entre l'apprentissage développemental et l'apprentissage par renforcement

Rémi Casado / remi.casado@etu.univ-lyon1.fr
M2-IADE, LIRIS, Université Claude Bernard Lyon 1

Encadrants : Amélie Cordier / amelie.cordier@liris.cnrs.fr
Laëtitia Matignon / laetitia.matignon@liris.cnrs.fr

Introduction

Cadre du sujet

Nous nous plaçons dans le cadre de l'apprentissage pour un agent autonome

afin que cet agent développe des comportements hiérarchiques

en ayant un minimum d'a priori et d'informations sur son environnement.

Exemples d'applications

Robotique

Vie artificielle

...

Introduction

Apprentissage développemental (Georgeon, 2014)

Apprentissage de comportements

pour des agents incarnés

par le biais de régularités dans les interactions entre l'agent et son environnement.

Objectif : Observer la construction de ces comportements

Introduction

Apprentissage par renforcement (Sutton et Barto, 1998)

“Reinforcement learning is learning what to do -how to map situations to actions- so as to maximize a numerical reward signal.”

Objectif : Obtenir un comportement ou atteindre un état objectif le plus rapidement possible.

Introduction

Objectifs de l'étude

Obtenir avec l'apprentissage par renforcement les mêmes comportements que ceux que l'on peut observer avec l'apprentissage développemental

Comparer les deux approches pour savoir dans quels cas les utiliser

Essayer de passer de la connaissance d'une méthode à l'autre.

Sommaire

Formalisme 7

Problèmes X*Y* 16

Small loop problem 24

Synthèse / Conclusion 26

Formalisme

Apprentissage par renforcement

Mécanismes de l'apprentissage par renforcement

L'agent effectue une action choisie en fonction de l'état qu'il vient de percevoir.
L'environnement retourne alors son nouvel état, et la récompense correspondante à cet état.

Apprentissage par renforcement

Formalisme

Processus de décision markovien (MDP)

Formalisme

Processus de décision markovien partiellements observables (POMDP)

MDP partiellements observables (POMDP)

Formalisme

Apprentissage développemental

Mécanismes de l'apprentissage développemental

L'agent initie les échanges avec son environnement en essayant de réaliser une interaction.
L'agent va être motivé par deux éléments:
- La valence propre à une interaction, qui va influencer ses préférences.
- Sa capacité à prédire les interactions qu'il réalise.

(Georgeon et Cordier, 2014)

Problèmes XY

Problème XY

Un problème créé pour démontrer les limites de l'apprentissage par renforcement classique sur les POMDPs.

L'agent peut effectuer deux actions X et Y.
L'environnement possède deux états S_X et S_Y.
L'agent n'a pas accès à ces états, mais reçoit une unique observation quelle que soit l'action qu'il effectue.

(Singh et al., 1994)

Problèmes XY

Problème XXYY

Problème XXYY (Georgeon et al., 2009)

Un benchmark pour l'apprentissage développemental inspiré du problème XY

Alterner XX, YY
L'agent va devoir choisir de subir une récompense négative pour ensuite avoir une récompense positive

Une modélisation de ce problème pour l'apprentissage par renforcement

États : {XX, XY, YX, YY} / Actions : {X,Y}
Observations : {o¹,o²} / Récompenses : {r(o¹) = +1, r(o²) = -1}
Par exemple:
- s_t = XX, a_t = X ➝ o_t+1 = o²
- s_t = XY, a_t = Y ➝ o_t+1 = o¹

Problème XXYY

On observant les propriétés du problème XXYY, nous avons l'intuition qu'il faut doter l'agent d'une mémoire de ses actions passées.

On s'inspire des Trajectoires d'Observation-Action (Dutech et Samuelides, 2003)
- Historique des dernières séquences d'observation-action entre l'agent et l'environnement
- Va permettre de compléter notre POMDP pour le ramener à son MDP sous-jacent

On remanie ces Trajectoires d'Observation-Action dans le but de se rapprocher du modèle interactionnel de l'apprentissage développemental
- On va utiliser des Trajectoires d'Action-Observation (TAO)
- Ces TAOs vont faire office d'état dans le cycle d'apprentissage pas renforcement.

Problème XXYY

Application des TAOs pour la résolution du problème XXYY avec un apprentissage par renforcement

Détection de TAOs ambigües selon 3 critères(Dutech et Samuelides, 2003) :
- Vitesse de convergence
- Nombre d'utilisations
- Ambiguité dans le choix de la meilleure action à effectuer

Résultats obtenus (sur 100 exécutions)

Résolution de XXYY par apprentissage développemental

Comportement atteint plus rapidement qu'avec un apprentissage par renforcement

Small loop problem

Synthèse et Conclusion

Synthèse

Conclusion

La majeure partie des différences entre l'apprentissage développemental et l'apprentissage par renforcement vient du fait que leurs objectifs respectifs diffèrent.

En effet, le but de l'apprentissage développemental va être de fournir à un agent incarné les moyens de construire des comportements sur la base des régularités qu'il va observer dans ses interactions.

D'un autre coté, l'apprentissage par renforcement va chercher à associer des états (en général markoviens) à des actions pour maximiser une récompense extrinsèque.

On pourra néanmoins tirer profits des différences dans les mécanismes de chaque méthodes pour lever des barrières que ces deux approches peuvent rencontrer.

Apprentissage de comportements hiérarchiques :

étude comparative entre l'apprentissage développemental et l'apprentissage par renforcement

Introduction

Introduction

Introduction

Introduction

Sommaire

Formalisme

Apprentissage par renforcement

Formalisme

Processus de décision markovien (MDP)

Formalisme

Processus de décision markovien partiellements observables (POMDP)

Formalisme

Apprentissage développemental

Problèmes XY

Problème XY

Problèmes XY

Problème XXYY

Small loop problem

Synthèse et Conclusion

Conclusion

Question time

Merci de votre attention

Apprentissage de comportements hiérarchiques :

étude comparative entre l'apprentissage développemental et l'apprentissage par renforcement

Introduction

Introduction

Introduction

Introduction

Sommaire

Formalisme

Apprentissage par renforcement

Formalisme

Processus de décision markovien (MDP)

Formalisme

Processus de décision markovien partiellements observables (POMDP)

Formalisme

Apprentissage développemental

Problèmes X*Y*

Problème XY

Problèmes X*Y*

Problème XXYY

Small loop problem

Synthèse et Conclusion

Conclusion

Question time

Merci de votre attention

Problèmes XY

Problèmes XY