Thèse de Olivier Serris


Sujet :
Apprentissage large-échelle des capacités de navigation visuelle en robotique

Résumé :

Les dernières années ont été marquées par l’essor du Machine Learning, qui a permis des gains en performances significatifs dans plusieurs domaines d'application. Outre les progrès méthodologiques indéniables, ces gains sont souvent attribués à des grandes quantités de données d'entraînement et à la puissance de calcul, qui ont conduit à des avancées dans la reconnaissance de la parole, la vision par ordinateur et le traitement automatique de la langue. Dans le projet REMEMBER, auquel cette thèse est associée, nous proposons d'étendre ces avancées à la prise de décision séquentielle d'agents dans un contexte de planification et de contrôle dans des environnements 3D complexes.

 

Dans ce contexte, les processus décisionnels de Markov et l'apprentissage par renforcement fournissent un cadre mathématique pour les applications de contrôle dans lesquelles les agents sont entraînés à partir d'interactions passées avec un environnement. Ces dernières années, cette méthodologie a été associée aux réseaux de neurones profonds, qui jouent le rôle d'approximateurs de fonctions. En revanche, ils souffrent actuellement d'une faible efficacité d'échantillonnage, nécessitant souvent des milliards d'interactions, de difficultés à apprendre le raisonnement de haut niveau, ainsi que de difficultés à généraliser de la simulation à des environnements réels.

 

Nous proposerons des contributions méthodologiques (modèles et algorithmes) pour l'entraînement d’agents réels et virtuels leur permettant d’apprendre à résoudre des tâches complexes de manière autonome. En effet, les agents intelligents requièrent des capacités de raisonnement de haut niveau, une conscience de leur environnement et la capacité de prendre les bonnes décisions au bon moment [1]. Les politiques de décisions requises sont complexes, car elles impliquent des espaces d’observation et d’état de grande dimension, des problèmes partiellement observés ainsi que des interdépendances largement non linéaires et intriquées. Nous pensons que leur apprentissage dépendra de la capacité de l'algorithme à apprendre des représentations compactes de mémoire structurées spatialement et sémantiquement, capables de capturer des régularités complexes de l’environnement et de la tâche en question.

 

Sujet de thèse

 

Une exigence clé est la capacité d'apprendre ces représentations avec un minimum d'interventions et d’annotations humaines, la conception manuelle de représentations complexes étant quasiment impossible. Cela nécessite l'utilisation efficace des données brutes et la découverte des régularités par différents formalismes d’apprentissage : supervisé, non supervisé ou auto-supervisé, par récompense ou par motivation intrinsèque, etc.

 

Le projet de recherche de cette thèse vise à traiter ces problèmes selon les axes suivants:

  • Ajout de structures et de connaissances a priori aux algorithmes d’apprentissage par renforcement leur permettant de découvrir des représentations sémantiques et spatiales, étendant les travaux existants de l’équipe [2][3].
  • Utilisation de sources d’apprentissage alternatives dans le cadre de l'AR, telles que la motivation intrinsèque [5][6] et l’apprentissage auto-supervisé [7], permettant d’améliorer l’exploration et le transfert d’apprentissage.
  • Nous explorons également les liens entre navigation et géométrie, tout particulièrement les représentations implicites de type « NERF ».

Les avancées méthodologiques prévues dans cette thèse seront évaluées sur des applications complexes dans des environnements simulés (eg Habitat AI), et dans des environnements réels avec des robots mobiles réels de la plateforme naissante du projet REMEMBER (Turtlebot, Locobot). Le doctorant aura accès à plusieurs environments physiques, c.à.d. les locaux des laboratoires CITI et LIRIS, pour lesquels une version numérique a été créée, permettant l’apprentissage du décalage entre simulation et monde réel.

 

[1] Edward Beeching, Christian Wolf, Jilles Dibangoye and Olivier Simonin. Deep Reinforcement Learning on a Budget: 3D Control and Reasoning Without a Supercomputer. To appear in International Conference on Pattern Recognition (ICPR), 2020.

 

[2] Edward Beeching, Jilles Dibangoye, Olivier Simonin and Christian Wolf. Learning to plan with uncertain topological maps. To appear in European Conference on Computer Vision (ECCV), 2020 (spotlight).

 

[3] Edward Beeching, Jilles Dibangoye, Olivier Simonin and Christian Wolf. EgoMap: Projective mapping and structured egocentric memory for Deep RL. To appear in European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECML-PKDD), 2020.

 

[4] Théo Jaunet, Romain Vuillemot and Christian Wolf. DRLViz: Understanding Decisions and Memory in Deep Reinforcement Learning. In Computer Graphics Forum (Proceedings of Eurovis), 2020.

 

[5] A. Aubret, L. Matignon and S. Hassas, A survey on intrinsic motivation in reinforcement learning, arXiv preprint arXiv:1908.06976

 

[6] A. Aubret, L. Matignon and S. Hassas. ELSIM: end-to-end learning of reusable skills through intrinsic motivation. To appear in European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECML-PKDD), 2020.

 

[7] Evan Shelhamer, Parsa Mahmoudieh, Max Argus, Trevor Darrell, Loss is its own reward: self-supervision for reinforcement learning, ICLR Workshop track 2017.

 

[8] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei. Language Models are Few-Shot Learners. arXiv:2005.14165, 2020.


Encadrant : Christian Wolf
Co-direction : Julie Digne, Laetitia Matignon