Thèse de Pierre Marza


Sujet :
Apprentissage large-échelle d’agents autonomes capables de naviguer dans des environnements réels

Date de début : 01/01/2021
Date de fin (estimée) : 01/01/2024

Encadrant : Christian Wolf
Co-encadrant : Laetitia Matignon

Résumé :

Les dernières années ont été marquées par l’essor du Machine Learning, qui a permis des gains en performances significatifs dans plusieurs domaines d'application. Outre les progrès méthodologiques indéniables, ces gains sont souvent attribués à des grandes quantités de données d'entraînement et à la puissance de calcul, qui ont conduit à des avancées dans la reconnaissance de la parole, la vision par ordinateur et le traitement automatique de la langue. Dans le projet REMEMBER, auquel cette thèse est associée, nous proposons d'étendre ces avancées à la prise de décision séquentielle d'agents dans un contexte de planification et de contrôle dans des environnements 3D complexes.

 

Nous proposerons des contributions méthodologiques (modèles et algorithmes) pour l'entraînement d’agents réels et virtuels leur permettant d’apprendre à résoudre des tâches complexes de manière autonome. En effet, les agents intelligents requièrent des capacités de raisonnement de haut niveau, une conscience de leur environnement et la capacité de prendre les bonnes décisions au bon moment [1]. Les politiques de décisions requises sont complexes, car elles impliquent des espaces d’observation et d’état de grande dimension, des problèmes partiellement observés ainsi que des interdépendances largement non linéaires et intriquées. Nous pensons que leur apprentissage dépendra de la capacité de l'algorithme à apprendre des représentations compactes de mémoire structurées spatialement et sémantiquement, capables de capturer des régularités complexes de l’environnement et de la tâche en question.

 

Une exigence clé est la capacité d'apprendre ces représentations avec un minimum d'interventions et d’annotations humaines, la conception manuelle de représentations complexes étant quasiment impossible. Cela nécessite l'utilisation efficace des données brutes et la découverte des régularités par différents formalismes d’apprentissage : supervisé, non supervisé ou auto-supervisé, par récompense ou par motivation intrinsèque, etc.