Thèse de Assem Sadek


Sujet :
Navigation et compréhension de scène en combinant géométrie et apprentissage auto-supervisé

Résumé :

Contexte

 

Le contexte de cette thèse de doctorat est la conception d'agents virtuels et réels capables de résoudre des tâches de manière autonome dans des environnements complexes. Elle fait partie de la chair IA « REMEMBER » et cible les agents intelligents qui nécessitent des capacités de raisonnement de haut niveau pour la navigation et la prise de décisions. Les politiques comportementales requises sont complexes, elles impliquent des espaces d'entrée de grande dimension (images, vidéos, capteurs inertiels) et des sorties de haut niveau et structurées sous forme de décisions de navigation et de raisonnement.

 

L'apprentissage de ces politiques de décision dépend essentiellement de la capacité d'apprendre des représentations structurées et sémantiquement significatives de l'environnement dynamique. Une exigence clé est la capacité d'apprendre ces représentations avec un minimum d'interventions humaines et d'annotations, une conception manuelle étant impossible. Cela nécessite une exploration efficace des données d'entrée brutes au moyen d'un apprentissage supervisé, non supervisé ou auto-supervisé.

 

L'objectif ici est d’étendre les méthodes classiques éprouvées et basées sur la cartographie géométrique et la planification, en intégrant l'apprentissage automatique, afin de résoudre les problèmes où les modèles géométriques conventionnels sont insuffisants.

 

Directions de recherche

Notre méthodologie consiste à apprendre des représentations riches et structurées de l’environnement d’un agent, permettant une localisation précise et une navigation et planification efficace. Afin d'augmenter l'efficacité de l'échantillon et la généralisation, tout particulièrement dans le cadre de  scénarios réel (non simulés), nous prévoyons d'apprendre ces représentations avec une combinaison d'apprentissage supervisé, non supervisé, auto-supervisé. Un accent particulier sera mis sur l'apprentissage de la profondeur, du mouvement de l’agent, et avec une intégration étroite des objectifs de planification. En particulier, nous prévoyons d'explorer les représentations métriques et les représentations topologiques avec des techniques bayésiennes, capables de modéliser l'incertitude, et de les combiner avec des réseaux de neurones profonds, l’objectif étant la création des prédictions sémantiques de haut niveau à partir de données de capteurs de bas niveau (RVB , stéréo, LIDAR, capteurs inertiels, WIFI, etc.).

 

Pistes :

- Apprentissage profond et géométrie 3D

- Méthodes auto-supervisées

- Transfert Sim2Real

- Cartographie et planification avec apprentissage de bout en bout


Encadrant : Christian Wolf