Thèse de Aurélien Cecille


Sujet :
Apprentissage symbolique spatio-temporel pour la description de scène robotique

Date de début : 01/02/2023
Date de fin (estimée) : 01/02/2026

Encadrant : Stefan Duffner
Co-encadrant : Franck Davoine

Résumé :

L’objectif de cette thèse consiste en la création d’un système bout en bout de compréhension symbolique spatio-temporelle d’une scène. Ce projet prend part au sein du système de perception de Visual Behavior et est responsable d’en fournir la partie "entités". Ces travaux consistent dans un premier temps en la création d’une plateforme (réseau de neurone bout en bout unifié) permettant cette représentation et constituant en soit une série de verrous scientifiques. Dans un second temps, l’exploration de l’émergence de la notion d’objet à travers un apprentissage non supervisé constitue le coeur de l’ambition de ce projet de recherche.
Ces travaux tentent d’inverser la logique actuelle de détection d’objet par une approche émergente au lieu d’une approche annotation supervisée. Afin d’atteindre cette émergence, il est nécessaire de développer une plateforme qui unifie la sémantique, la spatialité et la temporalité. Elle permettra d’atteindre la taille et complexité critique de représentation de scène permettant l’émergence de la notion d’objet, en appliquant les lois de la physique aux systèmes apprenant en lieu et place de bases de données annotées.
Cette plateforme est découpée en 3 volets de fonctionnalités décrit ci-dessous permettant la création de cet environnement.
Détection symbolique multi-tâche
Le premier volet consiste en la création d’un détecteur d’objet s’appuyant sur la représentation bas-niveaux décrite précédemment (sémantique, profondeur et mouvement) et produisant les briques de bases d’un détecteur d’objet symbolique.
    Détection d’objet sous la forme de symbole : BBox et Mask
    Détection 3D à l’aide de BBox 3D et de l’estimation de profondeur du bas-niveaux.
    Ajout d’un vecteur de description (Embedding), permettant la classification des objets détectés.
Fusion représentation spatiale
Le deuxième volet fonctionnel à pour objectif la fusion de la représentation spatiale au sein d’un espace commun. Le volet précédent fournit une représentation dans le repère local d’une caméra. Ce deuxième volet recherchera une représentation commune au sein d’un espace latent, fusionnant l’ensemble des caméras dans un repère 3D commun.
Raisonnement temporel
Le troisième volet fonctionnel à pour objectif d’induire la consistance temporelle de la représentation générée et des objets détectés. Celle-ci s’appuyera sur l’information bas niveau de mouvement disponible (flow optique), ainsi que sur une architecture récurrente et un réemploi des entités au cours du temps.
Cela permettra d’accéder à une représentation temporellement stable ainsi qu’à des trajectoire et comportement associés à chaque entité.