Thèse de Ruiqi Dai


Sujet :
Apprentissage autonome pour la vision intélligente

Résumé :

Le travail de thèse consistera à combiner des méthodes et modèles d'apprentissage non-supervisés, de réseaux de neurones et de vision par ordinateur, en s'appuyant sur les approches philosophiques de la perception et de la représentation (en IA, mais aussi chez les êtres humains).
Ainsi, des nouvelles approches en vision et en apprentissage automatique seront développées et appliquées dans des contextes dynamiques, réels où la plupart des algorithmes actuels échouent.
Pour cela nous partons d'un « framework » général à partir duquel nous avons déjà développé un prototype. Il sera étendu dans cette thèse et nous servira d'environnement de test pour les différents algorithmes proposés.
À partir d'un flux vidéo (issu d'une caméra mobile) et d'un mécanisme de saillance visuelle, des candidats d'objets sont extraits, et, en utilisant la cohérence temporelle, des paires d'images d'objets sont créées. Un réseau de neurones apprend ensuite de manière non-supervisée une projection dans un sous-espace qui représente les similarités d'apparences des différents objets. Enfin, cette représentation est utilisée pour reconnaître des objets déjà vus et pour guider la détection de nouveaux candidats d'objets. Quand le système est mis dans un environnement complètement inconnu, cette rétroaction doit être initiée par un mécanisme d'amorçage (bootstrapping).

Nous allons procéder en trois étapes successives:
- Apprentissage incrémental et non-supervisé : Nous allons d'abord faire une étude plus fondamentale et expérimentale sur des cas d'études simples pour proposer des nouvelles architectures adaptatives de réseaux de neurones ainsi que des stratégies d'apprentissage efficaces. Dans ce contexte, nous allons nous orienter vers des modèles croissants et éventuellement modulaires en tenant compte de l'équilibre entre la stabilité et la plasticité. A travers la dimension SHS, une exploration des approches philosophiques de la perception et de la representation permettra un approfondissement de la compréhension et l'ouverture de nouvelles voies.
- Vision autonome et adaptative : Dans un deuxième temps, nous allons étendre les algorithmes et modèles développés précédemment à des modèles plus complexes et plus profonds de réseaux de neurones convolutifs et éventuellement récurrents. Cela nous permettra d'apprendre automatiquement et de manière incrémentale un système de vision intelligente capable de s'adapter à différents contextes et environnements.
- Raisonnement et organisation de connaissances : Enfin, nous allons nous inspirer des travaux en philosophie (et en sciences cognitives) qui seront étudiés dans la premiere phase de cette thèse, et proposer des implémentations de différents mécanismes de raisonnement à plus haut niveau qui guident la perception et la construction des représentations visuelles.


Encadrant : Véronique Eglin
Co-direction : Stefan Duffner

Date de soutenance : mercredi, 14 septembre, 2022

Jury :
M. Reignier PatrickProfesseur(e)Université Grenoble AlpesRapporteur(e)
M. Château ThierryProfesseur(e)Université Clermont-AuvergneRapporteur(e)
Mme Vincent NicoleProfesseur(e)Université de Paris DescartesExaminateur​(trice)
Mme Hudelot CélineProfesseur(e)Centrale Supélec ParisExaminateur​(trice)
M. Duffner StefanMaître de conférenceLIRIS INSA LyonDirecteur(trice) de thèse
M. Lefort MathieuMaître de conférenceLIRIS Université Claude Bernard Lyon 1Co-encadrant(e)
M. Guillermin MathieuMaître de conférenceUniversité catholique de LyonCo-encadrant(e)
M. Armetta FredericMaître de conférenceLIRIS Université Claude Bernard Lyon 1Co-encadrant(e)