Thèse de Guillaume Anoufa
Sujet :
Date de début : 01/01/2020
Date de fin (estimée) : 01/01/2023
Encadrant : Christophe Garcia
Co-encadrant : Stefan Duffner
Résumé :
Des avancés récentes en apprentissage automatique pour la vision par ordinateur ont permis l'amélioration des performances en détection et en reconnaissance automatique d'objets dans des images et vidéos. Les méthodes de l'état de l'art s'appuient principalement sur des techniques d'apprentissage à partir de réseaux de neurones profonds, et plus précisément de réseaux de neurones convolutifs, construits à partir d'un ensemble de données (d'images) annotées. Or, ces modèles sont extrêmement complexes avec un nombre important de paramètres libres. Afin de développer tout leur potentiel, ils nécessitent une grande quantité d'images d'apprentissage étiquetées. En outre, l'application de tels modèles exige généralement de grandes capacités de calcul (GPU) et de mémoire.
Cela pose plusieurs défis scientifiques dans le cadre de l'application principale ciblée (détection/reconnaissance d'objets intrus en vol ou au sol)
-
Des données d'apprentissage réelles d’objets intrus en vol ou au sol vus par la caméra d'un hélicoptère sont indispensables pour le bon fonctionnement de ces algorithmes de reconnaissance. Cependant, ces images sont très difficiles à acquérir en grande quantité.
-
Pour ces raisons, une technique courante consiste à apprendre un modèle neuronal sur une autre base d'images, comme ImageNet avec environ un million d'images annotées, et ensuite à mettre à jour les dernières couches de ce modèle via l'apprentissage des données de l'application ciblée (apprentissage par transfert). Cependant, un tel transfert produit un modèle généralement moins efficace car beaucoup de caractéristiques visuelles apprises par le réseau de neurones ne sont pas utiles, transférables ou sont sous-optimales pour le problème final de classification.
-
Quelles que soient la complexité du modèle et la taille de la base d'apprentissage, il est difficile de concevoir des algorithmes de reconnaissance d'objets qui soient performants dans toutes les conditions possibles (bruit d'acquisition, conditions variables d'éclairage, mouvements du capteur etc.). Par conséquent, il convient d'adopter des stratégies d'adaptation du modèle au contexte et éventuellement d'utiliser des techniques de suivi visuel d'objets afin de permettre une détection continue et une analyse plus fine du mouvement et de la trajectoire des objets détectés.
-
Une approche pertinente dans ce contexte applicatif qui répond aux défis cités ci-dessus consiste à construire des modèles de moindre complexité, soit en limitant la taille de l'architecture neuronale dès le début de l'apprentissage, soit en réduisant a posteriori un modèle complexe déjà appris avec des techniques récentes d'optimisation et de compression de réseaux de neurones (quantification, « pruning » etc.). Ceci permet de également de faciliter leur implantation dans des systèmes embarqués et une éventuelle certification. Cependant la construction efficace de tels modèles avec des données hétérogènes, bruitées, non équilibrées et potentiellement non stationnaires reste une difficulté majeure pour les méthodes d'apprentissage de l'état de l'art.
Cette thèse abordera ces différents défis avec une approche qui part des données vers le modèle. Dans un premier temps, un travail sur la synthèse d'images réalistes des différents objets à reconnaître sera réalisé, avec une étude sur les différentes apparences et conditions d'acquisitions possibles.
Ensuite, un travail fondamental sur différents types de modèles de réseaux de neurones (notamment sur les réseaux siamois) et stratégies d'apprentissage sera mené pour concevoir et développer des architectures originales à moindre complexité (notamment en contraignant le codage des poids), très robustes aux variations dans l'image et adaptatifs afin de traiter en temps réel un flux vidéo dans des conditions réelles.