Thèse de Xiangnan Yin


Sujet :
Synthèse d'images basée sur le GAN et application à la reconnaissance des visages

Résumé :

Les réseaux d’adversaire génératif (GAN) sont récemment l’un des axes de recherche les plus populaires dans le domaine du modèle génératif de vision par ordinateur. Profitant du paradigme de la formation contradictoire, les GAN pourraient générer progressivement des données proches de la distribution de données réelle, ce qui offre la possibilité de générer des images photoréalistes.

Récemment, les GAN sont combinés avec le codeur automatique conditionnel et largement utilisés dans la génération d'images faciales, par exemple l'édition d'édition d'attributs faciaux et la synthèse de pose de visage. Cependant, la question de savoir si les données synthétisées pourraient améliorer la précision de la reconnaissance faciale reste à déterminer.

Dans nos travaux, nous avons étudié les algorithmes les plus avancés en matière de génération d’images de visage et avons proposé un algorithme de synthèse de pose de visage. En se basant sur l’observation selon laquelle les images de visage de poses différentes partagent un grand nombre de pixels, un module d’échantillonnage attention pixel est conçu. Le module pourrait sélectionner les pixels de l’image source et les utiliser pour construire l’image cible, ce qui permettrait de préserver en grande partie les détails et le style de l’image source. À l’aide de ce module, nous convertissons le problème de synthèse de pose de visage en problème d’incrustation d’image de visage, ce qui pourrait élargir considérablement les données de formation des images de visage appariées aux images de visage non appariées. Nous utilisons également des repères de visage 3D pré-détectés pour représenter la pose du visage, ce qui est plus souple et plus précis que l’étiquette de pose one-hot ou les repères de visage 2D. L'algorithme proposé surpasse les algorithmes de pointe tant au niveau de la qualité d'image que de la capacité à préserver l'identité.

À l'avenir, nous allons combiner des algorithmes basés sur GAN et des modèles 3D morphable pour explorer le problème de la génération de visages 3D. Avec les données de visage 3D générées, nous pouvons obtenir des images de visage dans des poses et des éclairages arbitraires, ce qui pourrait améliorer encore la précision de la reconnaissance de visage.


Encadrant : Liming Chen