Thèse de Ziqian Zhang
Sujet :
Date de début : 16/10/2025
Date de fin (estimée) : 16/10/2028
Encadrant : Liming Chen
Résumé :
L'objectif principal de cette recherche doctorale est de développer un nouveau cadre inspiré des cadres multimodaux pour une reconnaissance plus complète et plus précise des émotions subtiles en fusionnant des données multimodales, notamment des signaux visuels, auditifs, textuels et physiologiques. La reconnaissance des émotions, qui consiste à comprendre et à identifier automatiquement les états émotionnels à l'aide de systèmes intelligents, joue un rôle central dans l'interaction homme-machine, l'interaction homme-robot et la détection des conditions physiologiques. Les systèmes traditionnels de reconnaissance des émotions se concentrent principalement sur les émotions de base, telles que la joie, la colère, la tristesse, etc. Cependant, dans la réalité, les émotions humaines sont souvent plus subtiles, mixtes ou masquées socialement (par exemple, frustration réprimée, admiration cachée). Ces émotions complexes sont transmises par une combinaison de multiples canaux, notamment les expressions faciales, la voix, le langage corporel et les réponses physiologiques. Il est donc essentiel de comprendre les émotions humaines de manière plus complète et plus précise pour des applications telles que l'interaction homme-robot.
La reconnaissance subtile des émotions, qui consiste dans cette recherche à reconnaître les états émotionnels à un niveau particulièrement fin, reste un domaine peu exploré et difficile. Deux obstacles majeurs contribuent à cette difficulté : d'une part, la synchronisation et la fusion efficaces de données provenant de plusieurs modalités sont complexes ; d'autre part, l'obtention de données d'entraînement pour des émotions rares ou nouvelles est coûteuse et prend beaucoup de temps. La collecte et l'annotation de grands volumes de stimuli sont particulièrement difficiles, notamment en raison de l'expansion rapide du champ d'application des annotations émotionnelles personnelles. Cette recherche vise donc à développer un nouveau cadre pour la reconnaissance des émotions subtiles qui intègre plusieurs modalités dans un espace d'intégration commun, facilitant ainsi une compréhension plus nuancée des émotions humaines. Compte tenu de la difficulté de collecter des ensembles de données émotionnelles annotées à grande échelle, des méthodes d'apprentissage auto-supervisées et des modèles linguistiques de grande envergure peuvent être utilisés pour réduire la dépendance à l'égard d'une annotation de données extensive et exigeante en main-d'œuvre. Le cadre proposé vise à parvenir à une compréhension plus complète des émotions humaines dans des scénarios naturalistes, permettant des applications allant de la surveillance de la santé mentale à des interactions homme-robot plus avancées.
Cette recherche vise à :
• Étudier les défis posés par la reconnaissance multimodale des émotions subtiles, notamment la collecte et l'annotation des données, l'intégration de données provenant de sources diverses, la sensibilité des modèles aux émotions subtiles et la généralisation à différentes cultures.
• Concevoir un cadre de reconnaissance multimodale des émotions subtiles qui intègre des indices visuels, auditifs, textuels et potentiellement physiologiques.
• Développer des algorithmes et des techniques permettant d'éviter le recours à des données annotées à grande échelle et de s'adapter à des données clairsemées, voire manquantes, provenant de certaines modalités, tout en continuant à fournir une reconnaissance précise des émotions.
• Évaluer le cadre proposé sur des ensembles de données de référence et comparer ses performances avec les approches de pointe en matière de reconnaissance des émotions.
• Étudier la généralisation du cadre proposé à différents individus et contextes culturels.