HDR de Emmanuel Dellandréa


Sujet :
Contributions à la compréhension automatique de données visuelles

Résumé :

Contexte

Depuis plusieurs années, nous assistons à une croissance exponentielle de la quantité de données visuelles (images et vidéos) disponibles à tout un chacun à partir d'archives en ligne, de sites sociaux de partage ou encore de collections professionnelles et personnelles. Face à ce phénomène, il est apparu nécessaire de développer des outils efficaces pour permettre l'organisation, la recherche, la classification et l'interprétation de ces collections de données. Ceci a provoqué et continue de provoquer une émulation extrêmement importante dans les communautés de vision par ordinateur et d'apprentissage automatique comme en témoignent notamment les nombreuses compétitions dont l'objectif est d'extraire automatiquement de l'information sémantique sur le contenu des images directement à partir des valeurs des pixels de ces images, telles que Pascal VOC, TRECVID , ImageCLEF, ImageNet Large Scale Visual Recognition Challenge ou encore COCO Challenge. Ainsi, de nouvelles problématiques et d'importants verrous scientifiques sont apparus. La principale difficulté est connue comme le "fossé sémantique" caractérisant le fait que des concepts de haut-niveau sémantique tels que "chien", "personne", "voiture", "sentiment de stress" doivent être identifiés par l'ordinateur à partir des données bas-niveau que sont les pixels de l'image. Par ailleurs le nombre d'applications de ces techniques ne cessent de croître notamment dans des domaines actuellement très porteurs et stratégiques tels que la recherche "intelligente" d'information visuelle, la médecine, la conduite autonome ou encore la robotique.

Principales contributions

Mes activités de recherche et principales contributions dans ce domaine de la compréhension automatique de scènes visuelles portent sur la classification d'images, la détection d'objets dans les images ainsi que l'application de l'analyse visuelle à la prédiction de l'impact émotionnel des vidéos et à la robotique. Ces travaux sont le résultat de collaborations avec plusieurs doctorants et un court résumé est donné dans les sections suivantes.

Classification d'images

La classification d'images consiste à associer automatiquement à l'image des étiquettes indiquant les concepts de haut-niveau sémantique identifiés dans l'image, tels que des scènes (intérieur, extérieur, paysage, ...), des objets (voiture, animal, personne, ...), des événements (voyage, travail, ...), ou encore des émotions (joie, mélancolie, ...). Typiquement, un système de classification d'images s'appuie sur l'extraction de descripteurs pour caractériser les données, la sélection des descripteurs les plus pertinents, puis l'application d'un modèle de prédiction préalablement appris, suivie éventuellement d'une phase de fusion des décisions fournies pas plusieurs modèles de prédiction. Ainsi, le système permet d'obtenir en sortie des scores indiquant la probabilité pour les concepts cibles d'être présents dans l'image d'entrée. Nous avons proposé plusieurs contributions dans ce domaine, touchant aux différentes étapes de la chaîne d'analyse des images et brièvement résumées ci-dessous. Ces travaux ont été réalisés avec les doctorants Huanzhang Fu et Ningning Liu, notamment dans le cadre des projets ANR Omnia et VideoSense.

Descripteur textuel pour la caractérisation des images

Afin de compléter les informations portées par les descripteurs visuels, nous avons proposé un nouveau descripteur textuel dédié au problème de la classification d'images. En effet, la plupart des photos publiées sur des sites de partage en ligne (Flickr, Facebook, ...) sont accompagnées d’une description textuelle sous la forme de mots-clés ou de légende. Ces descriptions constituent une riche source d’information sur la sémantique contenue dans les images et il est donc particulièrement intéressant de les considérer dans un système de classification d'images. Ainsi, nous avons élaboré des descripteurs HTC ("Histograms of Textual Concepts") pour capturer les liens sémantiques entre les concepts. L’idée générale derrière HTC est de représenter un document textuel comme un histogramme de concepts textuels selon un dictionnaire (ou vocabulaire), pour lequel chaque valeur associée à un concept est l’accumulation de la contribution de chaque mot du texte pour ce concept, en fonction d’une mesure de distance sémantique. Plusieurs variantes de HTC ont été proposées qui se sont révélées être très efficaces. Inspirés par la démarche de l’analyse cepstrale de la parole, nous avons également développé Cepstral HTC pour capturer à la fois l’information de fréquence d’occurrence des mots (comme TF-IDF) et les liens sémantiques entre concepts fournis par HTC à partir des mots-clés associés aux images.

Descripteurs basés sur une représentation parcimonieuse des images

L'objectif d'une représentation parcimonieuse est d'obtenir une représentation fidèle d'un signal pouvant être considéré comme une combinaison linéaire d'atomes constituant un dictionnaire de dimension très supérieure à celle du signal lui-même. Cette décomposition va introduire dans la nouvelle représentation du signal un grand nombre de valeurs nulles. Elle a été originellement proposée dans le domaine du traitement du signal comme un outil puissant pour acquérir, représenter et compresser des signaux de grande dimension. Des études ont également montré que ces principes s'appliqueraient aux neurones du cortex visuel qui utiliseraient un codage parcimonieux pour représenter efficacement des scènes naturelles. Ces intéressantes propriétés nous ont conduit à proposer une adaptation de ces principes au problème de la classification d'images. Dans ce cadre, nous avons développé deux approches s’appuyant sur la représentation parcimonieuse des images. La première méthode est reconstructive (R\_SROC) alors que la deuxième est reconstructive et discriminative (RD\_SROC). R\_SROC repose sur l’hypothèse intuitive que l’image peut être représentée par une combinaison linéaire des images d’apprentissage de la même catégorie. Par conséquent, les représentations parcimonieuses des images sont d’abord calculées par la résolution du problème de minimisation de la norme $L1$ et sont ensuite utilisées en tant que nouveaux descripteurs pour les images afin de permettre la classification de ces dernières par des classifieurs traditionnels tels que SVM. Afin d’améliorer la capacité de discrimination de la représentation parcimonieuse pour mieux répondre au problème de classification, nous avons également proposé RD\_SROC qui inclue un terme de discrimination, comme la mesure de discrimination Fisher ou la sortie d’un classifieur SVM, à la fonction d’objectif de la représentation parcimonieuse standard afin d’entraîner un dictionnaire reconstructif et discriminatif. De plus, nous avons proposé de combiner le dictionnaire reconstructif et discriminatif avec le dictionnaire adapté purement reconstructif pour une catégorie donnée de sorte que la capacité de discrimination puisse être augmentée.

Fusion multimodale

Lorsque plusieurs sources d'information sont à disposition pour caractériser des données visuelles, il devient nécessaire de les combiner avec pour objectif d'en tirer le meilleur parti pour les concepts visuels à reconnaître. Nous avons donc élaboré une méthode de fusion (SWLF pour "Selective Weighted Later Fusion") afin de combiner efficacement différentes sources d’information pour le problème de la classification d'images. Cette approche de fusion est conçue pour sélectionner les meilleurs descripteurs et pondérer leur contribution pour chaque concept à reconnaître. SWLF s’est révélé être particulièrement efficace pour fusionner des modalités visuelles et textuelles, par rapport à des schémas de fusion standards. Dans la mesure où une fusion tardive au niveau des scores des classifieurs est reconnue pour être une manière simple et efficace pour combiner des descripteurs de nature différente, SWLF s’appuie sur deux idées simples. Premièrement, le score de classification à partir d’un type de descripteur (classifieur expert) doit être pondéré en fonction de sa qualité intrinsèque pour le problème de classification en question. Deuxièmement, dans le cadre d’un scénario multi-labels où plusieurs concepts visuels peuvent être attribuées à une même image, différents concepts visuels peuvent nécessiter différents types de descripteurs pour permettre leur reconnaissance de manière efficace. Ce modèle de fusion multimodale a été utilisé dans le cadre de notre participation au challenge "Photo Annotation" de ImageCLEF en 2012 et nous a permis d'obtenir la 1ère place parmi 80 soumissions de 18 équipes.

Détection d'objets dans les images

Au delà de la classification d'images permettant d'identifier les concepts visuels dans les images, il peut être nécessaire dans certaines circonstances de localiser les objets dans cette image. La difficulté est alors d'avoir à notre disposition un nombre suffisant d'images annotées manuellement avec des boîtes englobantes précisant la nature et la localisation des objets afin de réaliser l'apprentissage d'un modèle de détection. En effet, il est beaucoup plus laborieux et beaucoup moins fiable d'annoter des boîtes englobantes plutôt que d'attribuer une étiquette globale à l'image. C'est la raison pour laquelle les jeux de données contenant des images avec des annotations au niveau de boîtes englobantes sont beaucoup moins volumineuses que ceux contenant des images annotées globalement. Dans ce contexte, nous nous sommes intéressés au problème de la détection d’objets faiblement supervisée. Le but est alors de reconnaître et de localiser des objets dans les images, n’ayant à notre disposition durant la phase d’apprentissage que des images partiellement annotées au niveau des objets. Pour cela, nous avons proposé deux méthodes basées sur des modèles différents. Ces travaux ont été réalisés avec le doctorant Yuxing Tang, notamment dans le cadre du projet CHIST-ERA Visen.

Apprentissage faiblement supervisé de modèles à parties déformables

Nous avons proposé une amélioration de l’approche "Deformable Part-based Models" (DPM) faiblement supervisée, en insistant sur l’importance de la position et de la taille du filtre racine initial spécifique à la classe. Tout d’abord, un ensemble de candidats est calculé, ceux-ci représentant les positions possibles de l’objet pour le filtre racine initial, en se basant sur une mesure générique d’objectness (par region proposals) pour combiner les régions les plus saillantes et potentiellement de bonne qualité. Ensuite, nous avons proposé l’apprentissage du label des classes latentes de chaque candidat comme un problème de classification binaire, en entraînant des classifieurs spécifiques pour chaque catégorie afin de prédire si les candidat sont potentiellement des objets cible ou non. De plus, nous avons amélioré la détection en incorporant l’information contextuelle à partir des scores de classification de l’image. Enfin, nous avons élaboré une procédure de post-traitement permettant d’élargir et de contracter les régions fournies par le DPM afin de les adapter efficacement à la taille de l’objet, augmentant ainsi la précision finale de la détection.

Détection d'objets semi-supervisée basée sur le transfert de connaissances visuelles et sémantiques

Pour la seconde approche, nous avons étudié dans quelle mesure l’information tirée des objets similaires d’un point de vue visuel et sémantique pouvait être utilisée pour transformer un classifieur d’images en détecteur d’objets d’une manière semi-supervisée sur un large ensemble de données, pour lequel seul un sous-ensemble des catégories d’objets est annoté avec des boîtes englobantes nécessaires pour l’apprentissage des détecteurs. Nous avons proposé de transformer des classifieurs d’images basés sur des réseaux convolutionnels profonds (Deep CNN) en détecteurs d’objets en modélisant les différences entre les deux en considérant des catégories disposant à la fois de l’annotation au niveau de l’image globale et l’annotation au niveau des boîtes englobantes. Cette information de différence est ensuite transférée aux catégories sans annotation au niveau des boîtes englobantes, permettant ainsi la conversion de classifieurs d’images en détecteurs d’objets.

Analyse visuelle pour la prédiction de l'impact émotionnel des vidéos

Une première application de nos travaux portant sur l'analyse visuelle concerne l'informatique affective, et plus précisément la reconnaissance de l'émotion induite par les vidéos, c'est à dire l'émotion que la majorité d'une audience ressentirait lors du visionnage d'une même vidéo. Ceci a de nombreuses applications telles que la distribution de contenus personnalisés basés sur l'émotion, l'indexation et le résumé de vidéos, ou encore le filtrage automatique de contenus vidéos inadaptés à certains publics. Alors que d'importants progrès ont été réalisés en vision par ordinateur et apprentissage automatique notamment pour la compréhension de scènes visuelles, une étape suivante consiste à modéliser et reconnaître les concepts affectifs, le but étant de doter les ordinateurs de capacités de perception semblables à celles des humains. Ceci représente un challenge très relevé, notamment en raison de la complexité et de la nature subjective des émotions. Dans ce cadre, nous avons proposés deux contributions. La première concerne la création d'une base volumineuse et fiable de vidéos annotées selon l'émotion pouvant être accessible aux chercheurs de la communauté afin d'élaborer et d'améliorer des modèles de prédiction de l'émotion induite. La deuxième contribution concerne justement l'élaboration de modèles, notamment basés sur l'apprentissage profond. Ces travaux ont été réalisés avec le doctorant Yoann Baveye dans le cadre d'une collaboration avec l'entreprise Technicolor.

LIRIS-ACCEDE : une plateforme de données pour l'analyse du contenu émotionnel de vidéos

Cette base, LIRIS-ACCEDE (https://liris-accede.ec-lyon.fr/, contient un grand nombre de vidéos variées sous licence "Creative Commons" et pouvant donc être librement diffusées. Elle est constituée de deux types d’annotation : 9800 extraits vidéos d’une dizaine de secondes sont annotés globalement selon la valence (de l’émotion la plus négative à la plus positive) et l’activation (de l’émotion la plus calme à la plus dynamique), et 66 films (36 heures) sont annotés de manière continue (chaque seconde) selon la valence et l’activation. La qualité de cette base a été reconnue d'une part par plusieurs publications dans les conférences et journaux du domaine de l'informatique affective et d'autre part par son adoption comme données d'apprentissage et de test pour les tâches "Affective Impact of Movies" à MediaEval 2015, et "Emotional Impact of Movies" à MediaEval 2016, 2018 et 2019. Le nombre de comptes pour le téléchargement est actuellement de 522 (décembre 2020).

Modèle computationnel pour la prédiction de l'impact émotionnel des vidéos

Afin d’estimer les émotions induites par les films, nous avons proposé plusieurs modèles, les plus performants reposant sur l'apprentissage profonds. L'un de ces modèles intègre l'information temporelle car en effet, l'émotion ressentie lors du visionnage d'une scène d'un film dépend non seulement de la scène courante, mais également des scènes précédentes ainsi que des émotions ressenties précédemment. Ainsi, ce modèle est composé de deux réseaux de neurones convolutionnels ajustés. L’un est dédié à la modalité visuelle et utilise en entrée des versions recadrées des principales images extraites des segments vidéos, alors que l’autre est dédié à la modalité audio utilisant en entrée un spectrogramme. Les activations de la dernière couche entièrement connectée de chaque réseau sont concaténées pour nourrir un réseau de neurones récurrent utilisant des neurones spécifiques appelés "Long-Short-Term Memory" qui permettent l’apprentissage des dépendances temporelles entre des segments vidéo successifs. La performance obtenue par le modèle est comparée à celle d’un modèle basique similaire à l’état de l’art et montre des résultats très prometteurs mais qui reflètent la complexité de telles tâches. En effet, la prédiction automatique des émotions induites par les films est donc toujours une tâche très difficile qui est loin d’être complètement résolue.

Analyse visuelle pour la robotique

Une deuxième application privilégiée de nos travaux concerne la robotique. En effet, la robotisation croissante de tâches pénibles et répétitives est un symbole de progrès technologique au service de l’homme. Ainsi, pour permettre une robotisation croissante de tâches de plus en plus complexes, mais souvent fastidieuses et/ou dangereuses pour les êtres humains, il est nécessaire de doter les robots d’une vision artificielle qui leur permette d’observer et de comprendre la scène, ainsi que d’une intelligence leur permettant d’acquérir de nouvelles capacités ou de s’adapter aux changements d’environnements. Dans ce cadre, nous développons en particulier des méthodes d'apprentissage automatique et de vision par ordinateurs pour créer des outils de Picking/Kitting sur des bases robotiques afin de les rendre flexibles, adaptables et autonomes. Ces travaux ont été réalisés avec les doctorants Matthieu Grard et Amaury Depierre, notamment dans le cadre du projet FUI Pikaflex et du Labcom Arès, en étroite collaboration avec l'entreprise Siléane.

Localisation d'instances d'objets dans un vrac

Une de nos contributions dans ce domaine concerne la délimitation d'instances d'objets dans un vrac et l'inférence de leur dispositions spatiales à partir d'une unique image RGB, de manière à identifier dans un vrac les instances d'objets les plus prenables pour un bras robotique. Nous avons ainsi proposé un réseau profond composé d'un encodeur et d'un décodeur couplant trois unités de type décodeurs légers et une unité de type encodeur-décodeur, disposés en cascade. Cela permet de structurer le processus de décodage et la réutilisation d'informations spécifiques aux sous-tâches de localisation du contour, identification du côté occultant du contour et segmentation d'instances non-occultées. L'apprentissage de ce modèle, comme pour tous réseaux profonds, nécessite une quantité importante de données annotées. Or, produire une quantité suffisante d'images annotées manuellement avec les informations de contour et d'occlusions est inenvisageable. Nous avons donc également proposé un système pour générer des images synthétiques réalistes d'objet texturés disposés en vracs, Mikado, permettant un apprentissage efficace, et une bonne généralisation en situation avec un robot réel.

Prédiction de prises pour un bras robotique

Au delà de la segmentation des instances les plus prenables, nous nous sommes intéressés justement à la prédiction des paramètres de prises sur les objets présents dans l'image. Ces paramètres définissent la position, l'orientation et l'ouverture de la pince utilisée pour saisir l'objet. Nous avons ainsi proposé une nouvelle architecture à base de réseaux profonds combinant la régression des paramètres de prise avec l'évaluation de la qualité de la prise, et dont l'apprentissage combiné permet l'utilisation de l'estimation de la qualité pour améliorer la régression. Afin de permettre un apprentissage et une évaluation efficace de ce modèle, nous avons également élaboré le jeu de de données Jacquard (https://jacquard.liris.cnrs.fr/) constituée de 54 485 scènes différentes à partir de 11 619 objets distincts avec un total de 4 967 454 annotations de prises. Le nombre de comptes pour le téléchargement est actuellement de 82 (décembre 2020).


Date de soutenance : vendredi, 12 juin, 2020

Jury :
Christine Fernandez-MaloigneProfesseur(e)Université de PoitiersRapporteur(e)
Su RuanProfesseur(e)Université de RouenRapporteur(e)
Benoit HuetMaître de conférenceEurecom Sophia-AntipolisRapporteur(e)
Jenny Benois-PineauProfesseur(e)Université de BordeauxExaminateur​(trice)
Martha LarsonProfesseur(e)Université de Radboud (Pays-Bas)Examinateur​(trice)
Georges QuénotDirecteur(trice) de rechercheLaboratoire d'Informatique de GrenobleExaminateur​(trice)
Saïd HacidProfesseur(e) Université Claude Bernard Lyon 1Examinateur​(trice)
Liming ChenProfesseur(e)Ecole Centrale de LyonPrésident(e)