3 articles acceptés à la conférence CVPR par les équipes IMAGINE+SICAL
Le travail de l'équipe a été réalisé par les doctorants Corentin Kervadec (2 articles), actuellement en thèse industrielle (CIFRE) avec Orange et co-encadré par C. Wolf du côté LIRIS et par G. Antipov et M. Baccouche du coté Orange. L'un des articles est issu d'une collaboration avec l'équipe SICAL (doctorant Théo Jaunet et co-encadrant R. Vuillemot).
Le troisième article est issu d'une collaboration avec l'Université de Guelph, Canada, le premier auteur étant Brendan Duke, doctorant inscrit à l'UoG, dont le directeur de thèse est Graham W. Taylor.
Les trois articles ont comme sujet l’apprentissage automatique à grande échelle des réseaux de neurones avec les variantes basées sur les mécanismes d’attention, surnommés « transformers » par la communauté deep learning.
Article CVPR #1
Corentin Kervadec, Théo Jaunet, Grigory Antipov, Moez Baccouche, Romain Vuillemot and Christian Wolf. How Transferrable are Reasoning Patterns in VQA? To appear in International Conference on Computer Vision and Pattern Recognition (CVPR), 2021. [Lien-Openreview]
Cet article explore les modèles vision et langage et comment les patterns de raisonnement utilisés par les réseaux de neurones entrainés sur des données peuvent être transférés entre des modèles différents. Un outil d'analyse visuelle a été développé et est disponible en ligne: https://reasoningpatterns.github.io
Article CVPR #2
Corentin Kervadec, Grigory Antipov, Moez Baccouche and Christian Wolf. Roses Are Red, Violets Are Blue... but Should VQA Expect Them To? To appear in International Conference on Computer Vision and Pattern Recognition (CVPR), 2021. [Lien Arxiv]
Cet article explore les biais exploités par les modèles neuronaux de l’état de l’art dans un contexte d’'apprentissage de problèmes vision et langage. Nous avons mené une étude à grande échelle impliquant 7 modèles et 3 techniques de réduction des biais ; nous démontrons également expérimentalement que ces modèles ne parviennent pas à répondre à des questions impliquant des concepts peu fréquents; nous avons créé un nouveau benchmark et un nouveau jeu de données adressant ces problèmes et nous formulons des recommandations pour de futures orientations de recherche de la communauté.
Article CVPR #3
Brendan Duke, Abdalla Ahmed, Christian Wolf, Parham Aarabi and Graham W. Taylor. SSTVOS: Sparse Spatiotemporal Transformers for Video Object Segmentation. To appear in International Conference on Computer Vision and Pattern Recognition (CVPR), 2021 (oral presentation). [Lien Arxiv]
Cet article introduit une approche pour la segmentation dynamique d'objets dans les vidéos basée sur les modèles de type « transformers », avec un accent particulier sur la réduction de la complexité de calcul.