
Séminaire du LIRIS - Prof. Mubarak SHAH : Fine-Grained Video Retrieval.
Résumé de l’intervention : L'objectif de la recherche vidéo est d'apprendre des représentations robustes permettant à la représentation d'une requête de récupérer efficacement les éléments pertinents d'une galerie vidéo. Si les méthodes traditionnelles renvoient généralement des résultats sémantiquement liés, elles ne parviennent souvent pas à garantir l'alignement temporel ni à capturer les nuances temporelles les plus fines. Pour pallier ces limitations, je commencerai par présenter la recherche vidéo alignable (AVR), une nouvelle tâche qui relève le défi jusqu'alors inexploré de l'identification de vidéos alignables temporellement au sein de grands ensembles de données. Ensuite, je présenterai la recherche vidéo composée (CoVR), qui se concentre sur la récupération d'une vidéo cible à partir d'une vidéo de requête et d'un texte de modification décrivant le changement souhaité. Les benchmarks CoVR existants se concentrent principalement sur les variations d'apparence ou les événements à granularité grossière, ne parvenant pas à évaluer la capacité des modèles à gérer des changements temporels subtils et rapides, ni un raisonnement compositionnel complexe. Pour combler cette lacune, nous présentons deux nouveaux ensembles de données : Dense-WebVid-CoVR et TF-CoVR, qui capturent les actions à granularité fine et compositionnelle sur divers segments vidéo, permettant ainsi des tâches de recherche plus détaillées et nuancées. Je conclurai cette présentation par nos travaux récents sur ViLL-E : Incorporations vidéo LLM pour la récupération. ViLL-E étend les VideoLLM en introduisant un cadre d'apprentissage conjoint prenant en charge à la fois les tâches génératives (par exemple, VideoQA) et les tâches basées sur l'intégration, comme la récupération vidéo. Cette double fonctionnalité permet aux VideoLLM de générer des intégrations pour la récupération, fonctionnalité absente des modèles actuels, sans compromettre les performances génératives.
Biographie : Le Dr Mubarak Shah, professeur titulaire de la chaire d'administration de l'UCF, est le directeur fondateur du Centre de recherche en vision par ordinateur de l'Université de Floride centrale (UCF). Il est membre de l'ACM, de l'IEEE, de l'AAAS, de la NAI, de l'IAPR, de l'AAIA et de la SPIE. Il a publié de nombreux articles sur des sujets liés à l'activité humaine et à la reconnaissance d'actions, au suivi visuel, à la géolocalisation, à l'analyse visuelle des foules, à la détection et à la catégorisation d'objets, à la forme à partir de l'ombrage, etc. Il a été conférencier distingué de l'ACM et de l'IEEE. Il a reçu le prix PAMI Mark Everingham 2022 pour ses jeux de données pionniers en matière de reconnaissance d'actions humaines ; le prix ACM SIGMM Technical Achievement 2019 ; la mention honorable ACM SIGMM Test of Time 2020 pour son article « Détection de l'attention visuelle dans les séquences vidéo à l'aide d'indices spatiotemporels » ; et la Conférence internationale sur la reconnaissance des formes (ICPR) 2020. À l'UCF, il a reçu le prix Pegasus Professor ; Prix de recherche universitaire distinguée; Excellence du corps professoral dans le mentorat des étudiants au doctorat; Prix de bourse postdoctorale d'excellence du corps professoral en mentorat en enseignement et en apprentissage; Prix du programme d'encouragement à l'enseignement; et Prix d'encouragement à la recherche.