Séminaire de Mubarak Shah - Fine-Grained Video Retrieval
From 19/09/2025 at 13:30 to 15:00. Amphi Gaston Berger
Informations contact : Franck Davoine. franck.davoine@cnrs.fr.
L’objectif de la recherche vidéo est d’apprendre des représentations robustes afin qu’une requête puisse retrouver efficacement les éléments pertinents dans une galerie vidéo. Alors que les méthodes traditionnelles renvoient généralement des résultats sémantiquement liés, elles échouent souvent à garantir l’alignement temporel ou à capturer les nuances temporelles fines. Pour répondre à ces limites, je commencerai par présenter l’Alignable Video Retrieval (AVR), une nouvelle tâche qui aborde le défi encore inexploré consistant à identifier des vidéos temporellement alignables dans de grands ensembles de données. Je présenterai ensuite le Composed Video Retrieval (CoVR), qui vise à retrouver une vidéo cible à partir d’une vidéo requête et d’un texte de modification décrivant le changement souhaité. Les benchmarks CoVR existants se concentrent en grande partie sur les variations d’apparence ou des événements grossiers, sans évaluer la capacité des modèles à gérer des changements temporels subtils et rapides ni un raisonnement compositionnel complexe. Pour combler cette lacune, nous introduisons deux nouveaux ensembles de données — Dense-WebVid-CoVR et TF-CoVR — qui capturent des actions fines et compositionnelles à travers divers segments vidéo, permettant des tâches de recherche plus détaillées et nuancées. Je conclurai l’exposé avec notre travail récent sur ViLL-E : Video LLM Embeddings for Retrieval. ViLL-E étend les VideoLLMs en introduisant un cadre d’apprentissage conjoint qui prend en charge à la fois les tâches génératives (par ex. VideoQA) et les tâches basées sur les embeddings telles que la recherche vidéo. Cette double capacité permet aux VideoLLMs de générer des embeddings pour la recherche — fonctionnalité manquante dans les modèles actuels — sans sacrifier les performances génératives.