Séminaire de Mubarak Shah - Fine-Grained Video Retrieval

L’objectif de la recherche vidéo est de développer des représentations robustes permettant de retrouver efficacement des éléments pertinents dans de grandes bases de vidéos. Les méthodes classiques échouent souvent à capter les nuances temporelles fines, d’où l’introduction de deux nouvelles tâches : l’Alignable Video Retrieval (AVR), qui identifie des vidéos temporellement alignables, et le Composed Video Retrieval (CoVR), qui retrouve une vidéo cible à partir d’une requête et d’un texte de modification. Pour évaluer ces approches, deux ensembles de données inédits ont été créés : Dense-WebVid-CoVR et TF-CoVR, axés sur des actions fines et compositionnelles. Enfin, l’exposé présentera ViLL-E, un cadre d’apprentissage conjoint qui étend les VideoLLMs aux tâches de génération et de recherche par embeddings. Cette approche permet d’unifier génération et recherche vidéo, tout en maintenant de hautes performances.

From 19/09/2025 at 13:30 to 15:00. Amphi Gaston Berger
Informations contact : Franck Davoine. franck.davoine@cnrs.fr.

L’objectif de la recherche vidéo est d’apprendre des représentations robustes afin qu’une requête puisse retrouver efficacement les éléments pertinents dans une galerie vidéo. Alors que les méthodes traditionnelles renvoient généralement des résultats sémantiquement liés, elles échouent souvent à garantir l’alignement temporel ou à capturer les nuances temporelles fines. Pour répondre à ces limites, je commencerai par présenter l’Alignable Video Retrieval (AVR), une nouvelle tâche qui aborde le défi encore inexploré consistant à identifier des vidéos temporellement alignables dans de grands ensembles de données. Je présenterai ensuite le Composed Video Retrieval (CoVR), qui vise à retrouver une vidéo cible à partir d’une vidéo requête et d’un texte de modification décrivant le changement souhaité. Les benchmarks CoVR existants se concentrent en grande partie sur les variations d’apparence ou des événements grossiers, sans évaluer la capacité des modèles à gérer des changements temporels subtils et rapides ni un raisonnement compositionnel complexe. Pour combler cette lacune, nous introduisons deux nouveaux ensembles de données — Dense-WebVid-CoVR et TF-CoVR — qui capturent des actions fines et compositionnelles à travers divers segments vidéo, permettant des tâches de recherche plus détaillées et nuancées. Je conclurai l’exposé avec notre travail récent sur ViLL-E : Video LLM Embeddings for Retrieval. ViLL-E étend les VideoLLMs en introduisant un cadre d’apprentissage conjoint qui prend en charge à la fois les tâches génératives (par ex. VideoQA) et les tâches basées sur les embeddings telles que la recherche vidéo. Cette double capacité permet aux VideoLLMs de générer des embeddings pour la recherche — fonctionnalité manquante dans les modèles actuels — sans sacrifier les performances génératives.