Similarités entre données localement structurées pour la vision par ordinateur (SOLSTICE)
Type of project: ANRContract dates: 2014 - 2018
Équipe(s): M2DisCo, Imagine
: Partenaire(s): Laboratoire Hubert Curien
URL du projet: https://solstice.univ-st-etienne.fr/
Description:
SoLSTiCe est un projet de recherche fondamentale qui a pour objectif de créer de nouveaux modèles et outils pour représenter et manipuler des images et des vidéos. Nous visons par exemple à rechercher des images ou des vidéos similaires à une requête donnée; reconnaître des objets dans des images ou des vidéos ou détecter des activités typiques dans des vidéos. Pour traiter ces applications, une tendance majeure en vision est d'utiliser des "sacs de mots visuels" (BoVW) qui consistent à extraire des attributs locaux des images puis à les projeter dans un espace de mots visuels pour constituer un vecteur de description plus discriminant. Toutefois, ces BoVW, comme beaucoup d'autres modèles globaux proposés dans la littérature, n'intègrent pas l'information spatiale ou temporelle présente dans nos médias, ce qui réduit considérablement leur pertinence pour le traitement des données. Dans ce projet, nous voulons explorer différents types de données localement structurées (LSD) qui combineront des attributs (comme les points d'intérêts, les régions segmentées, ou les mots visuels) à des structures discrètes (comme les chaînes, les arbres, les cartes combinatoires ou, plus généralement, les graphes) pour modéliser des relations (spatio-temporelles) locales entres ces attributs. L'utilisation de ces LSD pour la classification, la reconnaissance d'objets ou l'indexation d'images ou de vidéos nous amènera à étudier trois problèmes principaux :
- [Extraire des LSD à partir d'images et de vidéos :] Nous proposerons des LSD basées sur des attributs pertinents (e.g., intégrant mieux l'information portée par la couleur) et dont la structure exploite pleinement l'information spatio-temporelle (e.g., la temporalité dans les vidéos ou la profondeur dans les scènes 3D).
- [Mesurer la similarité entre LSD :] Nous proposerons de nouveaux algorithmes efficaces et pertinents pour comparer des graphes, nous développerons de nouveaux noyaux pour nos LSD, permettant d'utiliser les algorithmes de classification définis sur les espaces vectoriels, et nous intègrerons des techniques d'apprentissage afin d'améliorer la comparaison de LSD.
- [Fouiller des LSD :] Nous caractériserons les LSD au moyen de motifs apparaissant fréquemment (ou infréquemment) tels que des ensemble d'items, des séquences ou des graphes, et nous les utiliserons pour créer de nouveaux attributs discriminants pour résoudre des tâches de vision par ordinateur.
Deux problèmes majeurs en vision motivent notre introduction des LSD : la nécessité de gérer des occlusions et la présence d'objets non rigides. Nous proposons de valider nos nouveaux modèles et algorithmes sur trois tâches principales qui partagent ces problèmes : la reconnaissance d'actions et d'évènements dans les vidéos, le suivi d'objets dans les vidéos et la reconnaissance d'objets dans des scènes 3D, des images 2D et des vidéos. Ces applications restent des problèmes ouverts et présentent des contraintes complémentaires principalement liées aux différents médias qui seront traités ((2D (+ t), 3D et 3D+t).