Thèse de Dimitri Gominski
Sujet :
Date de soutenance : 09/11/2021
Encadrant : Liming Chen
Co-encadrant : Mohsen Ardabilian
Résumé :
Avec un volume toujours plus grand d'images accessibles numériquement, établir des connexions pour structurer et analyser les données devient d'autant plus important. Une formulation typique pour connecter entre elles des images sans utiliser de métadonnées est la recherche d'image basée contenu (RIBC). Similairement aux autres applications en vision par ordinateur, la RIBC a bénéficié du pouvoir expressif des réseaux de neurones convolutifs (CNN) et obtenu des résultats inédits sur les benchmarks usuels. Cependant, il est difficile de dire si cette performance est due à la proposition d'architectures et de modèles toujours plus évolués, ou simplement à la présence d'un jeu de données d'entraînement qui correspond bien au cas d'usage, c'est-à-dire qui a des caractéristiques visuelles et sémantiques similaires. En effet, le paradigme habituel du couple modèle-jeu d'entraînement montre ses limites dès lors qu'on sort du cas caractérisé par les données d'entraînement: la performance chute si on teste sur des données différentes ou avec une variabilité trop grande. Cette thèse s'intéresse à cette question avec un regard critique sur les méthodes d'apprentissage profond et leur potentiel réel d'application. Dans un contexte d'imagerie géographique (vue aériennes obliques ou verticales) multi-source, un benchmark est proposé pour caractériser un nouveau problème de recherche: la recherche d'image hétérogène, "low-data" (sans données d'entraînement), avec un cas d'utilisation où définir un jeu de données d'entraînement et une méthode adéquate n'est pas facile: l'interconnexion de collections iconographiques provenant de différentes institutions patrimoniales. Avec ce benchmark, de nouvelles mesures sont proposées pour qualifier la capacité à généraliser du modèle dans un contexte RIBC, puis des solutions techniques qui permettent de s'affranchir de la définition hasardeuse des caractéristiques visuelles et sémantiques similaires. La discussion autour des résultats permet de mettre en valeur une importance probablement trop grande donnée à l'architecture des réseaux de neurones, et des pistes prometteuses dans la RIBC qui fournit des outils agnostiques du modèle utilisé, et permettant d'exploiter les avantages comparatifs de différents modèles entraînés sur différents jeux de données. Enfin, l'intérêt de cette approche généraliste est confirmé par une application à un deuxième cas, où malgré l'abondance de méthodes et de données, elles sont encapsulées dans un ensemble de petits datasets et donc peu généralisables: la classification d'occupation au sol en imagerie satellite.
Jury :
Mr Bell Peter | Professeur(e) | Friedrich-Alexander Universität | |
Mr Erlangen-Nürnberg | Professeur(e) | Allemagne | Rapporteur(e) |
Mr Joly Philippe | Maître de conférence | Université Paul Sabatier, Toulouse | Rapporteur(e) |
Mme Stoter Jantien | Professeur(e) | Delft University of Technology, Pays-Bas | Président(e) |
Mr Samaras Dimitris | Professeur(e) | Stony Brook University, Etats-Unis | Examinateur(trice) |
Mme Gouet-Brunet Valérie | Directeur(trice) de recherche | Université Gustave Eiffel | Co-directeur (trice) |
Mr Chen Liming | Professeur(e) | Ecole Centrale de Lyon | Co-directeur (trice) |