Thèse de Bastien Moysset


Sujet :
Détection, localisation et typage de texte dans des images de documents hétérogènes par réseaux de neurones profonds

Résumé :

Les systèmes de reconnaissance de l'écriture et d'extraction d'information dans les images de documents, développés depuis une vingtaine d'années, reposent sur des étapes préliminaires d'analyse de structure de documents. Le but étant d’extraire automatiquement le texte présent dans une image, les systèmes de reconnaissance font une première étape de décomposition du problème où le texte est isolé soit à partir de l'extraction des lignes complètes de texte lorsque c'est possible, soit à partir d'une recherche de mots qui s'oppose alors à d'autres informations de contenus comme les données graphiques ou textures également présentes dans l’image.

Le but de cette thèse est de mettre en place des nouvelles méthodes de localisation de lignes de texte suffisamment robustes pour pouvoir traiter des documents difficiles et hétérogènes. Pour cela, nous nous intéresserons aux Réseaux de Neurones Artificiels profonds. Ces types de modèles ont été tout récemment appliqués avec succès à des problèmes de détection et localisation d'objets dans des scènes naturelles. Le verrou scientifique principal concerne l'intégration de contexte dans les modèles actuels. De manière générale, il s'agit de modéliser les dépendances spatiales entre entités sémantiques dans une image (pixels, super-pixels, régions, objets, parties d'un objet etc.). Dans le contexte spécifique étudié dans ce projet, il s'agit de modéliser les dépendances entre les entités d'un document : caractères, mots, lignes, blocs de texte, blocs de graphisme. Les interactions entres ces entités sont caractérisées par des attributs géométriques, topologiques et sémantiques.


Encadrant : Christian Wolf