Thèse de Clément Sage


Sujet :
Extraction d'informations dans des documents numérisés, semi-structurés et multilingues

Résumé :

Cette thèse aborde l'extraction d'informations dans des documents d'entreprise, numérisés ou nés numériques et potentiellement multilingues. Extraire efficacement l’information présente dans les documents provenant de leurs partenaires est crucial pour les entreprises faisant face à d’importants volumes de document entrant. Toutefois, automatiser cette extraction est complexe du fait du caractère semi-structuré des documents d'entreprise, c.-à-d. le fait qu'une instance d'une classe donnée de documents telle que facture ou bon de commande contienne un ensemble prédéfini d'informations à retrouver mais que la position et la représentation textuelle de l'information sont non contraintes. 

S'inspirant de travaux menés au sein de la communauté du Traitement Automatique du Langage Naturel (TALN) et en particulier sur la reconnaissance d'entités nommées, cette thèse propose différentes approches basées sur des réseaux de neurones récurrents itérant sur les mots des documents segmentés par un moteur de Reconnaissance Optique de Caractères (ROC).


Encadrant : Alexandre Aussem
Co-encadrant : Véronique Eglin, Haytham Elghazel