Thèse de Thibault Douzon


Sujet :
Développement d’algorithmes d’extraction documents semi-structurés à partir d’un jeu de données limité

Date de soutenance : 24/10/2023

Encadrant : Christophe Garcia
Co-encadrant : Stefan Duffner

Résumé :

Chaque jour, d'innombrables quantités de documents sont réceptionnés et traités dans les entreprises du monde entier.

Cette thèse se concentre sur l'automatisation de l'extraction d'informations à partir de ces documents d'entreprise en utilisant des modèles d'apprentissage machine.

Les transformeurs, avec leur pré-entrainement auto-supervisé, montrent une grande précision dans la compréhension de documents. De plus, ils surpassent les réseaux récurrents pour l'extraction d'information par classification de mots, nécessitant moins de données d'entrainement. Des tâches de pré-entrainement spécifiques aux documents d'entreprise améliorent encore les performances des modèles, même avec des modèles plus petits. Enfin, des architectures efficientes dérivées des transformeurs réduisent le coût d'évaluation sur de longues séquences, ouvrant la possibilité de traiter des séquences composées différentes modalités.


Jury :
Mme Lemaitre Aurélie Maître de conférenceUniversité Rennes 2Rapporteur(e)
M. Paquet Thierry Professeur(e)Université de Rouen NormandieRapporteur(e)
M. Tabbone Salvatore-Antoine Professeur(e)Université de LorraineExaminateur​(trice)
M. Ogier Jean-MarcProfesseur(e)La Rochelle UniversitéExaminateur​(trice)
M. Garcia Christophe Directeur(trice) de rechercheLIRIS INSA LyonDirecteur(trice) de thèse
M. Duffner StefanMaître de conférenceLIRIS INSA LyonCo-directeur (trice)
M. Espinas Jérémy DocteurEskerCo-encadrant(e)
M. Bérard Jean-Jacques Directeur(trice) de rechercheEskerInvité(e)