Thèse de Thibault Douzon
Sujet :
Date de soutenance : 24/10/2023
Encadrant : Christophe Garcia
Co-encadrant : Stefan Duffner
Résumé :
Chaque jour, d'innombrables quantités de documents sont réceptionnés et traités dans les entreprises du monde entier.
Cette thèse se concentre sur l'automatisation de l'extraction d'informations à partir de ces documents d'entreprise en utilisant des modèles d'apprentissage machine.
Les transformeurs, avec leur pré-entrainement auto-supervisé, montrent une grande précision dans la compréhension de documents. De plus, ils surpassent les réseaux récurrents pour l'extraction d'information par classification de mots, nécessitant moins de données d'entrainement. Des tâches de pré-entrainement spécifiques aux documents d'entreprise améliorent encore les performances des modèles, même avec des modèles plus petits. Enfin, des architectures efficientes dérivées des transformeurs réduisent le coût d'évaluation sur de longues séquences, ouvrant la possibilité de traiter des séquences composées différentes modalités.
Jury :
Mme Lemaitre Aurélie | Maître de conférence | Université Rennes 2 | Rapporteur(e) |
M. Paquet Thierry | Professeur(e) | Université de Rouen Normandie | Rapporteur(e) |
M. Tabbone Salvatore-Antoine | Professeur(e) | Université de Lorraine | Examinateur(trice) |
M. Ogier Jean-Marc | Professeur(e) | La Rochelle Université | Examinateur(trice) |
M. Garcia Christophe | Directeur(trice) de recherche | LIRIS INSA Lyon | Directeur(trice) de thèse |
M. Duffner Stefan | Maître de conférence | LIRIS INSA Lyon | Co-directeur (trice) |
M. Espinas Jérémy | Docteur | Esker | Co-encadrant(e) |
M. Bérard Jean-Jacques | Directeur(trice) de recherche | Esker | Invité(e) |