Thèse de Pierre-Yves Genest
Sujet :
Date de début : 01/12/2021
Date de fin (estimée) : 01/12/2024
Encadrant : Elod Egyed-Zsigmond
Résumé :
La croissance exponentielle de la production de données a fait de l'analyse de collections de documents textuels non structurés un défi majeur. Cette thèse de doctorat vise à relever ce défi en se concentrant sur l'extraction d'information (IE), qui englobe quatre tâches principales : reconnaissance d’entités nommées (NER), résolution des coréférences (CR), annotation sémantique (EL) et extraction de relations (RE). Ces tâches permettent d'extraire et de structurer des connaissances à partir de documents non formatés, ce qui facilite leur intégration dans des bases de données structurées et leur utilisation par des outils d’analyse de données.
Nos contributions commencent par la création de Linked-DocRED, le premier jeu de données de grande taille, diversifié, et annoté manuellement pour l'IE sur des documents. Pour cela, nous partons du jeu de données DocRED, que nous complétons avec des annotations sémantiques de haute qualité. Également, nous proposons un nouvel ensemble de métriques pour évaluer les modèles d’extraction d’information. L'évaluation de baselines sur Linked-DocRED met en évidence les complexités et les défis inhérents à l'IE sur des documents : erreurs en cascade, traitement de longs contextes et rareté de l'information.
Nous présentons ensuite PromptORE, un modèle d'extraction de relations non supervisé et en monde ouvert. En adaptant le paradigme du prompt-tuning, PromptORE réalise la représentation et le clustering de relations sans nécessiter d'entraînement ni d’ajustement d’hyperparamètres (une faiblesse majeure des baselines précédentes) et surpasse de manière significative les modèles de l'état de l'art. Cette méthode démontre la faisabilité de l'extraction de relations sémantiquement cohérentes dans un contexte de monde ouvert.
En généralisant notre approche basée sur les prompts, nous développons CITRUN, un NER non supervisé et fonctionnant en monde ouvert. En utilisant l'apprentissage contrastif avec des données étiquetées hors domaine, CITRUN améliore la représentation des types d'entités, surpassant les NERs non supervisés basés sur des LLMs, et atteignant des performances compétitives par rapport aux modèles zero-shot qui sont plus supervisés.
Ces avancées facilitent l'extraction de connaissances à partir de documents non structurés, tout en tenant compte des contraintes pratiques du monde réel et en améliorant l'applicabilité des modèles d'IE dans des contextes industriels.