Thèse de Pierre Hugues

Sujet :

Extraction d'informations et classification de documents d'entreprise

Thèse abandonnée : 16/05/2023

Encadrant : Véronique Eglin

Résumé :

L’objectif de la thèse est de mettre en place plusieurs couches de traitement du document permettant de qualifier le document dans la chaîne de traitement : classer le document, extraire les champs informationnels dans des documents de types factures ou fiches de paie. Au sein de ces documents des irrégularités ou incohérences peuvent apparaître (sur les auteurs du document, les montants ou toute autre informations liées par exemple à un remboursement ou un contrat). La thèse s'inscrit dans le contexte bancaire traitant des informations de grande dimension avec la société française Paykrom spécialisée dans la gestion des documents justificatifs de virements impliquant les banques et assurances. Les problématiques scientifiques de la thèse concernent d'une part la reconnaissance de caractères dans le cas d’images compressées (jpg, png) et la classification de documents à partir des contenus informationnels des documents permettant de déterminer le secteur d'activité concerné. Les approches basées sur des techniques récentes d'extraction d'information couplées aux modèles de langues seront explorées. Enfin la thèse s'intéressera à l'interprétation sémantique du document en lien avec différentes transactions dont il peut faire l'objet (croisement d'informations). Cette dernière partie permettra de vérifier la conformité d'un document de façon automatique et de produire un indice de confiance.