Thèse de Thibault Douzon
Sujet :
Date de début : 01/10/2019
Date de fin : 01/10/2022
Encadrant : Christophe Garcia
Co-encadrant : Stefan Duffner
Résumé :
Dans le cadre d’une application développée par ESKER qui sert de cadre à l’acquisition et la numérisation de notes de frais, le doctorant développera un algorithme d’extraction automatique des informations contenues dans le document. Un tel algorithme prendra en entrée une image de la note de frais capturée par un appareil photo mobile et calculera la valeur de certain champs prédéfinis tels que la date ou le total. Le modèle pourra se baser directement sur l’image ou sur la transcription faite par un logiciel dédié. Les données (en faible volume) d’ESKER pourront être utilisées pour entrainer
S’il reste du temps, il pourra être envisagé de généraliser l’algorithme précédent à l’extraction de n’importe quel champ demandé dans un document semi-structuré, en minimisant l’impact de la taille du jeu de données initial. La très grande variété de documents traités par ESKER et leur diversité permettra au doctorant de tester l’efficacité de son algorithme.