Thèse de Joan Capell Gracia


Sujet :
Automatisation du traitement de documents d'entreprise par apprentissage profond

Résumé :

Dans ce projet de thèse nous nous intéressons au traitement des documents. Plus particulièrement on souhaite traiter la segmentation et classification des documents.

La segmentation consiste en la séparation d’un ensemble des feuilles en documents. Par exemple à la réception d’un recto de CNI sur une première feuille et un verso sur la deuxième pouvoir les regrouper en un document automatiquement.

La classification consiste en la détection de la catégorie d’un document. Des exemples des catégories sont CNI, passeport, lettre de résiliation facture, etc…

Nous souhaitons développer des algorithmes d’apprentissage automatique qui, en utilisant un maximum d’informations sur les documents et leur contexte, seront capables de réaliser ces deux etapes de traitement sur des fluxes courrier et mail des entreprises.

Ces algorithmes pourront être entraînés grâce aux documents qui sont labellisés chaque jour par les opérateurs. Nous disposons d’un grand nombre des documents contenant la vérité terrain, plus particulièrement nous avons pour certains flux documentaires plus de 500.000 documents disponibles

Cette solution sera idéalement mise en place sur plusieurs flux documentaires, nous évaluerons donc les performances sur un grand nombre de datasets afin de vérifier sa généricité. On s'intéressera également aux performances lorsque peu de données d’entraînement sont disponibles, car lorsqu’une solution doit être mise en place pour un nouveau client, Tessi ne disposera pas de données d’entraînement pour le nouveau flux documentaire.

S’agissant de la vitesse de traitement, nous chercherons un compromis entre le temps d'exécution, le taux d’erreur et le taux d’automatisation pour satisfaire aux exigences de délai de réponse.


Encadrant : Véronique Eglin
Co-encadrant : Stéphane Bres