Thèse de Louisa Kessi


Sujet :
Modélisation automatique et reconnaissance de structures logique de documents hétérogènes numérisés.

Date de soutenance : 10/03/2017

Encadrant : Christophe Garcia
Co-encadrant : Frank Lebourgeois

Résumé :

Chaque jour des millions de documents sont traités par les grandes entreprises, les administrations et toutes les petites et moyennes entreprises pour un coût exorbitant quand il est réalisé manuellement. La Lecture Automatique de Documents (LAD) est une solution logicielle qui permet de lire automatiquement ces documents numérisés et d'en extraire les informations utiles pour renseigner les systèmes d'informations et les traiter rapidement. Cette thèse aura comme objectif de développer un système de reconnaissance de structures de documents numérisés par analyse d'images afin de trouver la fonction logique de chaque bloc de textes et la hiérarchisation des informations. Dans le cadre de la dématérialisation d'un flux de documents aux contenus et aux formes hétérogènes, le système de reconnaissance doit être suffisamment générique pour pouvoir passer le mur du passage à l'échelle et traiter tous les types de documents possibles sans aucune connaissance a priori sur leurs contenus. La recherche sera axée principalement sur la modélisation automatique, par l'apprentissage de modèles spécifiques pour des documents particuliers et des modèles génériques pour tous les documents. Pour atteindre ces objectifs, l'étude donnera la priorité à des modèles probabilistes pour représenter les relations spatiales entre les modèles d’information graphiques et textuelles. Les modèles vont s'appuyer sur la structure physique des documents et l'analyse de l'organisation de l'information. L'évaluation de la modélisation portera à la fois sur la réduction de l'intervention humaine pour le paramétrage et la correction des erreurs et les performances du système sur un flux de documents hétérogènes. L’automaticité, le passage à l'échelle et la généricité du modèle seront alors mesurée. Une contrainte forte sera la réalisation d’un système de reconnaissance générique capable de décoder toutes les structures de tous les documents. Cette problématique de recherche a rarement été étudiée. Cela s'explique par la difficulté du sujet et le manque de bases conséquentes de documents pour une évaluation à grande échelle. Par conséquent, la majorité des travaux de recherche font des expérimentations à une échelle très réduite sur des documents plutôt homogènes et réguliers.