Thèse de Loris Eynard


Sujet :
Contribution pour la numérisation des documents imprimés du XVIIIème

Date de soutenance : 01/10/2008

Encadrant : Hubert Emptoz

Résumé :

Le projet initial consiste en une mise en place d’un passage en mode texte des documents numérisés du XVIIIème pour faciliter le travail des Humanistes. Pour atteindre cet objectif, nous pensions nous appuyer sur les travaux déjà effectués dans le cadre du projet DEBORA sur les documents du XVIème siècle. Ces travaux nous porte vers un projet de transcription-reconnaissance du texte. La première étape sera la mise en place d’une base de reconnaissance optique de signes (caractères, abréviations, symboles …) avec l’aide des chercheurs en Sciences Humaines. Il est également prévu l’utilisation de dictionnaires numérisés en complément de la transcription. Cette collaboration informatique doit permettre une vérification des caractères reconnus ainsi qu’une meilleure analyse en cas de caractères dégradés. Une mise en relation avec un dictionnaire des noms propres de l’époque permettrait une reconnaissance, actuellement très compliquée, de mots très importants pour l’étude et l’analyse des nouvelles tels que les noms de personnes ou de lieux.