Thèse de Vincent Malleron


Sujet :
Enrichissement et valorisation d'un corpus multi supports en sciences humaine : l'édition électronique des dossiers de Bouvard et Pécuchet de Flaubert.

Date de début : 01/10/2007
Date de fin (estimée) : 01/10/2010

Encadrant : Hubert Emptoz
Co-encadrant : Véronique Eglin

Résumé :

La thèse porte sur la mise au point d'outils innovants de traitement de l'image et s'appuie sur un corpus manuscrit complexe, riche de 3500 pages, résultant d'un travail spécifique de documentation effectué par Flaubert pour la rédaction de Bouvard et Pécuchet, son roman encyclopédique inachevé et posthume. La thèse ambitionne de développer des outils informatiques qui permettront de mobiliser et d'interroger cette masse documentaire complexe et de mettre au point un prototype évolutif en vue de son édition électronique (valorisation des contenus par l'analyse d'images, repérage de régions d'intérêt pour l'indexation, analyse de la mise en page pour l'aide à la navigation, recherche d'éléments par similarité pour le repérage d'occurrence de mots ou de fragments de mots, alignement texte ASCII - images des mots pour la mise en relation des documents en mode texte et image...). Dans un premier temps, nos recherches porteront sur la mise en place d'un processus de segmentation automatique et adaptatif des images du corpus permettant de localiser les régions d'intérêt des documents correspondant aux zones de texte, aux marges, aux ratures, et d'identifier au sein de ces régions les caractéristiques typographiques récurrentes (présence de texte imprimé, portions multi scripteurs, caractéristiques des mains...). Les métadonnées ainsi obtenues seront ensuite utilisées dans un processus d'indexation indispensable à la réalisation de recherches fines. On s'intéressera également à la structuration des données et à la navigation dans le corpus, en vue de faciliter l'accès au contenu textuel et épistémologique, et de permettre l'analyse du phénomène de circulation des fragments.
Située aux frontières entre les sciences humaines et les sciences de l'information, la thèse, grâce aux outils qu'elle produira, offrira une voie d'accès jusque-l à inespérée à une configuration critique de savoirs représentative d'un état de la science caractéristique du XIXe siècle.