Contribution à la numérisation des documents imprimés du XVIIIème siècle - Archive ouverte HAL Accéder directement au contenu
Pré-Publication, Document De Travail Année : 2009

Contribution to the digitisation and analysis of printed documents from the eighteenth century

Contribution à la numérisation des documents imprimés du XVIIIème siècle

Résumé

The Gazette of Leyde is a political newspaper among the most influential from the eighteenth century. It consists of a corpus containing over 140.000 pages spread over a century of publication. The project of digitization, development and exploitation has been planed in collaboration with Humanities researchers from the UMR LIRE. The goal of this project was to derive the best of CSIT's potential in order to improve historians' work and to meet their needs better. Being able to perform quick and intelligent surfing across the corpus of the Gazette of Leyde has become a high-priority challenge. For that reason, we have worked on the gazette's physical and logical structures (layout, typography) by exploiting the words style and titles of articles particularities. This enabled us to create a method to differienciate between the Roman and italic styles. Coupled with the development of a technique for identifying the titles of articles, (based on typography and their placement in the columns of text), it has led to the automatization of the creation of an intelligent index of the Gazette of Leyde in image mode. The second part of the thesis consists in a feasability study for the development of a method of computer-aided transcription of the text. We are developping this method as an alternative to the commercial OCR software which is inefficient for old documents more or less well preserved. The transcript consists in grouping characters into classes of similar shapes. These classes are then labeled by a specialist of that document. The present method leads to good quality results.
La Gazette de Leyde est un journal politique parmi les plus influent du XVIIIème siècle et représente un corpus de plus de 140 000 pages réparti sur plus d'un siècle de parution. Le projet de numérisation, valorisation et exploitation a été monté en collaboration avec les chercheurs en sciences humaines de l'UMR LIRE, son objectif était la meilleure utilisation des potentiels des STIC pour améliorer leur travail (d'historiens) et répondre à leurs besoins. Permettre une navigation rapide et intelligente dans le corpus de la Gazette de Leyde est apparu comme le défi à relever en priorité. Dans cet objectif nous avons travaillé sur les structures physique et logique (mise en page, typographie) en exploitant notamment les particularités du style des mots et des titres des articles. Cette démarche nous a permis de faire la différenciation entre les styles Italique et Romain. Couplée à l'élaboration d'une technique de repérage des titres de rubriques(qui reposait sur leur typographie et placement dans les colonnes de texte), elle nous a conduit à la création automatique d'un index intelligent de la Gazette de Leyde, en mode image. La seconde partie de cette thèse consiste en une étude de la faisabilité de l'adaptation de la méthode de Transcription Assistée par Ordinateur qui se présente comme une alternative aux logiciels commerciaux O.C.R, inefficaces sur les documents anciens plus ou moins bien conservés. La transcription consiste à regrouper les caractères en classes par similarité de formes. Ces classes seront ensuite étiquetées par un spécialiste du document ce qui conduit à un résultat de bonne qualité.
Fichier non déposé

Dates et versions

hal-01466177 , version 1 (13-02-2017)

Identifiants

  • HAL Id : hal-01466177 , version 1

Citer

Loris Eynard. Contribution à la numérisation des documents imprimés du XVIIIème siècle : application au cas de la Gazette de Leyde. 2009. ⟨hal-01466177⟩
150 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More