Laboratoire d'InfoRmatique
en Images et Systèmes d'information

UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université Lumière Lyon 2/Ecole Centrale de Lyon


 Region Rhone-Alpes

Français | English

 

Journée thématique du Cluster 13

"Culture, Patrimoine et Création"

 

 Le 23 mai 2007

Site de France Télécom R&D de Meylan


Les diapositives des présentations sont en ligne

 

Numériser ? Et après ?

 

Les enjeux culturels, sociologiques et économiques de la valorisation numérique du patrimoine ne sont plus à démontrer. Cependant, on doit maintenir le constat que les opérations de numérisation restent un point sensible pour la mise en place de services d'accès au patrimoine numérisé.

S'il persiste des verrous technologiques pénalisant les chaînes de numérisation qui freinent la diffusion numérique des livres, il est apparu de nouvelles questions relatives à l'accès à l'information numérique, qui bouleversent en profondeur nos modes d'usages.

Les verrous technologiques de la numérisation se situent au niveau d'outils logiciels communément admis comme matures. Parmi eux, se trouvent les systèmes de reconnaissance de caractères optiques (OCR). Ceux-ci ont pour mission de passer de l'image numérique d'un livre, uniquement lisible par un humain, à une réédition numérique incluant un ensemble de métadonnées, dont le texte du livre lui-même, rendant celui-ci lisible par une machine.

Or, on constate que l'OCR est arrivé à un palier technologique en termes de performances et d'efficacité qui, bien qu'ayant permis la mise en œuvre de programmes de numérisation massive, fait que l'on ne peut pas considérer cet outil logiciel comme générique. Ceci provient principalement des contenus eux-mêmes qui doivent répondre à des critères stricts en termes de typographie, de mise en page et de langage utilisés. A cette sélection vient s'ajouter la contrainte de la nécessaire qualité de l'image sortant des scanners.

Ceci fait que de très nombreux ouvrages restent en dehors du champ d'application des chaînes classiques de numérisation. En particulier les ouvrages anciens (par exemple manuscrits, incunables et éditions précieuses) pour lesquels la présentation visuelle réclame une qualité d'image numérique très élevée, et dont la langue, le vocabulaire, la grammaire ne correspondent plus à ceux que nous utilisons quotidiennement. De plus, la ressaisie manuelle "off-shore" de tels ouvrages paraît difficilement envisageable du fait de l'expertise nécessaire à leur transcription.

 manuscrit Mali

Manuscrit médiéval arabe (source Tombouctou-Mali)

Cependant, la valeur culturelle et l'intérêt patrimonial de tels ouvrages rend discutable l'idée de vouloir limiter la numérisation d'un patrimoine culturel en prenant seulement en compte des critères de sélection purement technologiques pour le choix des fonds "intéressants" à numériser. Cette forme de ségrégation latente des contenus d'un patrimoine ne fait qu'accentuer la fracture numérique.

 

Certaines équipes de recherche travaillant dans le domaine du document numérique font émerger des solutions qui pourront, assez rapidement, se positionner en alternative à l'utilisation des méthodes classiques de numérisation. Ces solutions nécessitent une meilleure appréhension de l'information présentée dans une image, laissant apparaître des possibilités d'indexation, non seulement sur le sens, mais aussi, sur les formes symboliques mêmes, contenues dans une image, que celles-ci représentent des caractères ou tout autre élément visuel.

En outre, le fait de se pencher sur la nature même des formes et signes présents dans un document, met en avant le fait que la qualité de l'image doit être compatible avec l'usage que l'on désire faire de l'information qu'elle contient.

Ceci nous renvoie, dans une certaine mesure, à des questions de respect de la conformité de l'information lors des opérations de codage et de décodage, telles qu'elles se sont posées jadis dans la numérisation des signaux audio, mais replacées ici, dans le contexte de l'image.

Pour l'utilisateur, que celui-ci soit le gestionnaire de bibliothèque numérique ou le lecteur abonné à un service, ce respect de la conformité correspond très précisément à la qualité sous-tendue à toutes les étapes de la numérisation, depuis le passage au scanner des documents, jusqu'à la production des métadonnées gérant la présentation de l'information, en passant par le texte contenu dans le document.

Le codage de l'image doit respecter deux contraintes assez antinomiques, à savoir la production d'un volume de donnée économiquement et techniquement viable avec tout service de stockage et de diffusion des contenus, et la préservation de la lisibilité du contenu par un utilisateur qu'il soit humain ou artificiel.

Initialement, le codage de l'image numérique privilégiait la taille des fichiers, souvent au détriment de la qualité de présentation du contenu. Actuellement, on assiste à un renversement des priorités par la mise en avant du respect de la conformité de l'information contenue dans une image, et par la production de nouvelles méthodes de codage/décodage.

Par ailleurs, les questions posées par la numérisation des bibliothèques dans la définition de nos rapports à l'information numérique, ne sauraient être complètes sans aborder l'accès même à l'information et sa visibilité par interfaces de navigation, les services d'indexation et de moteurs de recherche. Ces conditions d'accessibilité et de visibilité de l'information sont inféodées aux métadonnées dont l'organisation et les spécifications doivent directement refléter les différents modes d'usage attendus de toutes formes de contenus numériques et multimédias.

En conclusion, on s'aperçoit qu'il est nécessaire de poursuivre et d'approfondir les réflexions en cours sur la question du patrimoine numérique en l'abordant sous trois angles :

 

 

Ce sont ces trois aspects qui seront abordés lors de cette journée thématique.


Organisation du séminaire

Inscriptions

 

Véronique Eglin INSA Lyon-LIRIS et Joël Gardes France Telecom R&D / INSA Lyon-LIRIS

Veronique.eglin@insa-lyon.fr et joel.gardes@orange-ftgroup.com

Les inscriptions sont obligatoires et se feront simplement en communiquant vos noms et affiliations par mail auprès de Véronique Eglin à l'adresse ci-dessus

 

Programme prévisionnel

 

 8h30 Accueil

 8h45 Présentation de la journée thématique

 

 9h – 10h20 : Atelier 1 : "numériser et après : représentations et usages"

 

Jean Marc Francony Université Pierre Mendès France, Grenoble

Ce premier atelier a pour but de repérer les différences et convergences dans la manière d’envisager la préservation (conservation, pérennisation) et la valorisation (diffusion, communication, etc.) du patrimoine en général ainsi que dans la prise en compte de la numérisation comme moyen d’atteindre ces objectifs en particulier pour les différents acteurs et institutions concernés.

Deux aspects particuliers retiendront notre attention : les représentations (sociales, culturelles, symboliques, etc.) et les objectifs associés aux projets et actions de portée patrimoniale suivant des techniques classiques ou numériques ainsi que les spécificités de chacun des secteurs ; les pratiques et les attentes de "consommation" du patrimoine par les clients, utilisateurs, etc.

Par cette mise en perspective il s’agit d’apporter des éléments d’orientation pour la conception de projets technologiques ou documentaires.

 

 

 10h20 – 10h40 : Pause

 

 10h40 – 11h40 : Atelier 2 : "De l'image du document au texte, du texte au document numérique"

 

L'information présente dans l'image de documents

 

Véronique Eglin, Hubert Emptoz INSA Lyon

 

Il est communément admis que la numérisation d'un livre a pour objectif de transformer le texte inclus dans l'image sortant du scanner en un format lisible par une machine. Ceci permet, en effet, de pouvoir déjà indexer le livre par le contenu, de faire de la recherche d'informations, des traitements linguistiques dans le but, par exemple, de traduire le texte dans une autre langue.

Cependant, hormis le fait qu'il persiste de nombreux verrous à l'automatisation intégrale des processus de numérisation, verrous qui seront présentés par la suite, force est de constater que numériser pour reconnaître le texte est une vision réductrice du livre.

En effet, le rapport étroit que l'on peut entretenir avec un livre que l'on est en train de lire n'est pas seulement dû au texte, malgré tout le talent de l'auteur. Les fontes utilisées, la mise en forme du texte, les illustrations, enluminures et lettrines, tout comme le grain visuel du papier interviennent également dans l'appropriation du livre et de son contenu par un lecteur, non seulement en raison du fait que cet enrichissement du texte conduit à de la "belle ouvrage", mais également parce que ces information viennent en appui à la navigation visuelle dans le contenu.

En outre, le fait de vouloir seulement retrouver le texte minimise l'intérêt de numériser des manuscrits tels que ceux de la bibliothèque Stendhal de Grenoble, du musée Berlioz de la Côte Saint André, de tous les fonds anciens du "silo" de la bibliothèque de Lyon Part Dieu, pour ne citer que ces exemples régionaux. La forme des manuscrits, corroborée avec des études paléographiques, contribue à tenter de retrouver la chronologie de la rédaction de l'œuvre, de différencier les annotations faites par l'auteur, mais également les caviardages de l'éditeur. Toutes ces informations font intégralement partie de la genèse et de l'histoire d'une œuvre et sont également des éléments du patrimoine.

Idéalement, on devrait pouvoir retrouver l'ensemble de ces attributs visuels dans la transposition numérique du livre, non seulement au travers d'une image numérique de bonne qualité, respectant la finesse du trait et des caractère, l'équilibre des couleurs, mais aussi une description formelle de ses attributs, afin de permettre d'enrichir les moyens et modes de requêtes. Tant est si bien, qu'in fine, on s'aperçoit que le texte d'un livre n'est rien d'autre qu'une métadonnée parmi d'autres, d'un objet numérique complexe.

L'exposé présenté a pour objectif de sensibiliser à l'intérêt de prendre en compte, lors de la numérisation ces informations associées au texte et de montrer comment l'on peut les exploiter dans un service avancé de bibliothèque numérique.

 

Quelques pistes pour traiter le problème de la transvision

 

Denis Pellerin, Christian Jutten INPG Grenoble

Le phénomène de transvision est bien connu des imprimeurs. Il repose sur trois phénomènes physiques : l'opacité intrinsèque du papier, la pénétration des pigments d'encre dans le papier, la pénétration du véhicule de l'encre dans le papier. Dans les faits, la transvision fournit un document dont le verso apparaît plus ou moins distinctement sur le recto, et réciproquement. Bien entendu, ce phénomène gène considérablement la numérisation de documents, et un pré-traitement consistant à l'éliminer autant que faire se peut s'avère indispensable.

Dans cet exposé, nous nous focaliserons sur les techniques récentes de séparation de sources et nous interrogeant sur leur pertinence.

Comment réaliser la séparation en scannant les deux faces ? Quels problèmes rencontre-t-on ?

Est-il possible d'éviter de scanner les deux faces ?

En fait, les solutions doivent s'appuyer sur une bonne connaissance du "modèle de mélange" correspondant aux observations : la transvision correspond-elle à un mélange linéaire, convolutif ou non linéaire ? Si le document est noir et blanc, peut-on exploiter les 3 types de capteurs (R, V et B) du scanner ? Peut-on imaginer de placer des filtres de couleurs ou des fonds différents ? Tous les papiers correspondent-ils à des mélanges identiques ? Comment le mélange varie-t-il spatialement et dans le temps pour un même document ? Le rôle des encres ?

Dans cet exposé, nous essayerons de montrer comment adapter les techniques de séparation de sources pour contribuer à résoudre (certaines de) ces questions.

 

 11h40 – 12h : session "Flash" : Présentation rapide des posters et des stands

 

 12h – 14h : buffet repas - Session posters et stands

 

 14h – 14h30 : Suite de l'atelier 2

 

Les solutions alternatives et complémentaires à l'OCR

 

Frank Lebourgeois, Yann Leydier INSA Lyon

 

Avec l'essor de la numérisation, de nombreux niveaux d'indexation ont été définis afin d'assurer une recherche rapide dans les corpus de documents numérisés. Parmi toutes les façons d'indexer un document, l'accès au contenu textuel est celle qui permet d'élaborer les requêtes les plus intuitives.

Habituellement, la transcription d'un document en texte brut est obtenue par application d'un logiciel d'OCR (Optical Character Recognition). Mais, que se passe-t-il lorsque l'OCR est mis en échec? Les logiciels d'OCR sont en effet inefficaces sur les documents imprimés de basse qualité et complètement inappropriés face aux polices de caractères anciennes. De plus, les techniques d'OCR ne sont pas applicables aux documents manuscrits.


Durant cette intervention, nous présenterons les deux alternatives à l'OCR que sont la transcription assistée par ordinateur et la recherche de mots par similarité de formes (ou word-spotting).

 

 14h30 – 16h15 : Atelier 3 : Présentation de l'information et services liés aux bibliothèques numériques

 

Joël Gardes France Telecom R&D/INSA Lyon,  Denis Chène France Telecom R&D

 

L'analyse des usages des services d'accès à un patrimoine numérique met en avant qu'au delà des questions technologiques de la numérisation de tout contenu, se pose des questions cruciales pour la définition des interfaces des applications de recherche d'information, de consultation/navigation et d'annotations éventuelles de contenus. Nous aurons vu, dans les exposés précédents, que la seule construction de métadonnées à partir de connaissances portant sur l'identification des objets du patrimoine, leur histoire et leur statut culturel, s'avèrent toujours intéressants et indispensables, mais sont insuffisants.

La manière de présenter ces objets numérisés prend une nouvelle dimension en terme de complexité, si l'on prend on considération l'accessibilité aux collections tant sur le plan de la présentation des contenus pour les personnes malvoyantes ou malentendantes, que sur le plan de la lisibilité de ces contenus pour un très large public, pas obligatoirement initié ou spécialiste.

A partir de ces questions de présentation de l'information faisant intervenir non seulement la signification des objets d'un contenu, mais également le signifié de ces objets, c'est-à-dire leur sémiotique, la manière dont ils sont présentés, nous voyons apparaître un nouveau besoin dans notre façon de concevoir les métadonnées de ces objets. Il s'agira, de plus en plus, de prendre en compte le sens et la forme de ces objets et d'imaginer les interfaces permettant d'accéder à ces objets et de les manipuler.

 


Jean Daniel Fékété, Nathalie Henry LRI Orsay

Visualisation et Navigation dans les grands corpus de documents 



Les techniques informatiques permettent de stocker et d’accéder à des quantités sans cesse croissantes de données, disponibles en ligne ou via des centres documentaires fermés. Cette profusion compromet les capacités des utilisateurs à pouvoir explorer, organiser, comparer, et finalement comprendre ces données en un temps raisonnable. Apparue voici une quinzaine d’années, la Visualisation de l’Information constitue l'une des voies les plus prometteuses pour « produire du sens » dans l'observation des masses de données.
Nous montrerons dans notre présentation quelques exemples de visualisation de corpus numériques de natures diverses : manuscrits, imprimés anciens et modernes, bibliothèques numériques ou ensemble d'articles scientifiques.


 16h15 – 16h30 : pause

 16h30 : table ronde et conclusion de la journée

 

Thème du débat : patrimoine numérique et intelligence collaborative ou communautaire

 

 17h30 fin du séminaire


 17h30 – 18h :"After" sur l'histoire des manuscrits de Tombouctou

 

Le projet sur la sauvegarde et la valorisation des manuscrits de Tombouctou parrainée par le Conseil Régional de Rhône Alpes dans le cadre de la coopération décentralisée avec l'Assemblée régionale de Tombouctou a vu sa maîtrise d'œuvre confiée à l'INSA de Lyon, partenaire du pôle d'excellence "Culture, Patrimoine et Création". Il a paru opportun de solliciter l'équipe projet pour présenter cette opération très représentative de la dimension développement durable sous tendue par la thématique des bibliothèques numériques appliquée sur un terrain quasiment vierge sur le plan technologique.



Comment s'y rendre

Accès au Centre Norbert Ségard de France Telecom à Meylan

 

Adresse du site :

France Télécom Division R&D
28 chemin du Vieux Chêne - BP98
38243 Meylan Cedex - France

Par avion :
Grenoble St Geoirs : navette aéroport / Grenoble gare
Lyon - St Exupéry : location de voiture

Transports en commun :
Prendre le tramway ligne B direction “Universités”,
descendre à la station “La Tronche Hôpital”,
prendre le bus ligne 31 direction “Maupertuis”,
descendre à l’arrêt “Les Béalières”.
les horaires

Ou :
descendre à la station "La Tronche – Grand Sablon",
prendre la Navette ZIRST,
descendre à l'arrêt Vieux Chêne
les horaires

Par le réseau routier :
En venant de Chambéry A 41, sortie Meylan ZIRST.
En venant de Lyon par la Rocade Sud / U2, prendre sortie Meylan Est-ZIRST,
puis premier rond-point à droite.  

Le plan de situation de FTR&D à Innovallée-Meylan :
http://www.inovallee.com/pdf/plan_repertoire.pdf