|
Laboratoire
d'InfoRmatique |
|
|
Français
| English
|
Journée
thématique
du Cluster 13
"Culture,
Patrimoine et Création"
Le 23 mai 2007
Site de France Télécom R&D de Meylan
Les
enjeux culturels, sociologiques et économiques
de la valorisation numérique du patrimoine ne sont plus
à démontrer. Cependant,
on doit maintenir le constat que les opérations de
numérisation restent un
point sensible pour la mise en place de services d'accès au
patrimoine
numérisé.
S'il
persiste des verrous technologiques
pénalisant les chaînes de numérisation
qui freinent la diffusion numérique des
livres, il est apparu de nouvelles questions relatives à
l'accès à
l'information numérique, qui bouleversent
en
profondeur nos modes d'usages.
Les
verrous technologiques de la
numérisation se situent au niveau d'outils logiciels
communément admis comme
matures. Parmi eux, se trouvent les systèmes de
reconnaissance de caractères
optiques (OCR). Ceux-ci ont pour mission de passer de l'image
numérique d'un
livre, uniquement lisible par un humain, à une
réédition numérique incluant un
ensemble de métadonnées,
dont le texte du livre
lui-même, rendant celui-ci lisible par une machine.
Or,
on constate que l'OCR est arrivé à un
palier technologique en termes de performances et
d'efficacité qui, bien
qu'ayant permis la mise en œuvre de programmes de
numérisation massive, fait
que l'on ne peut pas considérer cet outil logiciel comme
générique. Ceci
provient principalement des contenus eux-mêmes qui doivent
répondre à des
critères stricts en termes de typographie, de mise en page
et de langage
utilisés. A cette sélection vient s'ajouter la
contrainte de
la nécessaire qualité de l'image
sortant des scanners.
Ceci
fait que de très nombreux ouvrages
restent en dehors du champ d'application des chaînes
classiques de
numérisation. En particulier les ouvrages anciens (par
exemple manuscrits,
incunables et éditions précieuses) pour lesquels
la présentation visuelle
réclame une qualité d'image numérique
très élevée, et dont la langue, le
vocabulaire, la grammaire ne correspondent plus à ceux que
nous utilisons
quotidiennement. De plus, la ressaisie manuelle "off-shore" de tels
ouvrages paraît difficilement envisageable du fait de
l'expertise nécessaire à
leur transcription.

Manuscrit médiéval arabe (source Tombouctou-Mali)
Cependant,
la valeur culturelle et l'intérêt
patrimonial de tels ouvrages rend
discutable l'idée de
vouloir limiter la numérisation d'un patrimoine culturel en
prenant seulement
en compte des critères de sélection purement
technologiques pour le choix des
fonds "intéressants" à numériser.
Cette forme de ségrégation latente
des contenus d'un patrimoine ne fait qu'accentuer la fracture
numérique.
Certaines
équipes de recherche travaillant
dans le domaine du document numérique font
émerger des solutions qui pourront,
assez rapidement, se positionner en alternative à
l'utilisation des méthodes
classiques de numérisation. Ces solutions
nécessitent une meilleure
appréhension de l'information
présentée dans une image, laissant
apparaître des
possibilités d'indexation, non seulement sur le sens, mais
aussi, sur les
formes symboliques mêmes, contenues dans une image, que
celles-ci représentent
des caractères ou tout autre élément
visuel.
En
outre, le fait de se pencher sur la
nature même des formes et signes présents dans un
document, met en avant le
fait que la qualité de l'image doit être
compatible avec l'usage que l'on
désire faire de l'information qu'elle contient.
Ceci
nous renvoie, dans une certaine mesure,
à des questions de respect de la conformité de
l'information lors des
opérations de codage et de décodage, telles
qu'elles se sont posées jadis dans
la numérisation des signaux audio, mais replacées
ici, dans le contexte de
l'image.
Pour
l'utilisateur, que celui-ci soit le
gestionnaire de bibliothèque numérique ou le
lecteur abonné à un service, ce
respect de la conformité correspond très
précisément à la qualité
sous-tendue à
toutes les étapes de la numérisation, depuis le
passage au scanner des
documents, jusqu'à la production des métadonnées
gérant la présentation de l'information, en
passant par le texte contenu dans
le document.
Le
codage de l'image doit respecter deux
contraintes assez antinomiques, à savoir la production d'un
volume de donnée
économiquement et techniquement viable avec tout service de
stockage et de
diffusion des contenus, et la préservation de la
lisibilité du contenu par un
utilisateur qu'il soit humain ou artificiel.
Initialement,
le codage de l'image numérique
privilégiait la taille des fichiers, souvent au
détriment de la qualité de
présentation du contenu. Actuellement, on assiste
à un renversement des
priorités par la mise en avant du respect de la
conformité de l'information
contenue dans une image, et par la production de nouvelles
méthodes de
codage/décodage.
Par
ailleurs, les questions posées par la
numérisation des bibliothèques dans la
définition de nos rapports à
l'information numérique, ne sauraient être
complètes sans aborder l'accès même
à l'information et sa visibilité par interfaces
de navigation, les services d'indexation
et de moteurs de recherche. Ces conditions d'accessibilité
et de visibilité de
l'information sont inféodées aux métadonnées
dont
l'organisation et les spécifications doivent directement
refléter les
différents modes d'usage attendus de toutes formes de
contenus numériques et
multimédias.
En
conclusion, on s'aperçoit qu'il est
nécessaire de poursuivre et d'approfondir les
réflexions en cours sur la
question du patrimoine numérique en l'abordant sous trois
angles :
Ce
sont ces trois aspects qui seront abordés
lors de cette journée thématique.
Inscriptions
Véronique
Eglin INSA Lyon-LIRIS et Joël
Gardes France Telecom R&D
/ INSA Lyon-LIRIS
Veronique.eglin@insa-lyon.fr et joel.gardes@orange-ftgroup.com
Les inscriptions sont obligatoires et se feront simplement en communiquant vos noms et affiliations par mail auprès de Véronique Eglin à l'adresse ci-dessus
8h30
Accueil
8h45
Présentation de
la journée thématique
9h
– 10h20 : Atelier
1 : "numériser
et après : représentations et usages"
Jean
Marc Francony
Université Pierre
Mendès France, Grenoble
Ce
premier atelier a pour but de repérer les
différences et convergences dans la manière
d’envisager la préservation (conservation,
pérennisation) et la valorisation (diffusion, communication,
etc.) du
patrimoine en général ainsi que dans la prise en
compte de la numérisation
comme moyen d’atteindre ces objectifs en particulier pour les
différents
acteurs et institutions concernés.
Deux
aspects particuliers retiendront notre
attention : les représentations (sociales, culturelles,
symboliques, etc.) et
les objectifs associés aux projets et actions de
portée patrimoniale suivant
des techniques classiques ou numériques ainsi que les
spécificités de chacun
des secteurs ; les pratiques et les attentes de "consommation" du
patrimoine par les clients, utilisateurs, etc.
Par
cette mise en perspective il s’agit
d’apporter des éléments
d’orientation pour la conception de projets technologiques
ou documentaires.
10h20
– 10h40 :
Pause
10h40
– 11h40 :
Atelier 2 : "De
l'image du document au texte, du texte au
document numérique"
L'information
présente dans l'image de documents
Véronique Eglin, Hubert Emptoz
INSA Lyon
Il
est communément admis que la numérisation
d'un livre a pour objectif de transformer le texte inclus dans l'image
sortant
du scanner en un format lisible par une machine. Ceci permet, en effet,
de pouvoir
déjà indexer le livre par le contenu, de faire de
la recherche d'informations,
des traitements linguistiques dans le but, par exemple, de traduire le
texte
dans une autre langue.
Cependant,
hormis le fait qu'il persiste de
nombreux verrous à l'automatisation intégrale des
processus de numérisation,
verrous qui seront présentés par la suite, force
est de constater que numériser
pour reconnaître le texte est une vision
réductrice du livre.
En
effet, le rapport étroit que l'on peut
entretenir avec un livre que l'on est en train de lire n'est pas
seulement dû
au texte, malgré tout le talent de l'auteur. Les fontes
utilisées, la mise en
forme du texte, les illustrations, enluminures et lettrines, tout comme
le
grain visuel du papier interviennent également dans
l'appropriation du livre et
de son contenu par un lecteur, non seulement en raison du fait que cet
enrichissement du texte conduit à de la "belle ouvrage",
mais
également parce que ces information viennent en appui
à la navigation visuelle
dans le contenu.
En
outre, le fait de vouloir seulement
retrouver le texte minimise l'intérêt de
numériser des manuscrits tels que ceux
de la bibliothèque Stendhal de Grenoble, du musée
Berlioz de la Côte Saint
André, de tous les fonds anciens du "silo" de la
bibliothèque de Lyon
Part Dieu, pour ne citer que ces exemples régionaux. La
forme des manuscrits,
corroborée avec des études
paléographiques, contribue à tenter de retrouver
la
chronologie de la rédaction de l'œuvre, de
différencier les annotations faites
par l'auteur, mais également les caviardages de
l'éditeur. Toutes ces
informations font intégralement partie de la
genèse et de l'histoire d'une
œuvre et sont également des
éléments du patrimoine.
Idéalement,
on devrait pouvoir retrouver
l'ensemble de ces attributs visuels dans la transposition
numérique du livre,
non seulement au travers d'une image numérique de bonne
qualité, respectant la
finesse du trait et des caractère, l'équilibre
des couleurs, mais aussi une
description formelle de ses attributs, afin de permettre d'enrichir les
moyens
et modes de requêtes. Tant est si bien, qu'in fine, on
s'aperçoit que le texte
d'un livre n'est rien d'autre qu'une métadonnée
parmi
d'autres, d'un objet numérique complexe.
L'exposé
présenté a pour objectif de
sensibiliser à l'intérêt de prendre en
compte, lors de la numérisation ces
informations associées au texte et de montrer comment l'on
peut les exploiter
dans un service avancé de bibliothèque
numérique.
Quelques
pistes pour traiter le problème de la transvision
Denis
Pellerin, Christian Jutten INPG Grenoble
Le
phénomène de transvision
est bien connu des imprimeurs. Il repose sur trois
phénomènes physiques :
l'opacité intrinsèque du papier, la
pénétration des pigments d'encre dans le
papier, la pénétration du véhicule de
l'encre dans le papier. Dans les faits,
la transvision fournit
un document dont le verso
apparaît plus ou moins distinctement sur le recto, et
réciproquement. Bien
entendu, ce phénomène gène
considérablement la numérisation de documents, et
un
pré-traitement
consistant à l'éliminer autant que
faire se peut s'avère indispensable.
Dans
cet exposé, nous nous focaliserons sur
les techniques récentes de séparation de sources
et nous interrogeant sur leur
pertinence.
Comment
réaliser la séparation en scannant
les deux faces ? Quels problèmes rencontre-t-on ?
Est-il
possible d'éviter de scanner les deux
faces ?
En
fait, les solutions doivent s'appuyer sur
une bonne connaissance du "modèle de mélange"
correspondant aux
observations : la transvision
correspond-elle à un
mélange linéaire, convolutif
ou non linéaire ? Si le
document est noir et blanc, peut-on exploiter les 3 types de capteurs
(R, V et
B) du scanner ? Peut-on imaginer de placer des filtres de couleurs ou
des fonds
différents ? Tous les papiers correspondent-ils à
des mélanges identiques ?
Comment le mélange varie-t-il spatialement et dans le temps
pour un même
document ? Le rôle des encres ?
Dans
cet exposé, nous essayerons de montrer
comment adapter les techniques de séparation de sources pour
contribuer à
résoudre (certaines de) ces questions.
11h40
– 12h :
session "Flash" : Présentation rapide des posters
et des stands
12h
– 14h : buffet
repas - Session posters et stands
14h
– 14h30 : Suite
de l'atelier 2
Les
solutions alternatives et complémentaires à l'OCR
Frank
Lebourgeois, Yann Leydier INSA Lyon
Avec
l'essor de la numérisation, de nombreux
niveaux d'indexation ont été définis
afin d'assurer une recherche rapide dans les
corpus de documents numérisés. Parmi toutes les
façons d'indexer un document,
l'accès au contenu textuel est celle qui permet
d'élaborer les requêtes les
plus intuitives.
Habituellement,
la
transcription d'un document en texte brut est obtenue par application
d'un
logiciel d'OCR (Optical Character
Recognition). Mais, que se passe-t-il lorsque l'OCR est mis en
échec? Les
logiciels d'OCR sont en effet inefficaces sur les documents
imprimés de basse
qualité et complètement inappropriés
face aux polices de caractères anciennes.
De plus, les techniques d'OCR ne sont pas applicables aux documents
manuscrits.
Durant cette intervention, nous présenterons les deux
alternatives à l'OCR que
sont la transcription assistée par ordinateur et la
recherche de mots par
similarité de formes (ou word-spotting).
14h30
– 16h15 :
Atelier 3 : Présentation
de l'information et services liés aux
bibliothèques numériques
Joël Gardes France Telecom R&D/INSA Lyon, Denis Chène France Telecom R&D
L'analyse
des usages des services d'accès à
un patrimoine numérique met en avant qu'au delà
des questions technologiques de
la numérisation de tout contenu, se pose des questions
cruciales pour la
définition des interfaces des applications de recherche
d'information, de
consultation/navigation et d'annotations éventuelles de
contenus. Nous aurons
vu, dans les exposés précédents, que
la seule construction de métadonnées
à partir de connaissances portant sur
l'identification des objets du patrimoine, leur histoire et leur statut
culturel, s'avèrent
toujours intéressants et
indispensables, mais sont insuffisants.
La
manière de présenter ces objets
numérisés
prend une nouvelle dimension en terme de complexité, si l'on
prend on
considération l'accessibilité aux collections
tant sur le plan de la
présentation des contenus pour les personnes malvoyantes ou
malentendantes, que
sur le plan de la lisibilité de ces contenus pour un
très large public, pas
obligatoirement initié ou spécialiste.
A
partir de ces questions de présentation de
l'information faisant intervenir non seulement la signification des
objets d'un
contenu, mais également le signifié de ces
objets, c'est-à-dire leur
sémiotique, la manière dont ils sont
présentés, nous voyons apparaître un
nouveau besoin dans notre façon de concevoir les métadonnées
de ces objets. Il s'agira, de plus en plus, de prendre en compte le
sens et la
forme de ces objets et d'imaginer les interfaces permettant
d'accéder à ces
objets et de les manipuler.
Jean Daniel Fékété, Nathalie Henry LRI Orsay
Visualisation et Navigation dans les grands corpus de documents
Les techniques informatiques permettent de stocker et d’accéder à des quantités
sans cesse croissantes de données, disponibles en ligne ou via des centres
documentaires fermés. Cette profusion compromet les capacités des utilisateurs
à pouvoir explorer, organiser, comparer, et finalement comprendre ces données
en un temps raisonnable. Apparue voici une quinzaine d’années, la Visualisation
de l’Information constitue l'une des voies les plus prometteuses pour «
produire du sens » dans l'observation des masses de données.
Nous montrerons dans notre présentation quelques exemples de visualisation de
corpus numériques de natures diverses : manuscrits, imprimés anciens et
modernes, bibliothèques numériques ou ensemble d'articles scientifiques.
16h15
– 16h30 :
pause
16h30
: table ronde
et conclusion de la journée
Thème
du débat : patrimoine numérique et
intelligence collaborative ou communautaire
17h30
fin du
séminaire
17h30
– 18h :"After" sur l'histoire des
manuscrits de Tombouctou
Le
projet sur la sauvegarde et la valorisation
des manuscrits de Tombouctou parrainée par le Conseil
Régional de Rhône Alpes
dans le cadre de la coopération
décentralisée avec l'Assemblée
régionale de
Tombouctou a vu sa maîtrise d'œuvre
confiée à l'INSA de Lyon, partenaire du
pôle d'excellence "Culture, Patrimoine et
Création". Il a paru
opportun de solliciter l'équipe projet pour
présenter cette opération très
représentative de la dimension développement
durable sous tendue par la
thématique des bibliothèques
numériques appliquée sur un terrain quasiment
vierge sur le plan technologique.
Accès
au Centre Norbert Ségard
de France Telecom
à Meylan
Adresse du
site :
France Télécom
Division R&D
28 chemin du Vieux Chêne - BP98
38243 Meylan Cedex - France
Par
avion :
Grenoble
St Geoirs : navette
aéroport / Grenoble gare
Lyon
- St Exupéry
: location de voiture
Transports
en commun
:
Prendre le
tramway ligne B direction “Universités”,
descendre
à la station
“La Tronche Hôpital”,
prendre le bus ligne 31 direction “Maupertuis”,
descendre à l’arrêt “Les Béalières”.
les horaires
Ou :
descendre
à la station
"La Tronche – Grand Sablon",
prendre la Navette ZIRST,
descendre à l'arrêt Vieux Chêne
les
horaires
Par le
réseau routier :
En
venant de Chambéry A 41, sortie Meylan ZIRST.
En
venant de Lyon par la Rocade
Sud / U2, prendre sortie Meylan Est-ZIRST,
puis premier rond-point à droite.
Le plan de
situation de
FTR&D à Innovallée-Meylan
:
http://www.inovallee.com/pdf/plan_repertoire.pdf