Thèse de Samaneh Chagheri

Sujet :

Système de classification de documents XML multilingues basé sur les connaissances

Date de début : 01/11/2008
Date de soutenance : 27/09/2012

Encadrant : Sylvie Calabretto
Co-encadrant : Catherine Roussey

Résumé :

L'amélioration des moyens de communication et la part grandissante de l'informatique et de la simulation dans le cycle de vie des produits conduit à la production de documents techniques en quantité de plus en plus importante. En effet, au cours du cycle de vie d'un produit, plusieurs documents techniques sont rédigés décrivant des étapes clés comme la conception, le développement, la mise en production ou la maintenance du produit. L'ensemble des documents rédigés lors de la même étape du cycle de vie de plusieurs produits correspond à une classe de documents. Nous souhaitons mettre en place des algorithmes de classification capable de gérer *un grand volume de documents techniques *pour reconnaitre automatique le type du document.

Les algorithmes de *classification documentaire* comme SVN donnent des résultats similaires à la classification humaine (80% de réussite). La phase d'indexation de ces classifieurs représente le document comme un sac de mot. Pour essayer d'améliorer les résultats et de résoudre les 20% d’erreurs restantes , les recherches actuelles s'orientent sur la prise en compte de la sémantique des documents.

En effet des études ont montré que les erreurs produites venaient de 2 types de phénomènes linguistiques :

La synonymie : 2 documents portant sur le même sujet peuvent utiliser des termes différents et donc ne pas être classer dans le même groupe. Le fait d'identifier le concept regroupant des termes synonymes permet de classer les documents par leur contenu et non par leur vocable.

La polysémie : les erreurs de classification peuvent venir de la mauvaise interprétation du sens d'un terme. Par exemple un terme utilisé dans un document dans son sens le moins courant sera interprété par le système dans son sens le plus courant et donc mal classer.

Pour pallier à ces erreurs, les techniques d'indexation s'orientent sur l’utilisation des concepts et non plus des termes pour décrire le contenu des documents. *L'extraction des concepts *est fortement dépendante de la qualité des ressources sémantiques employées pour la désambiguïsation des termes. Si le vocabulaire du document n'est pas décrit correctement dans la ressource sémantique, le système de classification ne pourra pas détecter le concept correctement.

En effet certaines expériences ont montré que la *classification basée sur une indexation conceptuelle* des documents n'améliore pas les résultats et au contraire elle dégrade les résultats du classifieur.

Des travaux en recherche d'information sur *l'indexation conceptuelle* ont montré que les meilleurs résultats des systèmes de recherches documentaires étaient obtenus lorsque l’index des documents combinait les termes et les concepts.

Ces résultats mitigés montrent que la classification conceptuelle est un domaine ouvert portant sur plusieurs aspects :

· Construction des ressources sémantiques les plus adaptées à un domaine ou à une tache : construction d'ontologies, de réseaux sémantiques, de bases terminologiques.

· Méthode de désambiguïsation automatique des termes pour sélectionner le concept le plus pertinent.

· Algorithme de classification basé sur des connaissances et les terminologies.

Maintenant la plupart des traitements de texte sont capables de générer un document XML découpant le document en élément logique : titre, section, paragraphe. Nous souhaitons utiliser cet autre type de connaissances. Ainsi la phase d'indexation devra être capable de combinée des *connaissances hétérogènes* :

· connaissances décrivant la sémantique du document et

· connaissances décrivant la structuration logique des documents.

Les documents passeront ainsi du statut de documents structurés à *documents multistructurés *contenant une structure sémantique et une structure logique.
Les objectifs de cette thèse consistent à proposer un *modèle d'indexation sémantique* pour évaluer *la qualité et la complétude des documents* relatif au cycle de vie d'un produit. Ce modèle devra tenir compte à la fois de la structuration logique du document et de son contenu.