Thèse de Rami Harrathi


Sujet :
Recherche d'information par le contenu sémantique dans les documents structurés.

Date de début :

Encadrant : Sylvie Calabretto

Résumé :

Les documents structurés présentent l’avantage qu’ils possèdent une structure qui facilite leur présentation, ainsi que leur interprétation et leur exploitation dans des différents contextes. Ainsi il est devenu primordial de concevoir des méthodes d’indexation et de recherche permettant d’interroger des documents structurés en spécifiant des conditions sur la structure et le contenu textuel selon ses besoins. Dans ce cadre et surtout avec l’avènement de XML, comme un format reconnu de représentation et d’échange des documents structurés, de nombreux approches de recherche d’informations ont été proposées. Les approches actuelles dans la recherche des documents structurés (documents XML) sont basées sur des systèmes d'indexation à base des mots clés. Dans ces approches, des listes de mots clés pondérés sont utilisés pour décrire le contenu du document et la requête. La liste des mots clés est une description qui ne dit rien au sujet de relations sémantiques entre les mots-clés. De telles descriptions par un ensemble de mots-clés sont généralement incomplètes et imprécis. Un moyen pour améliorer la précision, c’est la recherche d’information structurée par le contenu sémantique où la requête ainsi que le contenu des documents sont représentés par des expressions dans un langage de représentation des connaissances (ex. graphes conceptuelles) et l’utilisation des ressources sémantiques (thésaurus, ontologies, etc.) dans la phase d’indexation et la recherche. L’objectif du travail de thèse est de proposer une méthode permettra une interrogation sémantique et contextuelle, des documents structurés par le contenu sémantique et la structure.