Thèse de Farah Harrathi

Sujet :

Extraction automatique de concepts et de relations sémantique dans des documents multilingues.

Date de soutenance : 01/10/2007

Encadrant : Sylvie Calabretto

Résumé :

Le sujet de thèse s’intègre dans la problématique générale liée à l’indexation-recherche d’information dans des documents multilingues et dans celle de la représentation de la sémantique de corpus textuels. Une indexation sémantique vise à extraire la connaissance contenue dans un texte en identifiant les concepts, les relations entre concepts, et ainsi représenter le contenu textuel par des descripteurs. Les approches courantes d’indexation sémantique ne sont pas adaptées aux larges corpus multilingues. En effet les méthodes d’indexation des documents multilingues proposées sont manuelles, ce qui rend difficile le passage à l'échelle sur de grands corpus de documents. L’objectif du travail de thèse est de proposer une méthode d’indexation automatique qui consiste à extraire les concepts et de relations entre les concepts dans des corpus multilingues. Dans cette thèse nous souhaitons proposer une méthode autonome d’extraction des concepts adaptée aux corpus multilingue et de grande taille. La méthode proposée s’inspire des méthodes statistiques et linguistiques, basées sur la notion d’information mutuelle, la fréquence des mots et la distance textuelle. Cette méthode sera validée par une expérimentation sur divers corpus multilingues. Nous allons également proposer une méthode d’extraction des relations entre les concepts en utilisant des ressources sémantiques. La méthode proposée sera expérimentée en utilisant l’ontologie multilingue EUROVOC.