Thèse de Arnaud Renard

Sujet :

Modèles de recherche d’information sémantique dans les documents structurés du Web

Thèse abandonnée : 01/09/2012

Encadrant : Sylvie Calabretto

Résumé :

La société actuelle est en pleine évolution et s'appuie de plus en plus sur les outils et les pratiques liées aux technologies de l'information. Cela est principalement dû à l'évolution des infrastructures de communication. En effet, la difficulté ne réside plus dans la disponibilité des informations, mais plutôt dans l'accès aux informations pertinentes en fonction de l'utilisateur. Ainsi, on peut voir émerger deux grandes tendances sur le Web.
D'un côté, les données (semi-)structurées sont plus largement disponibles. Cela signifie que de grandes quantités de données qui étaient auparavant stockés dans des fichiers textuels plats sont désormais stockées dans des fichiers XML (semi-)structurés. C'est la raison pour laquelle nous avons choisi de traiter ce genre de documents.
D’un autre côté, la sémantique apporte une « compréhension » au niveau des machines de ces données. La sémantique est l'un des plus grands défis de l'évolution des systèmes IR. En effet l'utilisation de sémantique dans les systèmes de recherche d'information peut être un moyen efficace de résoudre les problèmes d'hétérogénéité des données : à la fois en termes de contenu et de structure (documents qui suivent ni la même DTD, ni le même schéma XML). Cela nécessite l’emploi d'une ressource sémantique externe ainsi que de mesures de similarité sémantique pour comparer les différents concepts et ainsi exploiter la ressource. Les mesures de similarité employées ne peuvent être efficaces que lorsque les concepts liés aux termes sont identifiés sans ambiguïté. Par conséquent, les termes erronés interfèrent dans le processus d’appariement entre les termes et les concepts empêchent l’utilisation pertinente des mesures de similarité.
Les systèmes actuels ne prennent pas en compte les erreurs qui engendrent une incertitude dans l’identification des concepts. Notre objectif dans un premier temps est d'améliorer les résultats en prenant en compte les erreurs courantes dans les documents indexés comme les fautes de frappe ou la mauvaise épellation des mots. Ce genre de problème peut s’appliquer à de nombreuses applications Web 2.0 ainsi qu’aux mails et aux forums.
Afin d'évaluer les gains, nous prévoyons d'évaluer nos modèles sur différents jeux de données :
-INEX (Wikipedia XML)
-TREC Confusion (Track)