Thèse de Jennie Andersen
Sujet :
Date de soutenance : 05/06/2024
Encadrant : Philippe Lamarre
Co-encadrant : Sylvie Cazalens
Résumé :
De nombreux graphes de connaissances (KG) sont disponibles sur le Web, et il peut être difficile de décider avec lequel travailler. Différents critères peuvent influencer ce choix, au-delà de la pertinence du domaine et du contenu, l'utilisation de standards, l'identification des créateurs... sont également importants. En effet, la mise à disposition de toujours plus de données, encouragée par les politiques gouvernementales d'ouverture des données et l'importance croissante des données dans notre société actuelle, s'accompagne d’attentes supplémentaires en termes de qualité et de transparence.
Afin d'aider les utilisateurs à choisir un KG plutôt qu'un autre, nous voulons fournir une estimation de la transparence de KG. Lorsque l'on pense à cette notion, plusieurs questions se posent naturellement. Savons-nous qui a créé le graphe de connaissances ? À partir de quelle source ? De quelle manière ? Dans quel but ? Ces types d'information sont essentiels pour renforcer la confiance dans les données et favoriser leur réutilisation. En outre, les informations de provenance permettent la reproductibilité des données et leur vérification. Cependant, les contours de la notion de transparence ne sont pas clairement définis. Pour tenter de mieux la comprendre, nous explorons tout d'abord cette notion et ses concepts associés (accessibilité, ouverture, vérifiabilité...). Étant donné l'absence d'exigences précises concernant la transparence dans sa globalité, nous nous concentrons ensuite sur un concept proche, et proposons une mesure de « l’accountability » des KG. Puis, nous utilisons notre mesure pour évaluer des centaines de KGs disponibles via des SPARQL endpoints. Bien que la plupart d'entre eux ne fournissent aucune information sur l’accountability dans leurs données, notre mesure permet de distinguer et départager les autres. Enfin, nous comparons notre mesure avec d'autres mesures pour les KG sur la qualité des données et les principes FAIR.
Cette comparaison montre que chaque mesure a ses propres spécificités, tout en partageant des points communs avec les nombreuses autres mesures existantes. Aussi, choisir la mesure appropriée pour évaluer les KG dans le cadre d'une tâche donnée n’est pas aisé, d’autant plus qu'elles sont décrites de manières variées et à différents endroits. Étant donné que beaucoup reposent sur une structure hiérarchique, nous proposons de définir une base formelle pour décrire les mesures dans un cadre commun. Ce cadre vise à faciliter leur compréhension, leur réutilisation, leur comparaison et leur partage en définissant des opérateurs permettant de les manipuler, soit pour en créer de nouvelles, soit pour les comparer. Nous proposons également une application web pour concevoir et comparer des mesures définies de cette manière.
Jury :
Mme. Frédérique Laforest | Professeur(e) | INSA Lyon | Président(e) |
M. Mathieu D'Aquin | Professeur(e) | Université de Lorraine | Rapporteur(e) |
M. Clément Jonquet | Directeur(trice) de recherche | INRAE | Rapporteur(e) |
Mme. Fatiha Saïs | Professeur(e) | Université Paris-Saclay | Examinateur(trice) |
Mme. Hala Skaf-Molli | Professeur(e) | Université de Nantes | Examinateur(trice) |
M. Philippe Lamarre | Professeur(e) | INSA Lyon | Directeur(trice) de thèse |
Mme. Sylvie Cazalens | Maître de conférence | INSA Lyon | Co-encadrant(e) |