Thèse de Jennie Andersen

Sujet :

De la transparence des graphes de connaissances à un cadre général pour la définition de mesures d’évaluation

Date de début : 01/02/2021
Date de soutenance : 05/06/2024

Encadrant : Philippe Lamarre
Co-encadrant : Sylvie Cazalens

Résumé :

De nombreux graphes de connaissances (KG) sont disponibles sur le Web, et il peut être difficile de décider avec lequel travailler. Différents critères peuvent influencer ce choix, au-delà de la pertinence du domaine et du contenu, l'utilisation de standards, l'identification des créateurs... sont également importants. En effet, la mise à disposition de toujours plus de données, encouragée par les politiques gouvernementales d'ouverture des données et l'importance croissante des données dans notre société actuelle, s'accompagne d’attentes supplémentaires en termes de qualité et de transparence.

Afin d'aider les utilisateurs à choisir un KG plutôt qu'un autre, nous voulons fournir une estimation de la transparence de KG. Lorsque l'on pense à cette notion, plusieurs questions se posent naturellement. Savons-nous qui a créé le graphe de connaissances ? À partir de quelle source ? De quelle manière ? Dans quel but ? Ces types d'information sont essentiels pour renforcer la confiance dans les données et favoriser leur réutilisation. En outre, les informations de provenance permettent la reproductibilité des données et leur vérification. Cependant, les contours de la notion de transparence ne sont pas clairement définis. Pour tenter de mieux la comprendre, nous explorons tout d'abord cette notion et ses concepts associés (accessibilité, ouverture, vérifiabilité...). Étant donné l'absence d'exigences précises concernant la transparence dans sa globalité, nous nous concentrons ensuite sur un concept proche, et proposons une mesure de « l’accountability » des KG. Puis, nous utilisons notre mesure pour évaluer des centaines de KGs disponibles via des SPARQL endpoints. Bien que la plupart d'entre eux ne fournissent aucune information sur l’accountability dans leurs données, notre mesure permet de distinguer et départager les autres. Enfin, nous comparons notre mesure avec d'autres mesures pour les KG sur la qualité des données et les principes FAIR.

Cette comparaison montre que chaque mesure a ses propres spécificités, tout en partageant des points communs avec les nombreuses autres mesures existantes. Aussi, choisir la mesure appropriée pour évaluer les KG dans le cadre d'une tâche donnée n’est pas aisé, d’autant plus qu'elles sont décrites de manières variées et à différents endroits. Étant donné que beaucoup reposent sur une structure hiérarchique, nous proposons de définir une base formelle pour décrire les mesures dans un cadre commun. Ce cadre vise à faciliter leur compréhension, leur réutilisation, leur comparaison et leur partage en définissant des opérateurs permettant de les manipuler, soit pour en créer de nouvelles, soit pour les comparer. Nous proposons également une application web pour concevoir et comparer des mesures définies de cette manière.

Jury :

Mme. Frédérique Laforest	Professeur(e)	INSA Lyon	Président(e)
M. Mathieu D'Aquin	Professeur(e)	Université de Lorraine	Rapporteur(e)
M. Clément Jonquet	Directeur(trice) de recherche	INRAE	Rapporteur(e)
Mme. Fatiha Saïs	Professeur(e)	Université Paris-Saclay	Examinateur(trice)
Mme. Hala Skaf-Molli	Professeur(e)	Université de Nantes	Examinateur(trice)
M. Philippe Lamarre	Professeur(e)	INSA Lyon	Directeur(trice) de thèse
Mme. Sylvie Cazalens	Maître de conférence	INSA Lyon	Co-encadrant(e)