Thèse de Pierre Faure--Giovagnoli


Sujet :
Connaissance métier et fonctions en science des données - Application à la production d'hydroélectricité

Date de soutenance : 24/11/2023

Encadrant : Vasile-Marian Scuturici
Co-encadrant : Jean-Marc Petit

Résumé :

Dans cette thèse, nous étudions le lien entre la connaissance métier sous forme d'une fonction et la science des données. Considérons le scénario suivant. Soit D(y, z1, ..., zn) un ensemble de données, Alice une experte en science des données, Bob un expert du domaine et y=f(z1, ...., zn) une fonction connue de Bob grâce à ses connaissances métier. Dans cette thèse, nous nous intéressons aux questions suivantes, simples mais cruciales pour Alice. Comment définir la satisfaction de f dans D? Comment mesurer efficacement cette satisfaction ? Comment cette satisfaction est-elle liée à la tâche d'apprentissage supervisé consistant à apprendre f à partir de D? Il s'avère que ces problèmes sont liés à l'étude des contre-exemples par l'utilisation des dépendances fonctionnelles (DF) et, en particulier, des mesures permettant de quantifier la satisfaction des DFs dans un ensemble de données telles que l'indicateur g3. Plus précisément, nous considérons le cas où l'égalité est remplacée par des prédicats plus flexibles, une relaxation maintenant courante dans la littérature.

Premièrement, nous examinons la complexité du calcul du g3. Il est connu que g3 peut être calculé en temps polynomial lorsqu'on utilise l'égalité, alors qu'il devient NP-difficile lorsqu'on utilise des prédicats généraux. Nous proposons d'affiner cette dichotomie en étudiant l'impact des propriétés communes suivantes : réflexivité, transitivité, symétrie et antisymétrie. Nous montrons que la symétrie et la transitivité sont suffisantes pour garantir que l'erreur g3 puisse être calculée en temps polynomial. Cependant, la suppression de l'une d'entre elles rend le problème difficile. Deuxièmement, nous étudions le calcul de g3 dans les cas polynomial et NP-difficile identifiés dans la première partie. Nous proposons différentes solutions exactes et approximées pour le calcul de g3 dans les deux cas. Nous comparons ces solutions dans une étude expérimentale détaillée des performances temporelles et d'approximation. Tous les algorithmes sont également disponibles via fastg3, une librairie Python open-source implémentée en C++. Troisièmement, nous connectons l'étude des contre-exemples et l'indicateur g3 à l'apprentissage supervisé à l'aide d'une application web appelée ADESIT. ADESIT est destinée à faire partie d'un processus itératif de raffinement des données juste après la sélection des données et juste avant le processus d'apprentissage lui-même. Elle permet d'évaluer la capacité d'un ensemble de données à donner de bons résultats pour un problème d'apprentissage supervisé par le biais de statistiques et d'une exploration visuelle. Enfin, nous validons notre approche par une application au problème industriel de la surveillance de l'entrefer dans les générateurs hydrauliques compacts et développons une solution pour le traitement automatique des données enregistrées. 


Jury :
Mme. Amer-Yahia SihemDirecteur(trice) de rechercheUniversité Grenoble AlpesRapporteur(e)
M. Palpanas ThemisProfesseur(e)Université Paris CiteRapporteur(e)
M. Bozga MariusIngénieur(e) de rechercheUniversité Grenoble AlpesExaminateur​(trice)
Mme. Laforest FrédériqueProfesseur(e)INSA LyonExaminateur​(trice)
M. Senelart PierreProfesseur(e)École normale supérieureExaminateur​(trice)
M. Scuturici Vasile-MarianProfesseur(e)INSA LyonDirecteur(trice) de thèse
M. Petit Jean-MarcProfesseur(e)INSA LyonCo-directeur (trice)