Thèse de Lisa Chabrier


Sujet :
Approximation efficace pour l'explication locale des modèles d'apprentissage, appliquée à l'inférence d'activité locale des réseaux de régulation génique

Date de début : 01/10/2021
Date de fin (estimée) : 01/10/2024

Encadrant : Christophe Rigotti
Co-encadrant : Sergio Peignier
Co-direction : Anton Crombach

Résumé :

Le travail présenté dans cette thèse se divise entre la conception d'algorithmes pour l'explicabilité de l'apprentissage automatique et l'analyse de données de séquençage d'ARN unicellulaire. Nous avons choisi de travailler sur une méthode d'explicabilité locale des modèles appris fondée sur le framework "SHapley Additive exPlanation" (SHAP) qui qualifie l'importance des paramètres d'une prédiction par des scores, appelés valeurs SHAP. Cette méthode nécessite seulement d'appliquer le modèle à de nombreuses instances, et elle est dite agnostique, car compatible avec tout type de modèle prédictif. Le calcul des valeurs SHAP présente un défi important, car son coût est exponentiel par rapport au nombre de paramètres. Dans notre contexte d'application, seul un sous-ensemble des paramètres du modèle est important. Par conséquent, nous avons stratégiquement orienté les ressources de calcul vers le calcul des k plus importantes valeurs SHAP. Pour cela, nous avons conçu et implémenté TopShap, un algorithme itératif qui imbrique l'approximation des valeurs SHAP et le retrait du calcul de certaines valeurs n'étant plus candidates à faire partie des k meilleures. Nous avons montré que TopShap offre un gain de temps et d'exécution important par rapport à une approche utilisant la méthode agnostique actuelle la plus rapide, Kernel SHAP, suivie d'un post-processing. Nous l'avons ensuite utilisé pour étudier les événements de rebranchements dans les réseaux de régulation de l'expression génique. Cela a conduit à la conception d'un workflow nommé re_actShap, ensuite appliqué aux données fournies par des collaborateurs du Centre de Recherche en Cancérologie de Lyon (CRCL).