Thèse de Arthur Batel


Sujet :
Tests adaptatifs informatisés avec apprentissage par renforcement

Date de début : 01/10/2022
Date de fin (estimée) : 01/10/2025

Encadrant : Céline Robardet

Résumé :

La thèse porte sur le développement d'un test de dépistage de troubles psychiatriques qui s’adapte au patient en tirant parti de techniques d'apprentissage par renforcement. La méthode proposée sera comparée aux méthodes de l’état de l’art : (1) Un système expert basé sur l'analyse factorielle pour construire un système de règles déclenchées en fonction de valeurs seuils, et (2) une approche basée sur une modélisation bayésienne des probabilités de score psychiatrique sur la base d'items question/réponse discriminants (par exemple, la probabilité qu'un individu dépressif réponde « je suis de très bonne humeur » est considérée comme très faible). Le travail se découpe en trois étapes majeures :

1.    Étude de la littérature : identifier les modèles de recommandation et d’apprentissage par renforcement pour les tests administrés informatiquement. Cette étape du travail consiste en la réalisation d'une revue détaillée de la littérature sur les méthodes de recommandation et d'apprentissage par renforcement pour les CAT. Ce domaine de recherche évolue rapidement et il est nécessaire d'avoir une vue à jour des travaux publiés. Cette tâche consistera à faire le point sur les différents modèles, et les méthodes pour les apprendre/estimer. Les méthodes seront comparées selon différents critères : la proximité de l'objectif de la méthode SOTA avec celui d'optimiser l'administration des questionnaires pour évaluer les dimensions psychologiques, la qualité des résultats rapportés dans la littérature, la facilité de mise en œuvre, le volume de données nécessaire pour apprendre le modèle.

2.    Implémentations du système expert et des méthodes de l’état de l’art. Afin de pouvoir évaluer les performances du modèle développé, deux méthodes de référence seront étudiées. La première sera conçue en étroite collaboration avec des professeurs de psychiatrie et consistera en la conception d'un système expert basé sur des règles issues du savoir-faire des psychiatres. La seconde sera une méthode CAT traditionnelle basée sur le cadre bayésien comme expliqué dans [35]. Ce type de méthode a déjà des limites bien identifiées : mauvaise capacité à gérer les corrélations entre items, difficultés à estimer les traits latents en début de test, problèmes liés à la modélisation multidimensionnelle, où les items sont sélectionnés pour maximiser l’information sur plusieurs dimensions simultanément. Mais, d'un autre côté, ils se sont établis au fil des décennies et constituent une référence incontournable.

3.    Développement d’un modèle basé sur l'apprentissage par renforcement pour une mesure psychiatrique efficace. A partir de la revue de la littérature, un système de recommandation basé sur l'apprentissage par renforcement sera développé pour établir un diagnostic psychiatrique via un test de dépistage adaptatif numérique. Il s'appuiera sur des techniques de renforcement avancées qui se sont avérées efficaces dans les systèmes de recommandation adaptatifs [19]. Deep Q-learning est l'un d'entre eux pour apprendre la fonction action-valeur en fonction de l'état. Cependant, une telle approche nécessite des données de transition historiques suffisamment grandes pour approximer correctement la fonction action-valeur, et des approches alternatives basées sur la découverte de sous-groupes discriminants [5, 13, 27] seront étudiées pour approximer cette fonction. En fonction des résultats des tests statistiques réalisés dans la tâche 1.3 sur les données collectées dans la tâche 1.2, il peut être nécessaire d'identifier des relations de précédence entre les questions. Cela peut se faire de manière inductive à partir des données en recherchant des sous-séquences qui, lorsqu'elles sont perturbées, induisent une forte modification de la répartition des dimensions dans la séquence observée. Des approches de type fouille de modèle exceptionnel seront utilisées [34]. Ces relations de précédence seront ensuite intégrées dans le modèle par apprentissage par renforcement.

4.    Comparaison des trois méthodes. Les trois méthodes seront comparées selon un protocole standard en apprentissage automatique. Les méthodes seront comparées en termes de sensibilité et de spécificité. La sensibilité est mesurée par la proportion de patients dont les dimensions psychologiques ont été correctement identifiées par le modèle, tandis que la spécificité est liée à la proportion de patients de la classe négative qui ont été correctement classés.