Thèse de Arthur Batel

Sujet :

Apprentissage automatique pour la modélisation interpretable d'utilisateurs dans le cadre de tests adaptatifs.

Date de début : 01/10/2022
Date de fin (estimée) : 01/10/2025

Encadrant : Céline Robardet

Résumé :

De nombreuses études scientifiques attestent de la prévalence élevée des troubles psychiatriques à l’échelle mondiale. Face aux besoins médicaux qu'ils engendrent, le diagnostic demeure souvent tardif et prolongé du fait du manque de psychiatres et des limites des outils de dépistage existants. L’identification d'un trouble psychiatrique repose généralement sur un questionnaire déclaratif, dont le remplissage nécessite entre cinq et vingt minutes. Ces contraintes pourraient être partiellement levées par le développement d’un outil numérique de dépistage à la fois exhaustif, fiable, efficace et personnalisé.

Certains troubles psychiatriques s’accompagnent d’altérations des fonctions cognitives. La conception d’une application de dépistage soulève ainsi une question plus générale : comment évaluer et synthétiser rapidement les caractéristiques cognitives d’un individu ? Cette problématique dépasse le seul cadre clinique. Dans le domaine éducatif, l’évaluation des compétences acquises et la personnalisation de l’accompagnement reposent sur des enjeux et des données similaires. Personnaliser l’aide pédagogique à un étudiant suppose en effet d’estimer automatiquement son profil cognitif afin de lui proposer un guidage qui s'adapte à ses besoins et à la connaissance que nous en avons. La demande sociétale pour des dispositifs numériques de mentorat personnalisé s’est fortement accrue au cours de la dernière décennie, et le partage de larges quantités de données issues des plateformes éducatives en fait un champ de recherche privilégié. Nous proposons, dans ce travail d'apporter une solution algorithmique à l'évaluation automatique et adaptative des individus.

Dans ces deux contextes, l’objectif est de modéliser le profil d’un individu à partir de ses réponses à des questions. Les domaines de la psychométrie et du diagnostic cognitif ont proposé des modèles mathématiques fondés sur des connaissances scientifiques en psychiatrie, psychologie et pédagogie pour résoudre ce problème. Ces approches synthétisent les individus sous forme de "traits" cognitifs. Bien que très répandus, la capacité à prédire des réponses de ces approches reste faible. Les avancées récentes en apprentissage automatique ont permis d’améliorer significativement les performances de prédiction. Pour y parvenir, l'apprentissage automatique remplace une partie des hypothèses scientifiques et des contraintes préétablies par des modèles plus génériques dont les paramètres sont adaptés selon une procédure d'optimisation de la tâche de prédiction grâce aux données. Les profils des individus ainsi obtenus sont néanmoins difficiles à exploiter pour un psychiatre ou un professeur. Leur fiabilité est par ailleurs remise en cause car elle ne repose plus sur des hypothèses scientifiques.

Le champ de recherche de l'interprétabilité permet de redonner une signification claire et de la confiance dans le profil d'un individu en expliquant les modèles d'apprentissage automatique en des termes compréhensibles par des humains. Les travaux récents s’attachent notamment à structurer les profils en dimensions distinctes et sémantiquement cohérentes, par exemple l’hyperactivité ou les troubles du sommeil. Ils cherchent également à garantir que les valeurs numériques d'un profil sont compréhensibles par un professionnel du domaine, en particulier grâce à une cohérence monotone entre les scores et réponses observés. Ainsi, un patient ayant un score plus élevé qu'un autre dans la dimension "Impulsivité/Colère" de son profil psychiatrique doit davantage manifester cette tendance. Les méthodes existantes imposent cette propriété par des contraintes sur les paramètres ou par des stratégies spécifiques d’échantillonnage des données. Néanmoins, elles peuvent nuire à l'interprétabilité en complexifiant les modèles, sans garantir une monotonie satisfaisante.

Cette thèse propose un nouveau modèle d’apprentissage automatique fondé sur un plongement conjoint des utilisateurs et des questions dans un espace multidimensionnel commun. Nous introduisons un nouvel objectif d'apprentissage original visant à contraindre explicitement la monotonie des profils utilisateurs au regard de leurs réponses. Cette contrainte est appliquée de manière ciblée sur certaines dimensions, en fonction des questions, afin de conférer une signification structurée à l’espace vectoriel des profils. Nous proposons également un second objectif d’apprentissage, inspiré du Bayesian Personalized Ranking, afin d’améliorer la qualité prédictive du modèle. Nous traitons tout d'abord le cas des réponses binaires, avant d'étendre notre solution aux réponses ordinales et continues. La généricité du modèle permet son application à la prédiction ordinale multi-cible, domaine dans lequel il atteint des performances de premier plan. Afin de répondre aux exigences des tests adaptatifs, nous introduisons en outre un algorithme de méta-apprentissage optimisant la mise à jour itérative du profil d’un individu au fur et à mesure que des questions lui sont soumises.

La fiabilité des méthodes proposées est établie par des analyses théoriques du processus d’apprentissage. Leur supériorité en termes de prédiction et d’interprétabilité est démontrée par des évaluations quantitatives et qualitatives sur des données réelles issues des contextes cliniques et éducatifs. Enfin, nous démontrons la possible mise en application concrète de nos algorithmes pour le dépistage de troubles psychiatriques.

Publication(s) :
- Batel, A., Benouaret, I., Fruitet, J., Plantevit, M., & Robardet, C. (2024, October). A Simple Yet Effective Interpretable Bayesian Personalized Ranking for Cognitive Diagnosis. In ECAI 2024-27th European Conference on Artificial Intelligence, 19-24 October 2024, Santiago de Compostela, Spain-Including 13th Conference on Prestigious Applications of Intelligent Systems (Vol. 392, pp. 2386-2393). IOS Press. (paper )

- A. Batel, C. Robardet, M. Plantevit, and I. Benouaret, ‘An Interpretable Model for Multi-Target Predictions with Ordinal Outputs’, Machine Learning, 2026, Accessed: Feb. 27, 2026. [Online]. Available: https://hal.science/hal-05525069

Code open source :

- CD-BPR algorithm : liris gitlab repository

- IMPACT algorithm: github repository

Jury :

M. Nijssen Siegfried	Professeur(e)	Universit´e KU Leuven Belgique	Rapporteur(e)
M. Soulet Arnaud	Professeur(e)	UT de Blois et rattach´e au LI	Rapporteur(e)
Mme Brun Armelle	Professeur(e)	Université de Lorraine	Examinateur(trice)
M. Benouaret Idir	Maître de conférence	EPITA	Co-encadrant(e)
M. Plantevit Marc	Professeur(e)	EPITA	Co-directeur (trice)
M. Poncelet Pascal	Professeur(e)	Université de Montpellier	Examinateur(trice)
Mme Robardet céline	Professeur(e)	INSA Lyon	Co-directeur (trice)