Thèse de Guillaume Lefebvre


Sujet :
Apprentissage et exploitation de représentations sémantiques pour la classification multi-label hiérarchique et la recherche d'objets de formation dans le domaine de l'éducation et de la formation professionnelle

Date de soutenance : 17/12/2024

Encadrant : Alexandre Aussem
Co-encadrant : Haytham Elghazel

Résumé :

Inokufu est née de la rencontre de deux expertises portées par les cofondateurs : l'andragogie et les data sciences. L’idée est de combiner le traitement algorithmique des données éducatives avec un système d’audits humains, pédagogique et métier. Malgré le surcoût significatif que cela représente, les données éducatives ainsi traitées sont de meilleure qualité et peuvent être utilisées pour développer des algorithmes de catégorisation et de recommandation, spécifiques au domaine de l’éducation et de la formation professionnelle.

L'objectif principal de ce projet de thèse est d'explorer, d'adapter et de développer des méthodes avancées pour la classification multi-label hiérarchique et la recherche d'objets de formation (Learning Objects), tout en répondant aux spécificités du domaine éducatif. En particulier, cette thèse se concentre sur l'apprentissage de représentations sémantiques adaptées à ces tâches, en s'appuyant sur des méthodes de Traitement Automatique des Langues adaptés aux nuances linguistiques et sémantiques propres au domaine.

Étant donné la nature complexe de ces données, les besoins exprimés par Inokufu couvrent donc les aspects suivants :

  1. Capacité de traiter des terminologies spécialisées : les textes issus du domaine de l'éducation et de la formation professionnelle utilisent des termes spécifiques souvent absents des corpus généraux. Il est essentiel de disposer d'un modèle capable de comprendre et d'exploiter ces terminologies spécialisées, garantissant ainsi que les contenus soient correctement représentés et recherchés. Cela améliore la précision des correspondances entre l'offre de formation et les besoins exprimés par les utilisateurs.
     
  2. Classification hiérarchique et structurée des contenus : les données éducatives et professionnelles se caractérisent par des hiérarchies complexes (compétences, certifications, parcours de formation). Afin de pouvoir naviguer efficacement dans ces structures et aider les utilisateurs à trouver les ressources adéquates, il est crucial d'avoir une classification qui respecte et reflète ces hiérarchies. La solution doit permettre de classifier les contenus de manière à préserver les relations entre niveaux (par exemple, des catégories générales et leurs sous-thèmes).
     
  3. Efficacité de la recherche sémantique : pour améliorer l'expérience des utilisateurs, la recherche d'objets de formation doit aller au-delà de la simple recherche par mots-clés. Il est indispensable d'implémenter une recherche sémantique qui soit capable de comprendre les intentions des utilisateurs, même lorsque ceux-ci utilisent des termes approximatifs ou des expressions variées pour décrire leurs besoins.

Pour répondre à ces besoins, deux contributions majeures ont été développées dans cette thèse :

  1. BERTEPro : un nouveau cadre de représentation sémantique adapté aux textes du domaine de l'éducation et de la formation professionnelle. En combinant une phase de pré-entraînement spécifique sur des corpus du domaine avec un affinage sur des tâches générales, BERTEPro permet de mieux saisir les subtilités sémantiques et de produire des représentations précises et pertinentes, améliorant ainsi la capacité à classifier et à rechercher des contenus pédagogiques.
     
  2. HMCCCProbT : un cadre de classification hiérarchique multi-étiquette, capable de modéliser les dépendances locales et globales au sein des structures hiérarchiques de manière efficace. En utilisant un mécanisme de transmission probabiliste, HMCCCProbT permet une précision accrue tout en évitant les erreurs liées à la propagation de décisions erronées à chaque niveau de la hiérarchie.

Ces deux approches complémentaires ont été validées par des expériences sur des ensembles de données réelles issues du domaine de l'éducation et de la formation professionnelle. Elles ont démontré leur capacité à améliorer la qualité de la classification et de la recherche d'objets de formation dans un contexte éducatif.


Jury :
Mme Smail Tabbone Malika Professeur(e)Université de LorraineRapporteur(e)
M. Mephy Nguifou Engelbert Professeur(e)Université d’Auvergne, Clermont-FerrandRapporteur(e)
Mme Azzag Hanene Professeur(e)Université Sorbonne Paris NordExaminateur​(trice)
M. Kheddouci Hamamache Professeur(e)LIRIS Université Claude Bernard Lyon 1Examinateur​(trice)
Mme Benamara Farah Professeur(e)Université Paul Sabatier de ToulouseExaminateur​(trice)
M. Aussem AlexandreProfesseur(e)LIRIS Université Claude Bernard Lyon 1Directeur(trice) de thèse
M. Elghazel HaythamMaître de conférenceLIRIS Université Claude Bernard Lyon 1Co-encadrant(e)
M. Sonnati MatthieuPDG InokufuInvité(e)