Thèse de Ichrak Ennaceur


Sujet :
Apprentissage multimodal à base de graphe de connaissances pour la recommandation dans le domaine de l'éducation et de la formation professionnelle

Date de début : 01/10/2023
Date de fin (estimée) : 01/10/2026

Encadrant : Haytham Elghazel
Co-encadrant : Alexandre Aussem

Résumé :

Inokufu, une startup EdTech lyonnaise, travaille avec Pôle Emploi et la Direccte sur le développement de Becomino, une application permettant de découvrir et se former aux métiers en tension (www.becomino.com). Cette application repose en partie sur une indexation/enrichissement de plusieurs millions de formations et ressources pédagogiques à ce jour.  
Face à la richesse des choix de LO dans Becomino (Bientôt 2 millions), les utilisateurs pas tous égaux. Les plus autodidactes arrivent à s’y retrouver mais les autres sont perdus et ont tendance par défaut à rester sur les modes d’apprentissage qu’ils connaissent ou ceux qui sont le plus facile d’accès, quitte à ce que ce ne soit pas du tout le meilleur choix dans leur cas. L’objectif principal de ce projet de thèse est d’être en mesure de guider de manière personnalisée les utilisateurs vers l’information la plus adaptée à leur cas spécifique et au-delà d’ailleurs des simples fiches d’orientation. L’objectif visé est donc la recherche d’un système de recommandation capable de mettre en évidence des corrélations significatives entre les spécificités individuelles de chaque apprenant (données sociodémographiques, compétences générales, expériences professionnelles, parcours de formation, besoins spécifiques d’apprentissage, etc.) et l’ensemble des informations disponibles sur les ressources éducatives et de formations (LO) qui sont quant à elles des objets complexes pouvant contenir à la fois des données de type numériques (prix, durée, etc), textuelles (Titre, pré-requis, compétences acquises, descriptions, etc.), images et aussi vidéos.  
Par ailleurs ces objets de formation sont souvent rattachés à d’autres concepts comme les aptitudes, les compétences et les certifications qu’ils apportent. Ces concepts présentent le lien principal entre la ressource pédagogique (LO) et le métier recherché par l’utilisateur. Dans ce cadre, il existe plusieurs référentiels au monde qui recense et catégorise les aptitudes, les compétences, les certifications et les professions pertinentes pour le marché du travail, l’enseignement et la formation comme la classification européenne ESCO ou celle de Pole Emploie ROME. Ils présentent systématiquement les liens entre les différents concepts. En effet, la composition de ces référentiels en professions hiérarchisées et composées d’un ensemble d’aptitudes/compétences et savoirs permet d’avoir une lecture claire et simplifiée d’une profession. Dans ce contexte, ces référentiels deviendront un véritable support d’aide à la décision dans les travaux de cette de thèse concernant le développement d’un système de recommandation pour rapprocher des individus inscrit dans une démarche d’orientation professionnelle à la ressource pédagogique la plus adaptée.  
Étant donnée la nature complexe de ces données, les besoins exprimés par Inokufu couvrent donc les aspects suivants :  ●    Proposer une approche pour aligner plusieurs référentiels de métiers et de compétences (ESCO, ROME et autres) afin de construire un référentiel unique qui sera considéré comme un graphe de connaissances qui viendra enrichir notre méthodologie de recommandation. Ceci relève d’un problème d‘Entity Resolution, Entity Matching ou Entity Alignment [1,2,3,4,5] qui cherchera à analyser les différents graphes de connaissances afin de suggérer des équivalences entre eux en exploitant les termes, les descriptions disponibles et les différents niveaux hiérarchiques qui structurent les différents référentiels dans notre cas.
●    Déterminer la compatibilité entre LO et un utilisateur et donc pouvoir orienter l’utilisateur vers les ressources adaptées à l’étape dans laquelle il se trouve de son projet professionnel. En effet, Becomino souhaite amener les utilisateurs à construire leur projet professionnel de manière douce en leur offrant une grande variété de points d’entrée puis en les sollicitant de manière personnalisée depuis la découverte du métier jusqu’à la compréhension, la mise en pratique, voire l’entrée en formation certifiante ou diplômante. Ce besoin suscite plusieurs niveaux de complexité en apprentissage automatique. En effet, les données descriptives des utilisateurs (et aussi des LOs) sont hétérogènes et caractérisées par des espaces de description différents (en termes de dimension et de contenu), ce qui place l’apprentissage pour la recommandation dans un contexte multimodal. Un nombre important de travaux de recherche ont traité́ la problématique de la recommandation au cours des dernières années. Ces travaux sont issus de plusieurs domaines comme le Machine Learning, les statistiques et la recherche d’information. La méthodologie de recommandation envisagée dans cette thèse se basera sur l’analyse de l’ensemble des informations disponibles sur les LOs et également les utilisateurs en utilisant des techniques de Transformers [6] largement utilisés dans le traitement automatique de la langue qu’il s’agit d’améliorer en intégrant l’aspect temporalité (time-aware) [7] présent dans les données (historique de recherche sur Becomino, historique de formations, historique d’expérience professionnelle, etc.) ainsi qu’en prenant en compte l’information supplémentaire sur les concepts liés à notre domaine de formation professionnelle (aptitudes, compétences, certifications, professions, etc.) fournie par le graphe de connaissance résultat de l’étape précédente. Une méthodologie de recommandation basée sur les transformers de par leur utilisation du mécanisme d’attention constituera des qualités indéniables d’un point de vue de l’explicabilité de l’adéquation (Matching) ou non d’un LO avec un utilisateur Implémenter et déployer ces derniers travaux dans la plateforme d’Inokufu se basant sur la pratique MLOPS qui permettra le déploiement continu et le run des systèmes ML d’une manière plus fluide. Références 1.    Zequn Sun, Qingheng Zhang, Wei Hu, Chengming Wang, Muhao Chen, Farahnaz Akrami, Chengkai Li. A Benchmarking Study of Embedding-based Entity Alignment for Knowledge Graphs. Proc. VLDB Endow. 13(11): 2326-2340 (2020)
2.    Shichao Pei, Lu Yu, Guoxian Yu, Xiangliang Zhang. REA: Robust Cross-lingual Entity Alignment Between Knowledge Graphs. KDD 2020: 2175-2184
3.    Zequn Sun, Chengming Wang, Wei Hu, Muhao Chen, Jian Dai, Wei Zhang, Yuzhong Qu. Knowledge Graph Alignment Network with Gated Multi-Hop Neighborhood Aggregation. AAAI 2020: 222-229
4.    Qi Zhu, Hao Wei, Bunyamin Sisman, Da Zheng, Christos Faloutsos, Xin Luna Dong, Jiawei Han. Collective Multi-type Entity Alignment Between Knowledge Graphs. WWW 2020: 2241-2252
5.    Michael Azmy, Peng Shi, Jimmy Lin, Ihab F. Ilyas. Matching Entities Across Different Knowledge Graphs with Graph Embeddings. arXiv, 2019.
6.    Fei Sun, Jun Liu, Jian Wu, Changhua Pei, Xiao Lin, Wenwu Ou, Peng Jiang. BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer. CIKM : 1441-1450, 2019.
7.    Jiexin Wang, Adam Jatowt, Masatoshi Yoshikawa, Yi Cai. BiTimeBERT: Extending Pre-Trained Language Representations with Bi-Temporal Information. SIGIR: 812-821, 2023.