Thèse de Auday Berro

Sujet :

Génération de paraphrases pour l’apprentissage automatique des services conversationnels

Date de début : 07/01/2020
Date de soutenance : 25/06/2024

Encadrant : Boualem Benatallah
Co-direction : Khalid Benabdeslem

Résumé :

Les Services de Dialogue (DS), comme les assistants virtuels et les bots orientés tâches, connaissent une adoption croissante grâce aux avancées des technologies open source, de l'IA et de la puissance de calcul. Ils améliorent les interactions homme-machine en facilitant les échanges en langage naturel. Ils ont transformé notre façon d'interagir avec les appareils, les sites web et les applications. Par exemple, un enfant de 2 ans peut écouter sa chanson préférée en disant simplement "Alexa, joue la chanson Baby Shark" avant même d'apprendre à utiliser un ordinateur.

Cependant, développer un bot reste un défi, notamment dans la traduction des énoncés des utilisateurs en intentions, en raison de la diversité des expressions linguistiques. Par exemple, pour l'énoncé "Quel temps fait-il à Lyon" le bot doit reconnaître l'intention (prévision météorologique) et les entités associées (lieu = Lyon). La même intention peut être exprimée différemment. Par exemple, un autre utilisateur pourrait demander "Quelles sont les prévisions météo pour Lyon".

Développer un bot implique la capacité à transformer une expression utilisateur en une ou plusieurs intentions, correspondant à l'identification des tâches que l'utilisateur souhaite accomplir (e.g. prévisions météorologiques). Le bot extrait ensuite les entités pertinentes (e.g. le lieu et la date de prévision). Enfin, il mappe l'intention et les paramètres vers des services back-end (e.g. appels API) pour obtenir les résultats. Cela se fait généralement en deux étapes : (i) entraîner un modèle de compréhension du langage naturel (NLU) pour mapper les énoncés des utilisateurs à des intentions prédéfinies et extraire les entités associées et (ii) développer des fonctions de webhook pour mapper les intentions vers des formes exécutables (par exemple, API) et satisfaire les demandes des utilisateurs en effectuant des tâches. Ainsi, l'entraînement d'un NLU nécessite un grand ensemble d'énoncés pour chaque intention avec toutes les compositions possibles d'entités.

Les énoncés qui se réfèrent à la même intention sont appelés paraphrases. La richesse et l'ambiguïté du langage humain soulignent l'importance de la paraphrase dans la construction de jeux de données diversifiés. La paraphrase est une tâche NLP cruciale pour créer des jeux de données diversifiés car elle reformule un énoncé tout en préservant son sens. Les approches traditionnelles comme l'embauche d'experts sont coûteuses, d'où l'intérêt croissant pour la génération automatisée de paraphrases. Cette thèse préconise l'utilisation de techniques de PG pour produire des jeux de données de qualité pour former les chatbots, en mettant l'accent sur la diversité et la pertinence sémantique.

Les principales contributions incluent la mise en œuvre et l'évaluation d'un pipeline PG de base et la prise en charge de défis tels que la pertinence sémantique et la diversité. Une taxonomie des erreurs dans les modèles de génération de paraphrases basés sur les transformateurs a conduit au développement d'un nouvel ensemble de données annoté et d'un modèle d'annotation de paraphrase multi-étiquettes. Inspirée par des études de crowdsourcing antérieures, nous avons étudié le potentiel de tirer parti des LLM, tels que GPT-3.5, pour des tâches de génération de paraphrases syntaxiquement diverses. Nous avons reproduit une étude qui a proposé un pipeline de paraphrase multi-étapes guidant le crowdsourcing pour produire des paraphrases syntaxiquement diverses. Nous avons remplacé les travailleurs de crowdsourcing humains par des LLM et effectué une analyse comparative pour démontrer leur efficacité dans des tâches de génération de paraphrases contrôlées. Globalement, cette thèse présente une exploration complète des techniques de génération automatisée de paraphrases pour relever les défis de l'acquisition de jeux de données de haute qualité pour la construction de Services de Dialogue robustes et réactifs.

Jury :

M. Bellatreche Ladjel	Professeur(e)	ENSMA	Rapporteur(e)
Mme. Benbernou Salima	Professeur(e)	Université Paris Cité	Rapporteur(e)
Mme. Ailem Melissa	Chercheur	Microsoft CA (USA)	Examinateur(trice)
M. Bounekkar Ahmed	Maître de conférence	Université Lyon 1	Examinateur(trice)
Mme. Rosset Sophie	Directeur(trice) de recherche	CNRS (LISN)	Examinateur(trice)
M. Zitouni Imed	Chargé(e) de Recherche	Google WA (USA)	Examinateur(trice)
M. Benabdeslem Khalid	Maître de conférence	Université Lyon 1	Directeur(trice) de thèse
M. Benatallah Boualem	Professeur(e)	Dublin city university	Co-directeur (trice)