Thèse de Alaa Alhamzeh
Sujet :
Date de soutenance : 15/05/2023
Encadrant : Elod Egyed-Zsigmond
Co-encadrant : Lionel Brunie
Co-tutelle : Harald Kosch
Résumé :
La thèse de Alaa Alhamzeh se concentre sur l’extraction d’informations structurées à partir de textes provenant des réseaux sociaux et de la presse en ligne. Elle touche des aspects diverses, tels que la caractérisation des auteurs, la détection des sentiments, l’extraction des arguments ou encore la détection des évènements dans l’objectif de prévoir des évolutions des prix d’actions à la bourse.
Les travaux d’Alaa Alhamzeh ont commencé en 2017 par des études de caractérisation d’auteurs de messages courts sur internet. Ils ont abouti par deux participations à la compétition Internationale CLEF (en 2018 (Ciccone et al., 2018) et 2019 (Goubin et al., 2019)) avec des résultats dans le top 5%.
Ses travaux se sont tournés, après un congé de maternité et parentale de plus d’un an, sur la détection et l’extraction d’arguments à partir de textes. Ce domaine, relativement récente, du traitement automatique de la langue a comme objectif d’identifier des prémisses (proposition, une affirmation avancée en support d’une conclusion) et des conclusions (affirmation qu'un argument cherche à prouver, dans un discours en rhétorique) dans un texte. Elle travaille notamment sur une méthode de classification de textes en arguments ou non arguments, utilisant une approche qui combine des modèles de classifications « classiques » tels que les Machines à Support de Vecteurs (SVM) (Cortes & Vapnik, 1995) avec des modèles basés sur des transformers basées sur DistilBERT (Sanh et al., 2019; Wolf et al., 2020) à l’aide de l’apprentissage ensembliste (Sagi & Rokach, 2018). Cette approche est originale est a donné lieu à une publication dans la conférence internationale DEXA en 2021 (Alhamzeh, Bouhaouel, Egyed-Zsigmond, Mitrovic, et al., 2021), ainsi qu’à une participation à l’édition 2021 de la compétition CLEF (Alhamzeh, Bouhaouel, Egyed-Zsigmond, & Mitrovic, 2021).