Thèse de Alice Brenon


Sujet :
Méthodes et outils pour l’étude diachronique des discours géographiques dans les encyclopédies françaises.

Date de début : 01/02/2021
Date de fin (estimée) : 01/02/2024

Encadrant : Frédérique Laforest
Co-encadrant : Ludovic Moncla
Co-direction : Denis Vigier

Résumé :

Ce projet de thèse s’inscrit dans le cadre du projet GEODE (“Encyclopedic GEOgraphical DiscoursE: Writing about Geography in France from the Enlightenment to the Age of Wikipedia”) financé par le LabEx ASLAN sur la période 2020-2024.
Ce projet interdisciplinaire réunit un consortium de chercheurs en informatique, linguistique, géographie et histoire appartenant aux laboratoires LIRIS, ICAR, EVS, LLF et LIDILEM ainsi qu’à l’Institut Alan Turing (Londres). GEODE s’appuie sur les résultats de projets précédents dans lesquels les différents partenaires ont pu collaborer [8, 9, 13, 14] et vise à en étendre les objectifs scientifiques. L’objectif principal visé est le développement de méthodes pour l’étude des changements majeurs survenus au sein des discours géographiques dans les encyclopédies françaises entre la seconde moitié du XVIIIe​ siècle (Encyclopédie de Diderot et d’Alembert) et nos jours (Wikipedia).

Le travail de thèse sera décomposé en plusieurs objectifs complémentaires.
Tout d’abord, le/la doctorant-e se concentrera sur la préparation des corpus (homogénéisation des formats, corrections, annotations) afin que le contenu de chaque encyclopédie puisse être traité par des méthodes automatiques. Ensuite, la proposition consistera à développer des algorithmes adaptés pour l’analyse automatique et la recherche d’informations géo-sémantiques et de routines discursives. Le/la doctorant-e s’intéressera en particulier au développement de modèles linguistiques adaptés à l’analyse diachronique du discours géographique. La méthodologie reposera sur la conception d’une chaîne de traitement nécessitant des ressources spécifiques pour le traitement de données géo-historiques (documents annotés, modèles linguistiques, ressources géographiques, etc.). Cette chaîne de traitement fera intervenir des méthodes de classification supervisée ou semi-supervisée pour la classification de textes et le repérage automatique de routines discursives ainsi que des méthodes d’apprentissage profond pour la génération de modèles de langue (tels que les word embeddings). Enfin, une étape du travail consistera également à proposer des méthodes d’interrogation et de visualisation adaptées pour l’analyse et la comparaison des différents corpus.

Une des originalités de cette thèse sera d’articuler approches quantitative et qualitative afin d’éclairer i) les stratégies sélectionnées pour la classification automatique des textes et la génération de modèles de langue ii) l’interprétation des résultats obtenus par ces méthodes. L’objectif principal de cette thèse sera donc le développement et l’amélioration de méthodes de recherche et d’extraction automatique d’information géographiques pour l’analyse des discours géographiques. Parmi les résultats attendus, on peut citer la mise à disposition des données, ressources, résultats et algorithmes (préparation et correction des corpus, annotations morphosyntaxiques, annotations géo-sémantiques, modèles de langue, ressources géographiques) qui seront produits au cours de la thèse ainsi que la valorisation scientifique des méthodes développées et des résultats obtenus.