Thèse de Malek Abid

Sujet :

Modèles de langage à grande échelle dotés d'agents pour la compréhension et la restauration de documents historiques.

Date de début : 11/06/2026
Date de fin (estimée) : 11/06/2029

Encadrant : Frank Lebourgeois

Résumé :

La thèse porte sur le développement d’un cadre intelligent basé sur les Agentic Large Language Models (Agentic LLMs), appliqué à l’analyse, la compréhension et, à terme, la restauration automatique de documents historiques complexes. L’objectif général est de proposer une architecture capable de traiter des documents fortement hétérogènes en s’appuyant sur des agents spécialisés et collaboratifs, aptes à décomposer des tâches complexes et à mettre en œuvre un raisonnement progressif, structuré et explicable.
Dans un premier axe, la recherche s’intéresse à la compréhension approfondie (document understanding) des documents historiques, en particulier à la modélisation de leur structure logique, visuelle et sémantique. Ces documents présentent des caractéristiques spécifiques telles que des mises en page irrégulières, des annotations marginales, des figures, des tableaux, ainsi que des relations spatiales implicites entre les différents éléments. L’objectif est d’identifier, de segmenter et d’organiser ces composantes dans une représentation structurée et exploitable, en s’appuyant sur des approches multimodales combinant vision par ordinateur et traitement automatique du langage naturel.
Un second axe de la thèse concerne la restauration et la reconstruction de contenus dégradés. Les documents historiques étant souvent affectés par des altérations physiques (effacement de l’encre, déchirures, pages incomplètes ou fragments manquants), l’objectif est de concevoir des méthodes capables de reconstituer les informations manquantes tout en garantissant la cohérence linguistique, stylistique et historique. Cette partie repose notamment sur des mécanismes de génération conditionnelle, de complétion contextuelle et de raisonnement guidé par le contexte documentaire.
La thèse intègre également la conception d’une architecture multi-agents basée sur les Agentic LLMs, dans laquelle différents agents spécialisés sont responsables de tâches complémentaires telles que l’analyse visuelle, l’interprétation sémantique, la fusion multimodale et la génération de contenu. L’interaction et la coordination entre ces agents visent à améliorer la robustesse, la précision et la capacité de généralisation du système face à la diversité et à la complexité des documents historiques.
Une dimension transversale importante du travail concerne l’intégration de mécanismes d’explicabilité (Explainable AI). L’objectif est de garantir la transparence et l’interprétabilité du cadre proposé, en assurant la traçabilité des décisions prises par les agents, la justification des résultats produits et la visualisation des étapes intermédiaires du processus de traitement.
Enfin, la thèse prévoit la mise en place d’un protocole d’évaluation rigoureux, combinant des métriques quantitatives (précision, rappel, F1-score, taux de reconstruction correcte) et des évaluations qualitatives menées en collaboration avec des experts du domaine (historiens, linguistes, archivistes). Cette double approche permet d’évaluer à la fois les performances techniques et la pertinence historique et sémantique des résultats obtenus.