IXXI 2024 - PROJET CORPUS LEXICOGRAPHIQUES | Laboratoire d'InfoRmatique en Image et Systèmes d'information

IXXI 2024 - PROJET CORPUS LEXICOGRAPHIQUES (IXXI 2024 - PROJET CORPUS LEXICOGRAPHIQUES)

Description du projet :

Segmentation de corpus lexicographiques numérisés à l'aide de LLMs : étude du Dictionnaire Universel François-Latin et de La Grande Encyclopédie.

Ce projet explore l’application des grands modèles de langage (LLMs) pour la segmentation automatique de documents lexicographiques anciens numérisés. À partir de deux corpus majeurs — le Dictionnaire Universel François-Latin de Trévoux (1704–1771) et La Grande Encyclopédie (1886–1902) —, il vise à extraire automatiquement les entrées lexicographiques depuis deux types de données : PDF (image) et XML METS/ALTO (issus des chaînes de numérisation de la BnF). Deux approches seront expérimentées, respectivement fondées sur les modèles GPT, LLaMA et MistralOCR, afin d’évaluer leur efficacité sur des formats distincts mêlant texte et structure. L’objectif est de renforcer la segmentation de ces corpus complexes et de proposer une méthode réplicable pour l’analyse de collections patrimoniales numérisées.

Tutelle gestionnaire : Centre National de la Recherche Scientifique
Dates du projet : 01/01/2025 - 31/12/2025
Équipe(s) : DM2L
Responsable scientifique LIRIS : Ludovic Moncla
Partenaires : Interactions, corpus, apprentissages, représentations (UMR5191)