Thèse de Mary Cerullo

Sujet :

Extraction, structuration et intégration de données hétérogènes par approche homme-machine

Date de début : 04/05/2026
Date de fin (estimée) : 04/05/2029

Encadrant : Angela Bonifati

Résumé :

Ce sujet de recherche s’inscrit dans le contexte de l’exploitation de données scientifiques et industrielles hétérogènes, issues à la fois de la littérature scientifique (articles, rapports, documents PDF) et de jeux de données existants. L’objectif principal est de concevoir et d’évaluer des méthodes robustes d’extraction, de structuration et d’intégration de données complexes, en combinant des approches automatiques basées sur l’intelligence artificielle et une validation humaine experte.
La première problématique de recherche concerne l’extraction fiable d’informations à partir de sources non structurées ou faiblement structurées (PDF, graphiques, tableaux). Les travaux porteront sur le développement de pipelines d’extraction s’appuyant sur des techniques d’OCR, de reconnaissance d’entités et de relations, ainsi que sur l’utilisation de modèles de type LLM et RAG pour interroger dynamiquement les documents, identifier des passages pertinents et assister la reformulation ou la complétion d’informations. Une attention particulière sera portée aux mécanismes de traçabilité et d’alignement avec les sources originales, afin de garantir l’auditabilité des données extraites. L’enjeu scientifique réside dans la conception de systèmes d’extraction capables de s’adapter à des documents hétérogènes tout en intégrant l’humain dans la boucle pour contrôler la qualité et limiter les erreurs automatiques.
La seconde problématique concerne la standardisation et la structuration des données extraites sous la forme d’un graphe de propriétés (Property Graph). Les travaux viseront à définir des méthodes de transformation systématique des données textuelles et tabulaires vers un schéma formel, en s’appuyant sur des mécanismes de PG-schema et de PG-keys afin de garantir la cohérence, l’unicité et l’intégrité des entités et des relations. Cela inclut l’alignement sémantique des entités, la normalisation des attributs (types, unités, formats) et l’intégration de données numériques issues de tableaux structurés sous forme d’attributs ou de relations explicites dans le graphe.
Enfin, la troisième problématique porte sur l’intégration et le rapprochement de jeux de données multiples au sein d’un graphe de propriétés centralisé. Les recherches s’intéresseront à l’identification et à la fusion d’entités représentant un même objet réel, ainsi qu’au choix et à l’implémentation de stratégies d’intégration de type Global-as-View ou Local-as-View. Un axe original du travail concernera l’extension de mécanismes de maintenance de vues et de déclencheurs (triggers) pour graphes de propriétés, afin de garantir la cohérence du graphe lors de l’évolution des données et des sources.
Ce sujet de recherche contribue ainsi à l’avancement des méthodes de gestion de données complexes, à l’interface entre intelligence artificielle, interaction homme-machine et bases de données, avec des retombées directes pour l’exploitation scientifique et industrielle de données sensibles et hétérogènes.