Thesis of Mathieu François
Subject:
Start date: 04/09/2021
End date (estimated): 04/09/2024
Advisor: Véronique Eglin
Summary:
La dématérialisation de la documentation papier est devenu un nouvel enjeu de l’entreprise actuelle : elle ne se limite pas à scanner des documents, ni à simplement stocker de gros volumes de documents numérisés, mais elle consiste à capturer, annoter, reconnaître et sécuriser des informations, des données, et des documents provenant de sources diverses, en circulation dans l’entreprise et se présentant sous de multiples formats.
La dématérialisation constitue en soi une problématique de société, car elle touche tous les secteurs de l’économie et permet d’accéder à de nouveaux outils d’analyse et d’exploitation des données. Un des grands enjeux de l’industrie 4.0 est donc la digitalisation de toutes ces données non-intelligentes. Dans le contexte particulier de la documentation technique industrielle (schémas d’infrastructures et d’installations industrielles), il existe un patrimoine très hétérogène. A titre d’exemples, on pourra ainsi disposer d’un côté des plans illustrant les installations industrielles très anciennes et dont on ne dispose qu’un scan brut sans annotation, et de l’autre, de plans scannés à très haute résolution bénéficiant d’une documentation CAO numérique rendant la description et l’annotation des composants de la carte quasi instantanée. Pour les documents initialement en support papier (on répertorie des quantités voisines du million de plans), puis scannés, et en présence d’une documentation préservée (nomenclature), on peut faire le constat qu’une exploitation automatique n’est à ce jour pas possible. Le cas de figure le plus commun est la disponibilité des documents d’ingénierie (plans, diagrammes de process…) au format PDF scanné et non-structuré (non-sélectionnable). L’absence de données disponibles pour un traitement automatique a pour conséquence de ne permettre qu’une exploitation manuelle de ces plans, ce qui représente un travail extrêmement fastidieux, compte-tenu de la quantité de données à segmenter, à indexer et à répertorier. Il n’est en effet pas rare qu’un projet contienne plusieurs dizaines de milliers de plans, ce qui constitue une masse de travail considérable à effectuer par un opérateur humain.
Dans ce contexte, l’objectif du travail de thèse est d’aboutir à une solution de reconnaissance de texte et de symboles sur les documents d’ingénierie visant la construction et le remplissage de bases de données. Il s’agit d’un travail de recherche centré sur la transformation numérique des cartes et plans contenant des informations textuelles et symboliques (textes, symboles et schémas) peu structurés.
Ce travail concerne différentes étapes de la transformation numérique des contenus: l'automatisation de la rétro-ingénierie de pattern de données non-structurées, l'extraction des tags (entités nommées et abréviations textuelles) en environnement non contraint (non-structuré) et la classification de ces tags selon leur contenu et leur contexte ; la reconnaissance de symboles graphiques simples et complexes (apprentissage de représentation et classification en environnements semi-supervisés) ; la reconnaissance conjointe contextualisée et couplée des tags et des symboles sur les documents scannés et l'analyse de la structure des schémas incluant des mécanismes de désambiguïsation de la reconnaissance ; une représentation complète et enrichie des plans et de leurs données symboliques et textuelles (visualisation des liaisons entre symboles), visant une annotation sémantique des documents et leur compréhension ; la mise en place d’une plateforme de recherche par le contenu conçue pour interroger des bases de données de plans à partir de requêtes graphiques ou textuelles