Thèse de François Wieckowiak


Sujet :
Détection et extraction de formules mathématiques et chimiques pour la publication de brevets

Date de début : 01/09/2023
Date de fin (estimée) : 01/09/2026

Encadrant : Véronique Eglin
Co-encadrant : Stéphane Bres

Résumé :

La thèse a pour objectif de développer des solutions d'aide à la segmentation et la reconnaissance de symboles graphiques au sein de documents techniques de type brevet d'invention dans le cadre d'une collaboration avec l'entreprise française Luminess (Paris). Le but vise à alléger et rendre plus rapide le travail des opérateurs humains en leur proposant des régions candidates de grande qualité (détection) et leur reconnaissance (identification des objets d'intérêt complexes que sont les éléments de formules, d'équations ou de symboles).  Scientifiquement, le coeur de la thèse reposera sur la mise en place de solutions logicielles performantes de détection et de reconnaissance de ces objets, incluant la détection des zones d'intérêt et la compréhension du contexte de leur utilisation décrit dans les documents. Les algorithmes de reconnaissance qui existent aujourd’hui sont puissants mais n’obtiennent pas des scores de qualité suffisamment élevés  pour les utiliser tels quels dans une chaîne de transformation numérique complète. De plus, ces algorithmes sont en général entrainés et testés sur des formules issues d’articles scientifiques et pas sur des brevets, pour lesquels la qualité des scans est très variable en fonction des offices et des inventeurs. La spécificité des données des brevets (présence d’informations textuelles et graphiques selon des mises en page spécifique au domaine)  et la difficulté à disposer d’annotations suffisantes rendent les questions de la reconnaissance des objets scientifiques  (formules, équations ou schémas) très complexes.