Thèse de Jonathan Pattin-Cottet

Sujet :

Extraction d’informations des documents médicaux par apprentissage profond

Date de début : 13/11/2023
Date de fin (estimée) : 13/11/2026

Encadrant : Alexandre Aussem
Co-encadrant : Véronique Eglin

Résumé :

Phealing, start-up lyonnaise créée en 2019, développe un logiciel à destination des pharmaciens afin de sécuriser la dispensation des médicaments. Notre ambition : devenir l’acteur de référence pour la sécurité des patients en officine.

Le logiciel développé par Phealing analyse en temps réel les ordonnances des patients lorsqu’elles sont numérisées par le pharmacien. Il recherche dans la liste des médicaments d’éventuels risques pour le patient, comme les interactions médicamenteuses ou les surdosages. Puis le logiciel vérifie que les médicaments transmis au patient sont bien conformes à la prescription et ne présentent pas de nouveaux risques. Ce logiciel a été commercialisé en octobre 2021 et est actuellement utilisé en officine.
Fort de son expérience dans l’extraction d’informations, Phealing souhaite étendre les analyses à d’autres types de documents médicaux, tels que des analyses biologiques ou des comptes-rendus d’hospitalisation. L’objectif est de pouvoir répondre à différentes questions à partir des documents disponibles (via le dossier médical partagé (DMP) par exemple) à des questions pharmaceutiques, comme : existe-t-il un risque pour le patient de prendre tel médicament ? Est-ce que le patient à une maladie chronique identifiée ? Adresser le bon médicament au patient, en prenant en compte toute sa spécificité, est au cœur de notre innovation.

L’analyse automatisée des documents est donc un axe de développement majeur pour Phealing qui y consacre une grande partie de son effort de recherche. Les grands enjeux auxquels nous faisons faire face sont :
 Améliorer la robustesse et la qualité de l’extraction des informations des prescriptions afin de réaliser des analyses plus justes et plus pertinentes. En particulier, la prise en compte d’informations contextuelles, la suppression du bruit, des mentions manuscrites ou encore la bonne interprétation des posologies sont aujourd’hui encore de qualité trop limitée
 Savoir traiter une plus grande diversité de documents médicaux, et non seulement les prescriptions médicales. La nouveauté des documents et la variabilité des informations à extraire représentent un obstacle pour le développement de nouvelles fonctionnalités.
Objectif
L’objectif des recherches est d’explorer de nouvelles méthodes et de mettre au point des techniques innovantes d’extraction d’information à partir de documents numérisés de différentes natures.

La modélisation du problème retenue consiste à mettre au point un algorithme de traduction d’un document non structuré (texte, image) en une information structurée, pouvant être exploitée par des algorithmes (fichier sous un format XML ou JSON par exemple). Les indicateurs de réussite du projet seront :
 La minimisation du taux d’erreur d’extraction de l’information, en comparant le résultat fourni par les modèles et l’information qui aurait été donnée par un professionnel de santé. La capacité à traiter des documents divers, sans hypothèses préalable sur la disposition des informations dans les documents.
 La robustesse des modèles confrontés à la diversité des informations contenues et de leur expression. Comme source de diversité, on peut notamment citer les différentes manières d’écrire un même médicament ou une pathologie, les erreurs d’orthographes, les abréviations ou encore les défauts de numérisation.
Des premières versions du modèle ont été réalisées, en exploitant des algorithmes déterministes (à base d’expression régulière et de recherche dans des dictionnaires). Des versions suivantes ont mis en œuvre des algorithmes de machine learning. Ces méthodes ont permis des avancées significatives, mais souffrent de certaines limitations, qui entraînent malheureusement des informations extraites trop souvent incomplètes ou erronées.
Une des limites est la variabilité des informations transmises, en particulier sur les informations de posologies, qui s’apparentent à du texte libre. De plus, de nombreuses prescriptions sont modifiées par les médecins après impression : des médicaments apparaissent barrés, des informations sur les médicaments, dosage, forme ou encore la posologie peuvent être ajoutées par écriture manuscrite. Enfin d’autres informations peuvent apparaître sur le scan, s’apparentant plus à du bruit, comme l’impression du ticket de caisse. Cela peut modifier les informations à extraire, il est donc important de pouvoir traiter cette surcouche manuscrite.

Une revue de l’état de l’art nous a orienté vers différentes méthodes performantes, mais néanmoins pas totalement satisfaisantes :
 La position des informations dans la page est mal exploitée. Il en résulte que certaines informations, situées en bout de ligne par exemple, ne sont pas bien extraites. Les algorithmes actuels ne tiennent pas forcément compte d’un contexte. Dans le cas de l’analyse d’ordonnance, l’ensemble des médicaments disponibles sur le marché est un contexte intéressant à prendre en compte : trouver un médicament qui n’existe pas dans les bases de données publiques n’a aucun sens. Cette information peut notamment permettre de corriger une éventuelle erreur commise par le prescripteur (et en pratique, les erreurs de saisie ne sont pas négligeables)
 L’usage de notre algorithme nécessite des taux d’erreur extrêmement bas, ce qui est difficilement compatible avec les problèmes de qualité du document reçu.
Différentes approches très récentes exploitent la représentation 2D du document pour améliorer la robustesse de l’extraction de document. Ce thème, peu mature, devrait permettre d’améliorer grandement la qualité de la traduction du document.
Dans un second temps, il s’agit de mettre au point des techniques capables de prendre en compte un contexte afin d’extraire une information cohérente au regard d’un contexte donné, comme par exemple une liste de médicaments issue d’une base de données ou une liste de pathologies dans un référentiel donné.

Parmi les techniques à l’état de l’art, on peut citer les mécanismes d’attention qui ont permis des avancées significatives dans le domaine du traitement automatisé du langage. Ces mécanismes d’attention ont plus récemment été utilisés avec des mécanismes de pointer- générateurs, particulièrement pertinents lorsque l’information à retranscrire présente une grande diversité.

Si les documents médicaux sont l'objectif principal d’application, dans le cadre de la recherche, nous travaillerons sur des documents de différentes natures, afin de ne pas faire trop d’hypothèses sur le format des documents et d’avoir plus de diversité. L’objectif de la thèse est d’obtenir des modèles qui se généralisent à d’autres problématiques.