Thèse de Armelle Ndjafa


Sujet :
Dataspace spécialisé et sécurisé

Date de début : 01/12/2008
Date de fin (estimée) : 01/12/2011

Encadrant : Frédérique Laforest
Co-encadrant : Lionel Brunie
Co-direction : Harald Kosch
Co-tutelle : Harald Kosch

Résumé :

Application à la recherche et l'agrégation d'informations dans des bases de données patients
L’ensemble des pays européens ont acté le principe de la mise en place du dossier médical partagé. Garantissant le respect des contraintes de confidentialité, le dossier médical partagé a vocation à répondre aux besoins de partage d'informations médicales multi-pathologiques entre l’ensemble des professionnels de santé participant à la prise en charge d'un patient. Concrètement, il s’agit d’accéder rapidement et de manière sécurisée aux différentes sources d’informations relatifs au patient, qu’ils soient suivis dans des hôpitaux ou cliniques, par des réseaux de soins ou par des médecins de ville.
En Rhône-Alpes, un projet est ainsi coordonné par le SISRA (Système d’Information de Santé du Rhône-Alpes). Fondé sur les outils préalablement développés dans le cadre du réseau Oncora (réseau de cancérologie de la région Rhône-Alpes), le DPPR (Dossier Patient Partagé et Réparti) Rhône-alpin s’appuie sur une structure d’index partagé listant d’une part les descripteurs des éléments du dossiers relatifs à un patient et listant d’autre part, pour chaque élément du dossier, le lien vers le dispositif de stockage où il est hébergé.
Cette structure de données s’avère particulièrement pertinente dans le cadre de recherches «orientées» patients (par exemple «Rechercher la dernière radiographie du poumon de Mr X») ou des requêtes de navigation dans le dossier du patient (le suivi d’une pathologie, par exemple).
Par contre, elle s’avère très mal adaptée au traitement de requêtes diagnostiques «de similarité» (par exemple «Rechercher tous les patients ayant la même pathologie que Mr X et présentant des numérations sanguines proches de celles de Mr X»). En effet, il faut concrètement, pour traiter cette requête, accéder à l’ensemble des examens sanguins de l’ensemble des patients ayant la même pathologie, opération particulièrement coûteuse (et même prohibitive si on s’intéresse à des similarités sur données images). Pour les mêmes raisons, cette structure de données rend très difficile le traitement de requêtes épidémiologiques (fondées sur l’analyse des données d’un ensemble de patients).
Dans ce contexte, l’objectif de cette thèse est de proposer des mécanismes et des protocoles de gestion de données réparties partiellement indexées adaptés au traitement de requêtes de similarité et d’agrégation de données. Le cadre expérimental sera fourni par les données du DPPR Rhône-alpin et par le traitement de requêtes épidémiologiques et diagnostiques.
Sur un plan fondamental, on s’intéressera en particulier :
•à la notion de résumé d’élément d’information (élément de dossier). Allant au-delà des descripteurs basiques (métadonnées) d’information, le résumé doit permettre de faire remonter au niveau « partagé » des informations sémantiques, analytiques sur les informations (textuelles et multimédias) considérées ;
•à la notion de « dataspace personnalisé ». Un dataspace propose une vue intégrée et dynamique sur un ensemble de gisements de données. Utilisée primitivement pour intégrer des données issues de capteurs, la notion de dataspace a été récemment transposée à la gestion de données personnelles hétérogènes (courriels, fichiers, données d’agenda, etc.) réparties sur des dispositifs multiples (ordinateur portable, PDA, hébergeurs de courriel, etc.). Il s’agira ici de proposer des mécanismes permettant de définir, sur l’ensemble des dispositifs de stockage accessibles dans le réseau, des « vues » spécialisées/personnalisées (ex : dataspace des patients atteints de diabète de type 1, dataspace des patients présentant un certain profil diagnostic, etc.). On s’intéressera notamment à la spécification des dataspaces (quelles sont les données devant être extraites des dossiers et remontées au niveau global ? Quelles sont les données agrégées calculées dynamiquement ? Etc.), à la gestion des données dynamiques du dataspace, à la fusion de dataspaces, à la sécurisation du dataspace (notion de dataspace spécialisé/personnalisé et sécurisé).

Ces travaux s’effectueront en collaboration avec le GIP SISRA (Thierry Durand, responsable du DPPR) http://www.sante-ra.fr/ et le réseau ONCORA (Hervé Spacagna, responsable SI du réseau Oncora) http://oncoranet.lyon.fnclcc.fr/ qui fourniront le cadre expérimental de validation des approches proposées.