Thèse de Vanessa El Khoury


Sujet :
Protection sémantique des données dans une base de données multimédia répartie

Date de soutenance : 01/09/2011

Encadrant : Lionel Brunie
Co-tutelle : Harald Kosch

Résumé :

Les bases de données multimédias (BDMM) permettent la gestion de documents de types variés (audio, image, texte, vidéo, etc.), souvent volumineux. La plupart des SGBD multimédias implémentent un stockage des données multimédias séparés de celui des méta-données. En outre, du fait de leur volume et/ou de leur situation géographique, les données multimédias se prêtent à une gestion répartie permettant de stocker à distance les données brutes (sans méta-données).
Outre les problèmes de transmission de données qui ont été largement étudiés et pour lesquels des solutions de cryptage de type global et sélectif ont été proposées, ou encore les problèmes d'authentification et de protection de la propriété intellectuelle, ce nouveau contexte pose des problèmes originaux de sécurité des données.
Le problème principal concerne la sécurisation des données stockées à distance et qui de ce fait deviennent accessibles indépendamment du contrôle d'accès effectué par le SGBD. Les solutions de cryptage traditionnellement proposées pour la transmission de données ne sont pas adaptées et ce, pour plusieurs raisons :
* Elles sont très coûteuses en temps de traitement et risquent de porter atteinte aux performances des BDMM.
* En conséquence, elles rendent le traitement des requêtes très complexe et dans certains cas irréalisable car, une fois cryptées, les données deviennent incomparables.
* Elles sont basées sur la représentation physique (cryptage brut) des données et non sur des aspects sémantiques, ce qui empêche de cibler avec précision les parties de la donnée à protéger et d'exprimer différents niveaux de sécurité.
En résumé, les documents multimédias doivent pouvoir être stockés -localement ou à distance- sous un format qui les protège des accès illicites. Ce format doit permettre des accès intégraux -au document entier- ou partiels et permettre d'établir des contraintes de protection basées sur la sémantique du document et non sur sa représentation physique. Les documents ainsi stockés doivent rester accessibles et manipulables par le SGBD pour les besoins des requêtes de l'utilisateur. De plus, une fois un document récupéré, l'utilisateur doit pouvoir le visualiser totalement ou partiellement en annonçant ses droits.
Cette thèse sera donc consacrée à l'étude de ces méthodes de protection et à la conception des mécanismes correspondants tant au niveau de l'exploitation du fichier par l'utilisateur que par le SGBD.
Dans ce travail, nous nous proposons donc d'analyser et de modéliser les différentes possibilités sémantiques de protection d'un fichier multimédia et les niveaux de protection qui peuvent être appliqués. Cela passera par le recensement des méta-données sémantiques pouvant influer sur l'accès aux données et la définition de politiques d'accès adaptées. Nous allons ensuite étudier l'impact de ces nouvelles règles de protection sur le fonctionnement du SGBD (analyse des requêtes, adaptation des requêtes en fonction du mode de protection ainsi que les optimisations possibles...). Nous étudierons également comment mettre en ?uvre ces contraintes sémantiques de protection au niveau du document lui-même. Le dernier volet de ce travail sera consacré à l'exploitation par l'utilisateur du fichier protégé : les mécanismes de représentation des droits et des clés de chiffrement, les protocoles de mise en ?uvre.... Quelles soient les solutions retenues, elles passeront nécessairement par la définition de méta-données spécifiques à la sécurité. Pour représenter celles-ci, on envisagera d'utiliser le nouveau standard MPEG-21.
Les propositions apportées seront testées sur une base de données multimédias, en grandeur réelle.