Thèse de Pascal Wehrle
Sujet :
Date de soutenance : 30/09/2007
Encadrant : Robert Laurini
Co-encadrant : Maryvonne Miquel
Résumé :
Pour faire face à la constante augmentation en volume des données à entreposer et à la complexité croissante des besoins en analyse, une solution consiste à déployer les entrepôts de données sur des systèmes distribués puissants. Depuis quelques années, les grilles de calcul ont connu un fort développement et les travaux sur les intergiciels (middleware) ont apporté des solutions dans leur utilisation pour des besoins de calcul. Le travail reste cependant entier ou presque, pour la gestion et l’analyse des données multidimensionnelles partagées sur la grille. Les entrepôts de données n'ont pas encore été déployés sur grille de calcul, et des problèmes multiples de gestion de données dans ce contexte (dynamicité, traçabilité, efficacité d'accès) doivent être résolus. Nous proposons une approche spécifique aux grilles de calcul qui sont des architectures particulièrement bien adaptées à l'absence d'instances centrales de contrôle. Les données de l'entrepôt sont réparties sur la grille et gérées de façon autonome par les n½uds de la grille. En particulier, la modélisation et la construction de l’entrepôt réparti sur grille de calcul, la publication des données disponibles et/ou calculables et l’exécution de requêtes distribuées OLAP sur de tels entrepôts virtuels sont étudiées dans ce travail. Nous proposons des méthodes d'indexation et d'exécution de requêtes destinées à permettre l'exploitation efficace d'entrepôts de données distribués dynamiquement sur grille. Cette recherche est appliquée dans le cadre du projet GGM (Grille Géno-Médicales) de l’ACI Masse de Données portant sur la conception d’un entrepôt de données génomiques et médicales sur grilles de calcul.