Thèse de Usman Ahmed

Sujet :

Dynamic Cubing for Hierarchical Multidimensional Data Space

Date de soutenance : 18/02/2013

Encadrant : Maryvonne Miquel
Co-encadrant : Anne Tchounikine

Résumé :

De nombreuses applications décisionnelles reposent sur des entrepôts de données. Ces
entrepôts permettent le stockage de données multidimensionnelles historisées qui sont
ensuite analysées grâce à des outils OLAP. Traditionnellement, les nouvelles données
dans ces entrepôts sont chargées grâce à des processus d’alimentation réalisant des
insertions en bloc, déclenchés périodiquement lorsque l’entrepôt est hors-ligne. Une
telle stratégie implique que d’une part les données de l’entrepôt ne sont pas toujours
à jour, et que d’autre part le système de décisionnel n’est pas continuellement disponible.
Or cette latence n’est pas acceptable dans certaines applications modernes,
tels que la surveillance de bâtiments instrumentés dits "intelligents", la gestion des
risques environnementaux etc., qui exigent des données les plus récentes possible pour
la prise de décision. Ces applications temps réel requièrent l’intégration rapide et atomique
des nouveaux faits dans l’entrepôt de données. De plus, ce type d’applications
opérant dans des environnements fortement évolutifs, les données définissant les dimensions
d’analyse elles-mêmes doivent fréquemment être mises à jour. Dans cette
thèse, de tels entrepôts de données sont qualifiés d’entrepôts de données dynamiques.
Nous proposons un modèle de données pour ces entrepôts dynamiques et définissons
un espace hiérarchique de données appelé Hierarchical Hybrid Multidimensional Data
Space (HHMDS). Un HHMDS est constitué indifféremment de dimensions ordonnées
et/ou non ordonnées. Les axes de l’espace de données sont non-ordonnés afin de favoriser
leur évolution dynamique. Nous définissons une structure de regroupement
de données, appelé Minimum Bounding Space (MBS), qui réalise le partitionnement
efficace des données dans l’espace. Des opérateurs, relations et métriques sont définis
pour permettre l’optimisation de ces partitions. Nous proposons des algorithmes pour
stocker efficacement des données agrégées ou détaillées, sous forme de MBS, dans une
structure d’arbre appelée le DyTree. Les algorithmes pour requêter le DyTree sont
également fournis. Les noeuds du DyTree, contenant les MBS associés à leurs mesures
agrégées, représentent des sections matérialisées de cuboïdes, et l’arbre lui-même est
un hypercube partiellement matérialisé maintenu en ligne à l’aide des mises à jour
incrémentielles. Nous proposons une méthodologie pour évaluer expérimentalement
cette technique de matérialisation partielle ainsi qu’un prototype. Le prototype nous

permet d’évaluer la structure et la performance du DyTree par rapport aux autres
solutions existantes. L’étude expérimentale montre que le DyTree est une solution
efficace pour la matérialisation partielle d’un cube de données dans un environnement
dynamique.