Thèse de Haitang Feng

Sujet :

Accès optimisés à des données réparties et auto-organisées pour un calcul efficace d’informations prévisionnelles

Date de début :
Date de soutenance :

Encadrant : Mohand-Said Hacid
Co-encadrant : Nicolas Lumineau

Résumé :

Le calcul d’informations prévisionnelles est devenu capital dans le développement des stratégies commerciales et financières au sein des entreprises. Un enjeu important consiste à obtenir des prévisions de qualité (i.e. : fiables, détaillées et à jour). Des solutions existent et elles nécessitent généralement la mise en place de « reporting » lourds, mais elles permettent difficilement d’atteindre ces objectifs de qualité. La société Anticipeo propose des alternatives possibles, mais elles reposent sur des traitements souvent complexes d’un grand nombre de données issues de statistiques. Pour être fonctionnelles, la solution Anticipeo doivent être optimisées pour garantir ainsi un temps de traitement acceptable pour les clients. En effet, selon la quantité de données traitées, les temps de traitement (calculs et accès données) actuels peuvent dépasser plusieurs heures voire plusieurs jours. Ceci représente donc un frein important à l’application de ces solutions pour une clientèle de types grandes entreprises.
L’optimisation de ces traitements fait apparaître différents verrous scientifiques qu’il est nécessaire de lever. En effet, l’accès aux ressources (CPU et données) est un problème sensible dans un contexte de calcul intensif.
Il est donc indispensable de rechercher un plan d’exécution optimal qui exploitera au mieux les ressources CPU et qui réduira au minimum les accès aux données.
Ainsi, cette thèse s’attaque aux problèmes de performances des traitements complexes et chronophages de données réparties à travers un « cluster » de serveurs. L’objectif est de définir une solution intelligente capable d’auto-organiser et d’allouer les ressources disponibles afin d’optimiser les calculs de prévisions. L’orientation choisie pour cette recherche vise à mettre en place une couche applicative permettant le « monitoring » des ressources CPU et des données. Ces données seront répliquées pour faciliter la parallélisations des calculs et des caches de données et d’index seront mis en place pour favoriser l’accès aux données utiles pour les calculs. Ce travail de recherche aboutira au développement d’un prototype qui permettra de valider les solutions proposées et de quantifier le gain de performance obtenu par rapport au système existant.