Thèse de Marie Le Guilly


Sujet :
Langages de requêtes intéractifs pour l'exploration de données en utilisant l'apprentissage automatique

Résumé :

Cette thèse a pour but de développer de nouvelles approches pour l'exploration de données dans le contexte du Big Data, en revisitant des approches classique des bases de données, qui peuvent être peu adaptées en terme de temps d’exécution, d'espace en mémoire, ou de volumes de données en entrée. L'idée principale est de considérer l'analyste de données comme un élément essentiel du processus d'exploration de données, sans faire d'hypothèse sur la taille de l'espace données ou sur la taille de l'espace de motifs à analyser. Nous souhaitons guider et aider l'analyste de données vers des zones d'intérêt dans l'espace de données, et dans la navigation parmi les motifs de données, en se basant sur des approches déclaratives issues des bases de données et de l'intelligence artificielle. Nous prévoyons de proposer des prototypes hauts niveaux (par des langages déclaratifs ou des interfaces utilisateur adaptées) aux analystes, en cachant autant que possible la complexité inhérente à l'analyse de gros volumes de données. Un exemple d'un tel prototype est la complétion de requêtes SQL, visant à guider l'exploration de bases de données en suggérant des complétions possibles d'une requête SQL donnée.


Encadrant : Jean-Marc Petit
Co-encadrant : Vasile-Marian Scuturici