Thèse de Thierno Diallo
Sujet :
Date de début : 14/12/2009
Date de soutenance : 17/07/2013
Encadrant : Jean-Marc Petit
Co-encadrant : Sylvie Servigne
Résumé :
Le manque de qualité des données continue d'avoir un impact considérable pour les entreprises. Ces problèmes, aggravés par la quantité de plus en plus croissante de données echangées, entrainent entre autres un surcoût financier et un ralongement des délais. De ce fait, trouver des techniques efficaces de correction des données est un sujet de plus en plus pertinent pour la communité scientifique des bases de données.
En particulier, certaines classes de contraintes comme les Dépendances Fonctionnelles Conditionnelles (DFCs) ont été récemment introduites pour le nettoyage de données. Les méthodes de nettoyage basées sur les CFDs sont efficaces pour capturer les erreurs mais sont limitées pour les corriger. L’essor récent de la gestion de données de référence plus connu sous le sigle MDM (Master Data Management) a permis l'introduction d'une nouvelle classe de Règles d’Édition qui permet d'identifier les attributs en erreur et de proposer les valeurs correctes correspondantes issues des données de référence.
Cependant, concevoir ces règles manuellement est un processus coûteux. L'objectif de cette thèse est dans un premier temps de proposer des moyens automatiques et efficaces de fouille de règles de qualité de données. Puis de proposer des techniques efficaces d'utilisation de ces règles pour le nettoyage de données dans le contexte applicatif d'un logiciel MDM commercialisé par l'éditeur français Orchestra Networks.
Jury :
Mr Laurent Dominique | Professeur(e) | Université Cergy Pontoise | Président(e) |
Mme Laure Berti-Equille | Directeur(trice) de recherche | IRD | Rapporteur(e) |
Mr Bart Goethals | Professeur(e) | Antwerp University | Rapporteur(e) |
Mr Doré Martial | Orchestra Networks | Encadrant(e) | |
Mme Sylvie Servigne | Maître de conférence | INSA Lyon | Co-encadrant(e) |
Mr Petit Jean-Marc | Professeur(e) | INSA Lyon | Co-directeur (trice) |