Thèse de Thi Kim Ngan Nguyen


Sujet :
Exploitation de la connaissance du domaine dans la fouille de relations n-aires

Date de soutenance : 20/09/2012

Encadrant : Jean-Francois Boulicaut

Résumé :

L'extraction complète de motifs locaux, et notamment des ensembles
fermés ou concepts formels dans des relations binaires a été très
étudiée. Leurs applications sont à la fois nombreuses et reconnues
dans de nombreux secteurs qui vont de l'analyse de données de ventes
à la découverte de communautés sur la toile en passant par l'étude
de mécanismes de régulation génique en bioinformatique. L'équipe
Turing travaille depuis de nombreuses années aux extensions de ces
méthodes, notamment pour des extractions sous contraintes complètes
et la mise en place d'une tolérance aux exceptions. Elle a également
contribué significativement à l'étude des usages multiples des motifs
fermés, y compris dans un contexte de classification supervisée
(construction de descripteurs) ou de co-classification (calcul de
motifs globaux comme des bi-partitions). Le cas des relations
binaires est donc particulièrement bien maîtrisé nous travaillons
maintenant à une extension systématique au contexte des relations
n-aires. Il est aujourd'hui possible de calculer des collections
complètes de motifs fermés satisfaisant des contraintes monotoniques
dans des relations d'arité arbitraire (travaux de thèse de Loic Cerf).
Le but de cette thèse est de partir de telles collections de
motifs locaux et d'inventer des méthodes de post-traitement
innovantes pour, e.g., calculer des n-partitions sous contraintes
(généralisation des co-classifications). Cette thèse est également
l'occasion de progresser dans l'étude du cadre des bases de données
inductives. Ainsi, il faut mieux comprendre comment la prise en
compte de la connaissance du domaine permet de calculer plus ou
moins automatiquement de bonnes contraintes pour les extractions
sous contraintes (e.g., exploiter un modèle de connaissance pour
spécifier la recherche de motifs nouveaux). Le domaine d'application
privilégié de cette thèse sera l'analyse de réseaux dynamiques.