Un Cadre générique pour la co-classification sous contraintes - Archive ouverte HAL Accéder directement au contenu
Pré-Publication, Document De Travail Année : 2006

A generic framework for contrainst-based co-clustering

Un Cadre générique pour la co-classification sous contraintes

Résumé

The search for interesting groups in boolean data (sets of objects described by sets of properties) has motivated the design of methods for computing global patterns (e. G. . , partitions), and extracting local patterns s(e. G. , frequent itemsets, association rules, formal concepts. This thesis concerns co-clustering, i. E. , computing bi-partitions (coupled partitions on both dimensions). When using available co-clustering algorithms, the user can hardly exploit his/her domain knowledge since he/she has limited possibilities for setting just a few parameters. On the other hand, classical local pattern mining techniques usually provide huge collections of patterns that are hard to evaluate and interpret. We have designed a new co-clustering framework which computes a bi-partition by starting from collections of patterns that capture locally strong associations (e. G. , formal concepts, delta-bi-set that are a form of fault-tolerant patterns). The idea is that the available information about the local patterns can be exploited to build a relevant global pattern. It becomes possible to consider the declarative specification of constraints on the bi-partitions (e. G. , user-defined requirements about the shape of clusters) and to use such constraints at the local pattern mining step and then during the co-clustering phase. As such, our proposal is a contribution to the recent domain of constraint-based clustering. A dual approach consists in using local patterns to interpret bi-partitions. We propose a method for bi-cluster characterization by means of local patterns and their associated interestingness measures. The application of our methods to a gene expression data analysis scenario has illustrated the added-value of our proposal to give rise to plausible biological hypothesis.
La recherche de groupements intéressants dans les données booléennes (ensembles d'objets décrits par un ensemble de propriétés) a motivé la conception de méthodes d'extractions de motifs globaux (partitions) et de motifs locaux (ensembles fréquents, règles d'association et concepts formels). Cette thèse concerne la co-classification c'est-à-dire le calcul de bi-partitions (couplage de partitions sur les deux dimensions). Les algorithmes de co-classification disponibles ne permettent aux analystes d'exploiter leur connaissance du domaine qu'à travers un nombre réduit de paramètres. D'autre part, les techniques d'extraction de motifs locaux produisent d'énormes collections qui sont difficilement exploitables et interprétables. Nous avons développé une nouvelle méthode de co-classification qui calcule des bi-partitions à partir de motifs capturant des associations localement fortes (e. G. , des concepts formels, une forme de motif tolérant aux exceptions appelé delta-bi-ensemble). Le principe consiste à exploiter l'information contenue dans la collection des motifs locaux en la propageant au niveau global pour faciliter l'optimisation de la fonction objectif. Il devient alors possible de propager un certain nombre de contraintes depuis l'extraction des motifs locaux jusqu'à la construction de la bi-partition (e. G. , pour imposer des formes particulières aux groupes calculés). Il s'agit donc d'une contribution au domaine très récent de la classification sous contraintes. Une approche duale consiste à utiliser des motifs locaux pour faciliter l'interprétation de bi-partitions déjà calculées. Pour ce faire, nous proposons une méthode de caractérisation des bi-clusters au moyen de motifs locaux auxquels sont associés des mesures d'intérêt. L'application de nos méthodes à l'analyse de données d'expression de gènes a montré la pertinence de nos propositions pour expliciter des hypothèses biologiques plausibles.
Fichier non déposé

Dates et versions

hal-01455537 , version 1 (03-02-2017)

Identifiants

  • HAL Id : hal-01455537 , version 1

Citer

Ruggero Gaetano Pensa. Un Cadre générique pour la co-classification sous contraintes : application à l'analyse du transcriptome. 2006. ⟨hal-01455537⟩
77 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More