Exploration des données SAGE par des techniques de fouille de données en vue d'extraire des groupes de synexpression impliqués dans l'oncogénèse - Archive ouverte HAL Accéder directement au contenu
Pré-Publication, Document De Travail Année : 2007

Exploration of SAGE data employing data mining techniques in order to extract synexpression groups implied in cancerogenesis

Exploration des données SAGE par des techniques de fouille de données en vue d'extraire des groupes de synexpression impliqués dans l'oncogénèse

Résumé

Avec le développement de techniques de biologie moléculaire à haut débit, l'accumulation de grandes quantités de données permet de poser de nouvelles questions tant méthodologiques que fondamentales, en biologie comme en informatique. Ces questions ouvrent la voie à l'e��tude de la complexité du vivant. Ce travail de thèse s'inscrit dans ce contexte de bioinformatique. L'essentiel de notre contribution réside dans l'étude et l'interrogation des données SAGE humaines issues du Cancer Genome Anatomy Project. Nous avons ainsi étudié en profondeur les qualités particulières de ces données, ainsi que les questions biologiques que nous pouvions nous poser à partir de ces données. Répondre à ces questions a nécessité différentes méthodes d'extraction de connaissances à partir des données. Chaque question a demandé la conception d'un scénario original d'extraction de connaissances. Leur mise en oeuvre a reposé sur l'utilisation de différents algorithmes d'extraction de motifs dans les bases de données, en particulier des algorithmes de recherche de motifs ensemblistes dans des données booléennes développés par différents partenaires de l'ACI Bases de Données Inductives pour la Génomique. Les questions biologiques ainsi que la forme particulière des données SAGE nous ont confronté à certains verrous technologiques désormais résolus (e.g., la transposition pour l'extraction de tous les concepts formels, l'exploitation active de contraintes au cours des phases d'extraction) ou mieux cernés (e.g., le codage booléen de propriétés d'expression). Un effort particulier a été fourni sur le post-traitement des motifs ensemblistes extraits et sur leurs interprétations. Ainsi, une méthode de classification de motifs locaux similaires (avec application à des collections de concepts formels) est proposée pour faciliter l'interprétation de ce que nous appelons des QSGs ("quasi synexpression groups"). Nous avons également travaillé à l'exploitation de sources de données externes (typiquement des sources comme Gene Ontology ou encore des résumés d'articles) pour faciliter l'identification des motifs pertinents d'un point de vue biologique. L'impact de ces éléments de méthodes a été validé sur un travail d'interprétation de QSGs extraits des données SAGE humaines afin de proposer de nouvelles hypothèses sur des groupes de gènes simultanément co-surexprimés dans des situations cancéreuses.
Fichier non déposé

Dates et versions

hal-01465852 , version 1 (13-02-2017)

Identifiants

  • HAL Id : hal-01465852 , version 1

Citer

Sylvain Blachon. Exploration des données SAGE par des techniques de fouille de données en vue d'extraire des groupes de synexpression impliqués dans l'oncogénèse. 2007. ⟨hal-01465852⟩
51 Consultations
0 Téléchargements

Partager

Gmail Facebook X LinkedIn More