Data Mining @ LIRIS

Nous résumons ici les principaux résultats obtenus par les chercheurs en fouille de données du LIRIS (membre de l'équipe "Data Mining and Inductive Databases" au LISI (98-02) puis au LIRIS (03-06), aujourd'hui membres de l'équipe TURING ("Modélisation et Découverte de Connaissances") qui existe au LIRIS depuis Octobre 2006.

 

Contributeurs (par ordre alphabétique)

Hunor Albert-Lorincz (02-07), Jérémy Besson (02-08), Sylvain Blachon (02-07), Jean-François Boulicaut (98-), Artur Bykowski (98-02), Loïc Cerf (07-), Bruno Crémilleux (00/01), Thomas Daurel (00-03), Clément Fauré (04-07), Dominique Gay (05-), Baptiste Jeudy (99-02), Marion Leleu (01-04), Claire Leschi (02-07), Patrick Marcel (98/99), Cyrille Masson (01-06), Nicolas Meger (01-05), Ieva Mitasiunaité (04-09), Pierre-Nicolas Mougel (09-), Thi Kim Ngan Nguyen (08-), Ruggero G. Pensa (03-06), Marc Plantevit (09-), Christophe Rigotti (98-), Alexandre S. Saidi (05-07), Nazha Selmaoui (05/06), Céline Robardet (01-)

 

Objectifs scientifiques.

L'extraction de connaissances dans les bases de données (ECD ou « Knowledge Discovery in Databases ») concerne les processus interactifs et itératifs de découverte de connaissances dans des grands volumes de données. On parle aussi de fouille de données ou de « data mining ». Ce domaine connaît une croissance spectaculaire, sous l’impulsion des organisations propriétaires de données et soucieuses d’en extraire de la valeur ajoutée. Il existe de nombreuses techniques (découverte de règles, arbres de décision, classification, etc.). Nous nous sommes principalement intéressés à la découverte de motifs ou règles, notamment celle de règles d'associations du type « Quand j'observe les caractéristiques A et B dans les données alors j'observe la caractéristique C ». Le problème de la découverte de telles règles a été formulé par des chercheurs d’IBM en 1993. On veut toutes les règles fréquentes (c’est-à-dire que les caractéristiques A, B et C se produisent dans au moins un certain pourcentage des observations) et suffisamment valides (c’est-à-dire que, lorsque les caractéristiques A et B se produisent, alors on observe effectivement C dans un pourcentage de cas suffisant). Les processus d’extraction de règles sont complexes car il faut à la fois préparer les données brutes (gérer la présence de variables quantitatives mais aussi qualitatives, de données manquantes, etc), exploiter ensuite des algorithmes spécialisés, et enfin, post-traiter les règles découvertes afin de faire émerger le plus rapidement possible celles qui sont effectivement intéressantes. La complexité des algorithmes utilisés est non polynomiale et de nombreuses recherches visent à identifier des situations pratiques pour lesquelles les calculs restent faisables. Pour aborder ces questions sous un angle suffisamment générique, nous développons le concept de « base de données inductive » i.e., une base qui contient non seulement des données mais aussi, en intention, des propriétés apprises sur les données (e.g., des règles). Dans ce contexte, un processus d'extraction de connaissances consiste en une séquence de requêtes. C’est la volonté d’étudier en profondeur ce concept qui a motivé le contrat européen cInQ IST-2000-26469 (2001-2004) puis sa suite, le contrat européen IQ IST FP6-516169 (2005-2008). Avec notre engagement depuis 2001 dans les applications en biologie moléculaire, nous avons étudié d’autres types de motifs et notamment la découverte de motifs séquentiels (e.g., dans des séquences ADN) et celle de biclusters (par exemple, des ensembles de situations biologiques associés à des ensembles de gènes ayant une certaine propriété d’expression). Les concepts formels sont un cas particulier important de bicluster mais nous étudions aussi des types de motifs mieux adaptés à la fouille de données bruitées. Nous nous interrogeons aussi sur les complémentarités entre motifs locaux (e.g., des règles d’association ou des concepts formels) et motifs globaux (e.g., des partitions ou bi-partitions), en privilégiant toujours des applications prometteuses dans le domaine de la post-génomique mais en restant générique sur le plan des méthodes et des outils logiciels développés.

 

Pour en savoir plus (liste des publications classées par thèmes)