Projet de Recherche en Informatique
Université Lyon1, PRIM1, 2015-2016

Mise en place d'une plateforme interactive de visualisation pour la caractérisation de qualités d'odeurs

Thèmes : science des données (data science), analyse de données complexes (big data), neurosciences, visualisation de données (data visualization), IHM
Encadrants : Fabien De Marchi, Guillaume Bosc, Mehdi Kaytoue, Marc Plantevit
Laboratoire : Laboratoire d'InfoRmatique en Image et Systèmes d'information
Equipe : Data mining and machine learning (@LirisDM2L)
Projet Olfamining

Contexte. L’olfaction, ou la capacité de percevoir des odeurs, est le résultat d’un phénomène complexe : une molécule s’associe à un récepteur de la cavité nasale, et provoque l’émission d’un signal transmis au cerveau qui fait ressentir l’odeur associée [Sezille et Bensafi (2013)– Meierhenrich et al. (2005)]. Si les phénomènes qui caractérisent les sens de l’ouïe et de la vue sont bien connus, la perception olfactive n’est, encore aujourd’hui, toujours pas comprise dans sa globalité. Cependant, on dispose de nombreux atlas (comme celui d’Arctander (1969)) qui renseignent les qualités perçues par l’humain pour des milliers de molécules odorantes : des experts senteurs associent à des milliers de molécules odorantes des qualités d’odeurs (fruité, boisé, huileux, etc : un vocabulaire bien défini et consensuel). On dispose également maintenant d’outils capables de calculer des milliers de propriétés physico-chimiques de molécules. Il a alors pu être montré que ces propriétés déterminent la (les) qualité(s) d’une odeur perçue [Khan et al. (2007)–Kaeppler et Mueller (2013)]. Ce lien entre le monde physico-chimique et le monde du percept olfactif a été mis en évidence à l’aide de méthodes d’analyse en composantes principales. Les neuroscientifiques ont donc maintenant besoin de méthodes descriptives afin de comprendre les liens entre propriétés physicochimiques et qualités.

La découverte de régularités (ou descriptions) qui distinguent un groupe d’objets selon un label cible (souvent appelé label de classe), est un problème qui a fédéré diverses communautés en intelligence artificielle, fouille de données, apprentissage statistique, etc. En particulier, la découverte supervisée de règles descriptives de type description description -> label est étudiée sous divers formalismes : découverte de sous-groupes, fouille de motifs émergents, ensembles contrastés, hypothèses, etc. (Novak et al. (2009)). Dans tous les cas, nous faisons face à un ensemble d’objets associés à des descriptions (dont l’ensemble forme un ensemble partiellement ordonné), et ces objets sont liés à un ou plusieurs labels de classe.

Afin de répondre à ce besoin des neuroscientifiques, un projet transverse LIRIS a été mis en place entre les équipes Bases de Données (BD) et Data Mining and Machine Learning (DM2L) et également en collaboration avec le Centre de Recherche en Neuroscience de Lyon (CRNL). Ce projet s'intéresse à la découverte de sous-groupes (subgroup discovery), introduite par Klösgen (1996) et Wrobel (1997). Étant donné un ensemble d’objets décrits par un ensemble d’attributs, et chacun associé à un (ou plusieurs) label(s) de classe, un sousgroupe est un sous-ensemble d’objets statistiquement intéressant par sa taille et ses singularités au sein de l’ensemble d’objets initial vis à vis d’un ou plusieurs labels cibles. En fait, il existe deux familles principales de méthodes. La première vise à trouver des règles de type description -> label où le conséquent est un unique label. La seconde, la fouille de modèles exceptionnels (exceptional model mining, EMM) introduite par Leman et al. (2008), vise à trouver des sous-groupes dont la répartition d’apparition de tous les labels diffèrent grandement dans le sous-groupe comparé à toute la population, i.e. de la forme description -> (label1,valeur1), ..., (labelk, valeurk)k est le nombre de labels de l’attribut cible. Dans les deux cas, il s’agit d’un problème d’optimisation d’une mesure de qualité pour distinguer au mieux le sous-groupe en fonction du label, ou d’une distribution des labels dans le sous-groupe (i.e. le modèle). En olfaction cependant, une molécule est associée à une ou plusieurs –mais peu– qualités d’odeurs : aucune des approches existantes ne permet de se focaliser sur un sous-ensemble de labels. Effectivement, ces approches permettent soit de caractériser un seul label de classe par sous-groupe, soit de trouver des sous-groupes qui caractérisent tous les labels de classes à la fois. Alors, d’une part, un sous-groupe effectue une caractérisation trop locale trop spécifique et d’autre part la caractérisation est beaucoup trop globale.

Existant. Dans le cadre du projet Olfamining, les chercheurs ont mis au point une nouvelle technique pour palier à ce problème. L'algorithme hElMMut cherche alors à découvrir des sous-groupes comme des règles descriptives de type description -> (label1,valeur1), ..., (labelk, valeurk)l << k . Cela permet une extraction de sous-groupes plus caractéristiques de peu de qualités à la fois, et donc aussi plus faciles à interpréter par l’expert en olfaction. D'autres approches existantes (Subgroup Discovery, EMM et Redescription Mining) ont également été utilisées sur les données d'olfaction afin de juger de leur qualité de résultat et les comparer avec l'algorithme hElMMut.

De plus, une première version de plateforme a été mise au point. Elle permet (i) d'exécuter plus facilement les différents algorithmes utilisés dans le projet Olfamining et (ii) de visualiser les différents dans une pages WEB. Cette plateforme a pour objectif l'utilisation des algorithmes par une personne non-experte dans le domaine de la fouille de motifs (en passant par un worflow Knime) mais aussi de faciliter l'analyse des résultats par les experts du domaine de l'olfaction (plutôt que dans les fichiers textes fournis par les algorithmes comme résultat). Cependant la visualisation des résultats n'offre pas suffisamment d'interactivité et reste trop figée. De plus, l'hétérogénéité dans la présentation des résultats entre les différents algorithmes ne permet pas à une personne non-experte de la fouille de motifs de pouvoir analyser efficacement ces résultats.

Travail demandé. Tout d'abord, étant donné que ce projet s'inscrit dans un contexte de recherche, il sera demandé à l'étudiant(e) de se familiariser avec les notions évoquées dans les travaux de recherche effectués afin de comprendre les différentes méthodes mais également leurs objectifs visés. Pour cela une bibliographie est donnée d'ores et déjà à titre indicatif à la fin de ce document, et pourra être complétée. Dans un second temps, une fois les connaissances générales acquises, l'objectif de ce projet est de revoir la plateforme de visualisation de résultats (sans forcément repartir sur celle existante) afin de proposer une interface homogène pour l'ensemble des algorithmes mais également de pouvoir offrir une certaine interactivité dans l'analyse des résultats par un expert du domaine d'application (de manière similaire à l'outil Siren mis au point par Galbrun(2012)). Cette plateforme de visualisation devra offrir une interface claire et ergonomique. L'intégration de résultats de nouvelles approches devra également être réfléchie et facile à mettre en place, d'où l'intérêt d'une approche commune (homogène) pour les résultats des différents algorithmes. La visualisation de résultats provenant de différents algorithmes doit au maximum être imperceptible pour l'utilisateur. Le choix du langage de programmation pour l'interface de visualisation est libre, mais devra être utilisable sur différentes plateformes (Windows, Unix, MacOS X). L'objectif étant également d'obtenir une interface user-friendly, une attention particulière sur le design sera attendue.

Informations complémentaires :
Ce projet est pertinent pour les étudiants désirant s'orienter vers les masters M2TI(W) ou M2IADE ou les étudiants intéressés par la science des données. Le travail fait partie d'un projet financé par l'IXXI (Institut rhônalpin des systèmes complexes) et fait intervenir des informaticiens du LIRIS, un chimiste et un neuro-scientifique du CNRS. Il traite d'un problème important, Moustafa Bensafi (membre du projet, médaille bronze CNRS) est régulièrement interviewé pour en parler (20minutes, libération, France 2, etc., comme par exemple en octobre 2015 sur France 2 Les pouvoirs extraordinaires du corps humain).


Bibliographie