Projet DCD

L'objectif de ce projet est de mettre en oeuvre une approche complète de fouille de données depuis le prétraitement des données jusqu'à l'évaluation de la méthode de fouille. Vous pouvez utiliser l'outil Knime ou n'importe quel autre outil ou librairie (e.g., Scikit-learn, Weka, MOA, prototypes). Vous devez donc produire une chaîne de traitement mettant en jeu des algorithmes de fouille de données afin de produire de la valeur ajoutée sur les données étudiées.

Nous nous concentrerons sur le jeu de données suivant: National Geographic Smell Survey.

Il y a plus de 30 ans, des chercheurs américains avaient envoyé via le magazine National Geographic 6 odeurs à plusieurs millions de personnes dans le monde. Plus d'un million de lecteurs ont fait le test et renvoyé leurs réponses par la poste. Les données du National Geographic sont maintenant disponibles pour analyse.

De nombreuses questions peuvent être étudiées :

Ce projet vise à proposer des analyses permettant d'apporter des éclairages sur ces réponses.

Données
Livrables
Le rapport
Code et données
La vidéo
Ce qui doit être fait à l'issue de la première séance
Echéances

Les livrables seront à rendre sur Tomuss dans les colonnes dédiées :

Durant la séance du 8 avril, les projets seront présentés de façon informelle.

Liens

Découverte de sous-groupes sur des données tabulaires :

Découverte de sous-groupes pour mettre en évidence des accords/désaccords (similarités/différences) entre groupe d'individus :

Clustering :

Plus généralement, je vous invite à aller jeter un coup d’oeil sur les liens suivants :