Projet DCD

L'objectif de ce projet est de mettre en oeuvre une approche complète de fouille de données depuis le prétraitement des données jusqu'à l'évaluation de la méthode de fouille. Vous pouvez utiliser l'outil Knime ou n'importe quel autre outil ou librairie (e.g., Scikit-learn, Weka, MOA, prototypes). Vous devez donc produire une chaîne de traitement mettant en jeu des algorithmes de fouille de données afin de produire de la valeur ajoutée sur les données étudiées.

Nous nous concentrerons sur le jeu de données suivant: National Geographic Smell Survey.

Il y a plus de 30 ans, des chercheurs américains avaient envoyé via le magazine National Geographic 6 odeurs à plusieurs millions de personnes dans le monde. Plus d'un million de lecteurs ont fait le test et renvoyé leurs réponses par la poste. Les données du National Geographic sont maintenant disponibles pour analyse.

De nombreuses questions peuvent être étudiées :

prévalence des troubles olfactifs déclarés dans le monde
visualisation des performances par catégories / pays
effet de l'âge, du genre
facteurs de variations
modèles descriptifs/prédictifs en tout genre…
Peut isoler des facteurs (ou combinaisons de facteurs) qui font que des individus se ressemblent?

Ce projet vise à proposer des analyses permettant d'apporter des éclairages sur ces réponses.

Données

National Geographic Smell Survey

Livrables

Un rapport
Le code et les données
Une vidéo de vulgarisation

Le rapport

15 pages hors annexe(s) format pdf
Plan conseillé : Introduction / Présentation des données, statistiques et analyses préliminaires / Question(s) que l'on souhaite répondre / Méthode / Résultats / Discussion, Conclusion.

Code et données

Soit donner un pointeur vers une dépôt, soit une archive
Bien documenter le code
Un README doit être présent permettant d'exécuter aisément le code

La vidéo

3 minutes environ
Fournir la vidéo ou un lien vers la vidéo.

Ce qui doit être fait à l'issue de la première séance

Composition des groupes (5 étudiants max par groupe)
Création d'un sous-channel dédié sous discord.
Identification et validation du jeu de données/tâche par l'enseignant.
des pointeurs vers des prototypes / méthodes vous seront donnés en fonction des traitements que vous souhaitez faire .

Echéances

Les livrables seront à rendre sur Tomuss dans les colonnes dédiées :

Rapport : 08/04/2021 à 23h59
Code : 08/04/2021 à 23h59
Vidéo : 08/04/2021 à 23h59

Durant la séance du 8 avril, les projets seront présentés de façon informelle.

Liens

Découverte de sous-groupes sur des données tabulaires :

Pysubgroup : https://pysubgroup.readthedocs.io/en/latest/tutorials/introduction.html (python)
Cortana Subgroup Discovery: https://datamining.liacs.nl/cortana.html (plugin knime et Java)
R: http://www.rsubgroup.org/
VIKAMINE: http://www.vikamine.org/

Découverte de sous-groupes pour mettre en évidence des accords/désaccords (similarités/différences) entre groupe d'individus :

https://github.com/Adnene93/Deviant (Intra-groupe, Python)
https://github.com/Adnene93/DEBuNk (Inter-groupe, Python)

Clustering :

Les algorithmes disponibles sur scikit-learn ou Knime
Biclustering : https://scikit-learn.org/stable/modules/biclustering.html
Clustering sous contraintes : https://zimmermanna.users.greyc.fr/projects/decade/lampert-constrained-clustering.pdf
Clustering de trajectoires :https://arxiv.org/pdf/1802.06971.pdf

Plus généralement, je vous invite à aller jeter un coup d’oeil sur les liens suivants :

https://people.mmci.uni-saarland.de/~jilles/prj/ (MDL, Causalité)
http://www.realkd.org/realkd-library/
http://snap.stanford.edu/snap/ (graphes)
https://github.com/LirisDm2l/LIRIS-DM2L-Projects (différents algorithmes de découvertes de motifs)