User Tools

Site Tools


Sidebar

Practical Information:

Teaching:

Bâtiment Nautibus
43, Bd du 11 Novembre 1918
69622 Villeurbanne Cedex.
☏: +33(0)472 43 16 35
email: marc.plantevit-at-univ-lyon1.fr

Research:

Bureau 501.319
Bâtiment Blaise Pascal
7, Avenue Jean Capelle
69621 Villeurbanne Cedex
☏: +33(0)472 43 84 87
Fax: +33(0)472 43 87 13
email: marc.plantevit-at-liris.cnrs.fr

dm_tiw_2020

Découverte de Connaissances dans les Données (DCD)

Généralités
  • Master 2 Technologie de l'Information et du Web, semestre d'Automne.
Intervenants
  • CMs (début le 08/09/2018) : Fabien de Marchi et Marc Plantevit (marc(dot)plantevit[at]univ-lyon1.fr)
Emplois du Temps

L'emploi du temps de chaque groupe est disponible sur ADE.

Organisation des CMs
Séance Date Intervenant Contenu
CM1 14/09/2020FdMIntroduction Processus KDD et itemsets
CM2 15/09/2020FdMDécouverte de motifs fréquents et motifs fermés
CM3 05/10/2020MPDécouverte de motifs sous contraintes: vers la fouille de données interactive, Exercices
CM4 12/10/2020MP
CM5 02/11/2020MPClustering Problème et méthodes
TP1 09/11/2020MPClustering : détection de Points d'intérêt dans des medias sociaux (télécharger Knime)
Projet 17/11/2020MPprojet_dcd_2020
Projet

L'objectif de ce projet est de mettre en oeuvre une approche complète de fouille de données depuis le prétraitement des données jusqu'à l'évaluation de la méthode de fouille. Vous pouvez utiliser l'outil Knime ou n'importe quel autre outil ou librairie (e.g., Scikit-learn, Weka, MOA). Vous devez donc produire une chaine de traitement mettant en jeu des algorithmes de fouille de données afin de produire de la valeur ajoutée sur les données étudiées. Il est également possible de réaliser d'autres types de projets comme par exemple un projet centré méthode en implémentant et améliorant un algorithme existant ou encore un projet de sensibilisation aux données personnelles pour le grand public (e.g. faire un workflow qui à partir des données personnelles d'un individu (e.g. données google) reconstruise son emploi du temps, ses points d'intérêt, …).

Choix des données

Vous pouvez choisir le jeu de données de votre choix (après validation avec un enseignant). Voir par exemple Kaggle pour différents jeux de données.

Projet "Alternants"

Pour les alternants, nous nous concentrerons sur le jeu de données suivant: National Geographic Smell Survey.

Il y a plus de 30 ans, des chercheurs américains avaient envoyé via le magazine National Geographic 6 odeurs à plusieurs millions de personnes dans le monde. Plus d'un million de lecteurs ont fait le test et renvoyé leurs réponses par la poste. Les données du National Geographic sont maintenant disponibles pour analyse.

De nombreuses questions peuvent être étudiées :

  • prévalence des troubles olfactifs déclarés dans le monde
  • effet de l'âge, du genre
  • facteurs de variations
  • modèles descriptifs/prédictifs en tout genre…
  • Peut isoler des facteurs (ou combinaisons de facteurs) qui font que des individus se ressemblent?

Ce projet vise à proposer des analyses permettant d'apporter des éclairages sur ces réponses.

Plus de détails sur la page suivante : projet_dcd_alt_2020

dm_tiw_2020.txt · Last modified: 2021/03/08 07:48 by mplantev

CNRS INSA de Lyon Université Lyon 1 Université Lyon 2 École centrale de Lyon