HDR de Mehdi Kaytoue
Sujet :
Résumé :
Le processus qui permet de collecter des volumes de données puis de les analyser pour répondre à des questions à buts prédictifs, explicatifs et décisionnels, est apparu sous le vocable "science des données'' (data science) il y a déjà plus de trente années. Accaparé d'abord par les scientifiques (notamment les statisticiens et largement pratiqué par les physiciens), ce terme connaît aujourd'hui un usage répandu dans le monde industriel et les collectivités. Cela s'explique de deux manières : (i) les données sont aujourd'hui omniprésentes, en grandes quantités, et variées, et (ii) il y a eu une prise de conscience du potentiel omniscient de ces données. Ce dernier peut être économique, sociétal, sanitaire ou encore scientifique, et se base non plus seulement sur des données qu'une entité possède, mais également sur des données qu'elle peut se procurer (capteurs, réseaux sociaux, données ouvertes open data, etc., gratuitement ou non) faisant de la donnée un or noir toujours trop peu raffiné. Une composante de la science de données, la "découverte de connaissances'' (DC ou Knowledge discovery in databases, KDD), traite en particulier de la chaîne Données–Informations–Connaissances avec le souci d'expliciter des relations ou propriétés enfouies. Se différenciant d'une approche purement statistique une famille de méthodes a connu un succès vaste ces vingt dernières années : la fouille de données sous-contraintes. Elles visent à décrire, résumer, soulever des hypothèses à partir de données. Notamment, la fouille de motifs permet de trouver de manière efficace des régularités de divers types (comme des motifs fréquents dans un ensemble de transactions, des sous-graphes moléculaires caractéristiques d'une toxicité, des groupes gènes localement co-exprimés, etc.). En fait, là où les approches classiques visent à valider ou invalider une hypothèse donnée a priori, la fouille de motifs se voit au contraire comme une technique d'énumération de toutes les hypothèses possibles vérifiant certaines contraintes ou encore maximisant un certain intérêt pour l'expert parmi un ensemble de taille exponentiel. Une fois découvertes, les meilleures hypothèses peuvent être alors testées, validées ou invalidées. On fait donc véritablement face à un processus de découverte d'hypothèses ayant le plus de chances d'être validées ensuite comme connaissances. Mon initiation scientifique a commencé par l'étude d'une relation binaire, très souvent illustrée par le panier de la ménagère, liant clients et produits qu'ils achètent. Comment faire parler cette relation données ? Quelles connaissances, habitudes comportementales, recommandations, etc. peut-on extraire ? Cette question initiale m'a alors permis de voyager à travers différents domaines applicatifs (biologie, neurosciences, réseaux sociaux et jeux-vidéo), cherchant à mettre en application ou adaptant des méthodes de fouille de données pour tenter comprendre des phénomènes tout en formalisant le plus rigoureusement possible le cadre dans lequel ces méthodes s'inscrivent. C'est donc cette histoire que je vais raconter dans ce manuscrit, selon trois axes principaux : le formalisme cadrant les méthodes avec l'Analyse de Concepts Formels, l'aspect méthodologique et algorithmique à travers la Fouille de données, et enfin la Découverte de Connaissances à travers plusieurs applications concrètes rencontrées lors de collaborations avec d'autres scientifiques ou industriels
Date de soutenance : mercredi, 12 février, 2020
Jury :
Dr. Karell Bertet | Maître de conférence | Université de la Rochelle | Rapporteur(e) |
Dr. Florent Masseglia | Directeur(trice) de recherche | INRIA | Rapporteur(e) |
Pr. Christel Vrain | Professeur(e) | Université d’Orléans | Rapporteur(e) |
Pr. Michael Berthold | Professeur(e) | Universität Konstanz (Allemagne) | Examinateur(trice) |
Pr. Angela Bonifati | Professeur(e) | Université Claude Bernard Lyon 1 | Président(e) |
Pr. Jean-François Boulicaut | Professeur(e) | INSA Lyon | Examinateur(trice) |
Pr. Johannes Fürnkranz | Professeur(e) | Universität Linz (Autriche) | Examinateur(trice) |
Dr. Amedeo Napoli | Directeur(trice) de recherche | CNRS | Examinateur(trice) |