Thèse de Orhan Yazar
Sujet :
Date de soutenance : 11/06/2021
Encadrant : Mohand-Said Hacid
Co-encadrant : Haytham Elghazel
Résumé :
La régression multi-cibles (MTR) a connu une attention croissante ces dernières années. Le principal défi de la régression multi-cibles est de créer des modèles prédictifs pour les problèmes avec plusieurs cibles continues en tenant compte de la corrélation inter-cibles qui peut grandement influencer les performances prédictives. La MTR émerge dans plusieurs domaines d’application, comme l'écologie, la biophysique et la médecine.
Il y a une chose que la plupart des méthodes existantes omettent, l'impact des entrées dans les corrélations cibles (c'est-à-dire la corrélation cible conditionnelle). Dans cette thèse, nous proposons d'abord un nouveau cadre de MTR, appelé régression multi-cibles conditionnellement décorrélée (CDMTR). Le CDMTR apprend à partir des données MTR en suivant trois étapes élémentaires : l'analyse de clustering, la décoration conditionnelle de la cible et l'induction de modèles de régression multi-cibles. L'étape de regroupement vise à étudier les propriétés sous-jacentes des données d'entraînement pour décomposer le problème MTR d'origine en plusieurs sous-problèmes MTR. Le but est de capturer efficacement les corrélations dans l'espace des caractéristiques d'entrée pour faciliter le processus de discrimination ultérieur. Dans la deuxième étape, le CDMTR effectue, dans chaque cluster donné, une analyse en composantes principales (ACP) de l'espace cible pour dériver des combinaisons linéaires des cibles. Par la suite, les cibles transformées (c'est-à-dire les composants principaux) sont utilisées dans une méthode de régression à cible unique simple qui n'a pas à se soucier des dépendances de cibles conditionnelles, sachant que les cibles transformées ne sont pas corrélées dans chaque partition de clustering.
Grâce à cette approche, nous démontrons que l'avantage d'exploiter les dépendances de cibles conditionnelles dans MTR peut grandement influencer les performances de généralisation, mais il est connu pour être étroitement dépendant des propriétés des données et du type de perte à minimiser. En effet, dans les données MTR où de nombreuses interdépendances entre les cibles peuvent être présentes, modéliser explicitement toutes les relations inter-cibles et entrées-sorties est intuitivement beaucoup plus raisonnable. Dans une deuxième partie de cette thèse, les problèmes de régression multi-cibles et de sélection de sous-ensembles de caractéristiques optimales ont été formulés dans un cadre probabiliste unifié, appelé sous-ensembles de cibles indépendantes conditionnelles (CITS). Il consiste à utiliser la puissance des réseaux bayésiens pour identifier explicitement différents sous-ensembles cibles conditionnellement indépendants et leur ensemble optimal de prédicteurs pour améliorer le processus d'apprentissage de la régression multi-cible.
Mots-clés : Multi-target regression, conditional target correlation, Bayesian Network
Jury :
Mr Bennani Younes | Professeur(e) | Université Sorbonne Paris Nord | Rapporteur(e) |
Mme Kuntz Pascale | Professeur(e) | Université de Nantes | Rapporteur(e) |
Mme Amer-Yahia Sihem | Directeur(trice) de recherche | CNRS Grenoble | Examinateur(trice) |
Mr Benabdeslem Khalid | Maître de conférence | Université Lyon 1 | Examinateur(trice) |
Mr Hacid Mohand-Saïd | Professeur(e) | Université Lyon 1 | Directeur(trice) de thèse |
Mr Elghazel Haytham | Maître de conférence | Université Lyon 1 | Co-directeur (trice) |
Mme Castin Nathalie | Responsable industriel, Panzani | Invité(e) |