Thèse de Léopold Ghemmogne Fossi

Sujet :

Gestion basée sur l'Indice du Pouvoir des Règles pour la Détection de Fraude: Approches Supervisées et Semi-supervisées

Date de début : 16/10/2017
Date de soutenance : 30/09/2019

Encadrant : Lionel Brunie
Co-encadrant : Elod Egyed-Zsigmond

Résumé :

Cette thèse, intitulée "Une approche basée sur la théorie des jeux pour la sélection de fonctionnalités pour une prise de décision multicritère efficace: Quelques cas d'utilisation de la classification", traite de la détection de fraude par carte de crédit. Selon la Banque Centrale Européenne, la valeur des fraudes utilisant des cartes émises dans l'espace unique de paiements en euros (SEPA) en 2016 s'élevait à 1,8 milliard d'euros.

Ainsi le défis pour les institutions financières est celui de réduire la fraude sur les cartes de crédit. En règle générale, les systèmes de détection de la fraude sont consistués d'un système automatique construit à base de règles "si-alors" qui contrôlent toutes les transactions en entrée et déclenchent une alerte si la transaction est considérée suspecte. Ensuite, un groupe de personel expert vérifie l'alerte et décide si cette dernière est un vrai posifit ou un faux positif. Les critères utilisés dans la sélection des règles maintenues opérationnelles sont principalement basés sur la performance individuelle des règles. Cette approche ignore en effet la non-additivité des règles.

Nous proposons une nouvelle approche utilisant des indices de puissance, concept développé dans le cadre de la théorie des jeux cooperatifs (CGT). Cette approche attribue aux règles un score normalisé qui quantifie l'influence de la règle sur les performances globales du groupe de règles. Les indice que nous utilisons sont le Shapley Value (SV) et le Banzhaf Value (BV). Les principales applications de ces indices sont: 1) l’aide à la décision de conserver ou de supprimer une règle du groupe; 2) la sélection du nombre k de règles les mieux classées, afin de travailler avec un ensemble de règles plus compact. En utilisant des données réelles de fraude par carte de crédit contenant environ 300 règles et 3,5 \times 10^5 transactions, nous montrons que: 1) Cette approche permet de mieux exécuter les performances du groupe que celle qui évalue les règles isolément. 2) La performance de l'ensemble des règles peut être atteinte en conservant un dixième seulement des règles. Nous observons ensuite que cette application peut être comsidéré comme une tâche de sélection de caractéristiques pour un classificateur: nous montrons que notre approche est comparable aux algorithmes courants de référence en sélection des caractéristiques (FS). De plus, il présente un avantage dans la gestion des règles, en ce sens qu'il attribue un score normalisé à chaque règle. Ce qui n'est pas le cas pour la plupart des algorithmes de sélection des caractéristiques, qui se concentrent uniquement sur une solution d'ensemble pour obtenir des fonctionnalités hautes performances.

Dans une autre contribution, nous proposons une nouvelle version du Banzhaf Value, à savoir le k-Banzhaf; cette nouvelle version surclasse la première en terme de temps de calcul et possède des performances comparables. Alors que pour un ensemble de N éléments, le Banzhaf normal calcule 2^N-1 différences, le k-Banzhaf quant à lui calcule seulement \binom{n-1}{k-1}. Enfin, nous mettons en œuvre un processus d’auto-apprentissage (sorte de bootstrap) afin de renforcer le processus d’apprentissage dans un algorithme d’apprentissage automatique (Random Forest Classifier). Nous comparons ces derniers avec nos trois indices de puissance pour effectuer une classification sur les données de fraude par carte de crédit du monde réel utilisées dans la première partie du manuscrit. En conclusion, nous observons que la sélection de caractéristiques basée sur les indices de puissance a des résultats comparables avec les algorithmes de référence en FS ainsi que dans le processus d'auto-apprentissage.

Keywords: Détection de Fraud à la Carte, Théorie des Jeux de Coalition, Indice de Pouvoir, Valeur de Shapley, Indice de Banzhaf, Indice de Banzhaf restreint, Apprentissage Semi-supervisé, Apprentissage supervisé , Auto-apprentissage.

Jury :

Mr Jacques Savoy

Professeur(e)

Université de VEUCHATEL

Président(e)