Thèse de Yvan Lucas


Sujet :
Credit Card Fraud Detection using Machine Learning with Integration of Contextual Knowledge

Résumé :

Au cours des dernières années, l'utilisation des cartes de crédit et de débit a considérablement augmenté. toutefois une partie non négligeable des transactions par carte de crédit sont frauduleuses et des milliards d'euros sont volés chaque année dans le monde entier. Rien qu'en Belgique, le volume de transactions par carte de crédit ont atteint 16 milliards d’euros en 2017, dont 140 millions d’euros.
transactions illégitimes.

La détection de fraude par carte de crédit présente plusieurs caractéristiques qui en font une tâche difficile. Tout d'abord, les attributs décrivant une transaction ignorent les informations séquentielles qui se sont avérées très pertinentes pour la détection des fraudes à la carte de crédit. Deuxièmement, les comportements d'achat et les stratégies de fraude peuvent changer au fil du temps, rendant une fonction de décision apprise par un classifieur non pertinente si celui-ci n'est pas mis à jour. Ce phénomène appelé dataset shift (changement dans la distribution de probabilité p(x,y)) peut empêcher les systèmes de détection de fraude de conserver une bonne performance. Nous avons effectué une analyse exploratoire afin de quantifier le dataset shift jour par jour et avons identifé des périodes calendaires qui ont des propriétés différentes au sein du jeu de données. Troisièmement, les données sur les transactions par carte de crédit souffrent d’un fort déséquilibre en ce qui concerne les effectifs des classes  (moins de 1\% des transactions sont frauduleuses). Ce déséquilibre doit être pris en compte, soit par le classifieur, soit au niveau du prétraitement des données.

Des solutions pour intégrer des informations séquentielles au sein des attributs transactionnels existent dans la littérature. La stratégie principale consiste à créer un ensemble d'attributs qui sont des statistiques descriptives obtenues en agrégeant les séquences de transactions des titulaires de carte (somme du montant, nombre de transactions, etc.). Nous avons utilisé cette méthode comme méthode de référence pour la détection des fraudes à la carte de crédit. Cependant, cette stratégie de prétraitement des données a soulevé plusieurs questions de recherche. Tout d'abord, nous avons supposé que ces statistiques descriptives ne pouvaient pas décrire complètement les propriétés séquentielles des motifs temporels frauduleux et non frauduleux et que la modélisation des séquences de transactions pouvait être bénéfique pour la détection de la fraude. De plus, la création de ces attributs agrégés est guidée par des connaissances expertes, tandis que la modélisation de séquences pourrait être automatisée grâce aux labels de classe disponibles pour les transactions passées. Enfin, ces attributs agrégées sont des estimations ponctuelles pouvant être complétées par une description multi-perspective du contexte de la transaction (en particulier du point de vue du vendeur).

Nous avons proposé une stratégie pour la création d'attributs basés sur des modèles de Markov cachés (HMM) caractérisant la transaction par différents points de vue. Cette stratégie permet d'intégrer un large spectre d'informations séquentielles dans les attributs des transactions. En fait, nous modélisons les comportements authentiques et frauduleux des commerçants et des détenteurs de cartes selon deux caractéristiques univariées: la date et le montant des transactions. De plus, les attributs basées sur les HMM sont créées de manière supervisée, réduisant ainsi le besoin de connaissances expertes pour la création du système de détection de fraude. En fin de compte, notre approche à perspectives multiples basée sur des HMM permet un prétraitement automatisé des données pour modéliser les corrélations temporelles afin de compléter et éventuellement remplacer les stratégies d'agrégation de transactions pour améliorer l'efficacité de la détection.

Des expériences menées sur un vaste ensemble de données de transactions de cartes de crédit issu du monde réel (46 millions de transactions effectuées par des porteurs de carte belges entre mars et mai 2015) ont montré que la stratégie proposée pour le prétraitement des données basé sur les HMM permet de détecter davantage de transactions frauduleuses quand elle est combinée à la stratégie de prétraitement des données de référence basées sur des connaissance expertes pour la détection de fraude à la carte de crédit.

En conclusion, ces travaux permettent de mieux comprendre ce que l’on peut considérer comme une connaissance contextuelle dans le cadre d’une tâche de détection de fraude à la carte de crédit et comment l’inclure dans la tâche de classification afin d’améliorer la détection de fraude. La méthode proposée peut être étendue à toute tâche supervisée comportant des jeux de données séquentiels.


Encadrant : Sylvie Calabretto
Co-encadrant : Léa Laporte, Pierre-Edouard Portier