Thèse de Thomas Veran
Sujet :
Date de soutenance : 04/11/2022
Encadrant : Jean-Marc Petit
Co-encadrant : Pierre-Edouard Portier
Résumé :
Dans le monde entier, les accidents de la route ont des impacts sociaux et financiers importants. Pour réduire leur fréquence et leur gravité, les modèles de prédiction d’accidents (CPM) sont utilisés pour identifier les segments de route dangereux et fournir des indices exploitables sur les facteurs de risque associés. Les CPM sont soit des modèles statistiques paramétriques, en particulier des modèles linéaires généralisés (GLM), soit des modèles d’apprentissage automatique avec un nombre important de paramètres sans estimation d’incertitude associée (e.g., ensemble d’arbres de décision, machine à vecteurs de support …). Les modèles paramétriques simples ont tendance à être plus interprétables mais moins performants que les modèles non paramétriques très flexibles qui fonctionnent comme des boîtes noires. Lorsqu’ils réfléchissent à des décisions à fort enjeu, comme dans le contexte de la sécurité routière, les experts métier s’attendent à ce que les modèles prédictifs soient à la fois performants et interprétables. Les modèles doivent les aider à concevoir et à déployer des actions de sécurité préventives ou correctives.
Dans ces travaux, nous contribuons à améliorer les performances prédictives des modèles paramétriques tout en conservant leur interprétabilité. En premier lieu, une structure hiérarchique bien choisie peut gérer les corrélations entre groupes d’observations et améliorer significativement la qualité des prédictions des modèles et leur interprétation. Nous proposons de l’apprendre en exploitant le résultat d’une méthode d’interprétabilité post-hoc (viz., SHAP) appliquée à un modèle boîte noire flexible (viz., XGBoost). Dans notre première contribution, cette structure hiérarchique informe un GLM bayésien multiniveaux. De plus, dans le but d’améliorer encore les performances prédictives du modèle sans détériorer son interprétabilité, nous proposons d’étendre sa forme fonctionnelle linéaire pour tenir compte des interactions majeures de premier ordre entre variables explicatives. Ces interactions sont apprises à partir des données en analysant les résultats d’un réseau polynomial auto-organisé de la famille d’algorithmes supervisés Group Method of Data Handling (GMDH).
Dans notre deuxième contribution, nous exploitons encore mieux la structure hiérarchique en remplaçant le GLM par un algorithme de régression symbolique multi-objectif basé sur le recuit simulé pour automatiser la sélection des variables explicatives et l’extraction de caractéristiques (viz., interactions, transformations de variables explicatives). Ainsi, en calculant un classement spécifique à chaque cluster des expansions de modèles linéaires régularisés ordonnés par complexité croissante, nous facilitons un processus d’interprétation dynamique qui permet de découvrir des modèles prédictifs efficaces, efficients et interprétables.
Des expériences ont été menées sur un jeu de données de sécurité routière et sur plus de dix jeux de données publics couvrant des problèmes de classification et de régression variés. Les résultats obtenus sont prometteurs étant donné que nos deux contributions surpassent les modèles interprétables traditionnels et se rapprochent des meilleurs modèles non paramétriques boîtes noires. Enfin, nous illustrons les bénéfices de notre approche en présentant, sur une étude réelle de cas, une application que nous avons conçue pour les experts de la sécurité routière.
Références bibliographiques
Basso, Franco, et al. "Real-time crash prediction in an urban expressway using disaggregated data." Transportation Research Part C: Emerging Technologies 86 (2018): 202-219.
Li, Xiugang, et al. "Predicting motor vehicle crashes using support vector machine models." Accident Analysis & Prevention 40.4 (2008): 1611-1618.
Mannering, Fred L., and Chandra R. Bhat. "Analytic methods in accident research: Methodological frontier and future directions." Analytic methods in accident research 1 (2014): 1-22.
Shi, Qi, and Mohamed Abdel-Aty. "Big data applications in real-time traffic operation and safety monitoring and improvement on urban expressways." Transportation Research Part C: Emerging Technologies 58 (2015): 380-394.
Xie, Yuanchang, Dominique Lord, and Yunlong Zhang. "Predicting motor vehicle collisions using Bayesian neural network models: An empirical analysis." Accident Analysis & Prevention 39.5 (2007): 922-933.
Xu, Chengcheng, et al. "Predicting crash likelihood and severity on freeways with real-time loop detector data." Accident Analysis & Prevention 57 (2013): 30-39.
Yu, Rongjie, Mohamed Abdel-Aty, and Mohamed Ahmed. "Bayesian random effect models incorporating real-time weather and traffic data to investigate mountainous freeway hazardous factors." Accident Analysis & Prevention 50 (2013): 371-376.
Yu, Rongjie, and Mohamed Abdel-Aty. "Utilizing support vector machine in real-time crash risk evaluation." Accident Analysis & Prevention 51 (2013): 252-259.
Zeng, Qiang, et al. "Rule extraction from an optimized neural network for traffic crash frequency modeling." Accident Analysis & Prevention 97 (2016): 87-95.
Jury :
M. Gancarski Pierre | Professeur(e) | Université de Strasbourg | Rapporteur(e) |
Mme Gianini Gabriele | Professeur(e) | Université de Milan | Rapporteur(e) |
Mme Sedes Florence | Professeur(e) | Université Toulouse 3 | Examinateur(trice) |
M. Jacques Julien | Professeur(e) | Université Lumière Lyon 2 | Examinateur(trice) |
M. Petit Jean-Marc | Professeur(e) | LIRIS - INSA Lyon | Directeur(trice) de thèse |
M. Portier Pierre-Edouard | Maître de conférence | LIRIS - INSA Lyon | Co-encadrant(e) |
M. Fouquet François | Docteur | Data Scientist chez Data New Road | Co-encadrant(e) |