Thèse de Luca Veyrin


Sujet :
'apprentissage automatique rencontre l'exploration de données: vers des réseaux de neurones profonds clairs et interprétables

Résumé :

L'objectif de cette thèse est d'aborder ces deux défis ambitieux, au carrefour de l'apprentissage automatique et de l'exploration de données. Le jeune chercheur travaillera au développement de réseaux de neurones clairsemés basés sur de nouvelles approches de data mining pour analyser, comprendre et compresser les modèles produits.
- Une première tâche consistera à développer de nouvelles approches pour la simplification et la compression des DNN. La compression des modèles est très importante car ils peuvent être très volumineux (jusqu'à plusieurs gigaoctets) et nécessitent une grande quantité de calcul qui ne peut pas être parallélisé (par exemple des architectures très profondes). Cependant, les calculs et les paramètres du modèle présentent une redondance élevée. Il a été démontré que la compression peut économiser 10 à 100 fois la mémoire, tout en conservant la même capacité de prédiction. D'autres approches réduisent considérablement la précision des paramètres de poids, factorisent les matrices de poids ou effectuent des optimisations sur la structure du réseau. Nos travaux de recherche précédents ont montré le potentiel de telles techniques d'optimisation pour les DNN. Plus important encore, la compression du réseau en supprimant les informations parasites peut aider à sa compréhension et à son interprétation, ce que des travaux antérieurs avaient principalement tenté de résoudre par des techniques de visualisation spécifiques ou par l'apprentissage explicite de concepts extraits automatiquement. Les algorithmes d’exploration de formes peuvent également être utilisés pour analyser les activations neuronales, en identifiant les blocs dans les matrices de pondération (ou tenseurs) qui représentent le bruit et ne contribuent donc pas aux activations de sortie cible et finale, et en identifiant les chemins d’activation de neurones fortement corrélés avec sortie. Nous examinerons les architectures de réseaux de neurones qui facilitent ce processus d’extraction, par exemple: en préférant
structures et sous-modules partiellement connectés et en évitant autant que possible les parties entièrement connectées car elles «diffusent» les informations extraites sur l’ensemble du réseau neuronal.

- Une meilleure compréhension des DNN nécessite également de travailler sur l'entrée et la sortie des modèles de plusieurs manières:
• Intégration des a priori aux modèles: les approches d’exploration de données peuvent être utilisées pour caractériser les a priori non explicites;
• utiliser comme prieur les résultats de l'exploration de données ou d'autres techniques d'apprentissage non supervisées;
• Caractériser les erreurs de prédiction et apprendre des modèles spécifiques pour ces cas «extrêmes», par ex. erreurs géographiquement localisées, ou biaiser des échantillons d'apprentissage pour mieux gérer ces erreurs.

- Une troisième tâche consistera à étudier les formalismes (c'est-à-dire les langues) qui
DNN interprétables ou partiellement interprétables et définition d'algorithmes
permettant la découverte ou l’apprentissage des descriptions et des para-
interprétations relatives à une langue apparentée.

 


Encadrant : Céline Robardet
Co-encadrant : Marc Plantevit
Co-direction : Stefan Duffner