Thèse de Aurélien Cecille


Sujet :
Profondeur Monoculaire : Apprentissage Auto-Supervisé Intégrant la Structure de la Scène

Date de début : 01/02/2023
Date de fin (estimée) : 01/02/2026

Encadrant : Stefan Duffner
Co-encadrant : Franck Davoine

Résumé :

Cette thèse porte sur l'estimation auto-supervisée de profondeur monoculaire, avec un intérêt particulier pour les rétroviseurs par caméra utilisés sur les camions et les bus. Dans ce contexte, de grandes quantités de vidéos non annotées sont disponibles, alors que l'acquisition d'annotations de profondeur est coûteuse. L'auto-supervision constitue donc un cadre d'apprentissage adapté, en exploitant la cohérence géométrique entre images successives plutôt que des annotations de profondeur. Malgré les progrès importants réalisés ces dernières années, les méthodes monoculaires auto-supervisées présentent encore des limitations majeures pour un usage en conditions réelles : elles ne restituent pas l'échelle métrique de manière fiable, et elles produisent des transitions de profondeur floues aux frontières des objets.

Une première contribution de cette thèse traite le problème de l'ambiguïté d'échelle. Cette méthode auto-supervisée introduit une contrainte géométrique avec le sol à partir des paramètres connus de la caméra. Un a priori analytique de profondeur est calculé en partant du principe que le sol est plat, ce qui est combiné à un mécanisme d'attention apprenant à déterminer dans quelles régions de l'image cet a priori est fiable. Une formulation de perte spécifique couple la sélection des zones de sol et la récupération de l'échelle, ce qui permet au réseau d'apprendre une profondeur métrique cohérente sans supervision directe ou annotations de segmentation du sol. Les expériences menées sur KITTI montrent des performances compétitives en profondeur métrique parmi les approches auto-supervisées. Des évaluations complémentaires mettent en évidence une meilleure robustesse aux variations de pose de la caméra ainsi qu'un meilleur transfert zéro-shot vers des caméras et des jeux de données non vus durant l'apprentissage comme DDAD.

Une seconde contribution concerne la perte de netteté aux contours des objets. Nous proposons une formulation auto-supervisée dans laquelle chaque pixel de la carte de profondeur est représenté par un mélange gaussien à deux composantes plutôt que par une valeur scalaire unique. Cette représentation modélise explicitement la coexistence d'hypothèses de premier plan et de second plan au niveau des frontières d'occultation. Les distributions prédites sont propagées à travers la reprojection, l'interpolation et le calcul de la fonction de perte photométrique, ce qui rend l'ensemble de la chaîne auto-supervisée compatible avec une prédiction de profondeur multimodale. Le modèle obtenu produit des discontinuités plus nettes, réduit les artefacts flottants dans les nuages de points reconstruits et fournit des estimations d'incertitude utiles pour l'application finale. Une mesure d'entropie au niveau des bordures est également introduite afin d'évaluer notre contribution plus directement que les métrique de profondeur globales.

Dans son ensemble, ce travail montre que l'intégration explicite de structure dans l'apprentissage auto-supervisé améliore l'estimation de profondeur monoculaire sur des aspects que les objectifs photométriques standards saisissent mal. La géométrie du sol fournit un ancrage pratique pour retrouver une échelle métrique, tandis qu'une représentation de profondeur par mélange rend mieux compte de l'ambiguïté présente aux frontières d'occultation.