Thèse de Imene Kerboua
Sujet :
Date de début : 01/05/2024
Date de fin (estimée) : 01/05/2027
Encadrant : Véronique Eglin
Résumé :
Esker est une entreprise proposant une plateforme Saas pour accompagner les sociétés dans la gestion de leurs documents business, et des interactions avec leurs fournisseurs et leurs clients. Cela nécessite des technologies avancées dans la compréhension de document, et des outils pour interagir avec des portails Web, dans le but d’automatiser les transferts d’informations et de documents entre entreprises. Ces portails sont généralement compos ́es de formulaires Web, dont il n’existe aucune solution efficace pour remplir automatiquement, et une interface Web permettant de téléverser ou charger un document, dont il n’existe également pas d’algorithme pour définir automatiquement la séquence d’actions répondant à une intention. Ces problématiques sont les moteurs de ce sujet de thèse. Par conséquent, ce projet a pour objectif d’explorer des méthodes de compréhension des pages Web, afin de permettre l’élaboration d’algorithmes pour remplir des formulaires à partir de documents, et de manière plus large, permettre la conception d’agents pouvant répondre à des instructions exprimées en langage naturel en navigant sur le Web.
Objectifs :
Comprendre et prioriser les différents obstacles au problème de traitement automatique
Un premier objectif sera de réaliser un état de l’art plus précis dans le domaine de la navigation autonome sur les pages web, et dans le domaine de la représentation et compréhension des documents augmentés. Cette étape nécessaire permettra d’identifier les approches les plus appropriées pour répondre aux besoins spécifiques d’ESKER. Cela se traduira par un travail bibliographique et la réalisation de prototypes capables d’évaluer et comparer les algorithmes de la littérature.
Participer activement à la recherche dans le domaine
En fonction des priorités de recherche établies et de l’affinité de la candidate sur certaines thématiques, il faudra chercher à répondre à une ou plusieurs problématiques scientifiques. Les recherches pourront alors faire l’objet de publications dans les journaux et conférences. Dans le cas de travaux sur la compréhension des pages web, nous viserons une publication au sein d’ICLR (International Conference on Learning Representations), ICDAR (International Conference on Document Analysis Recongnition) ou AAAI (Conference on Artificial Intelligence). Dans le cas de travaux sur la navigation autonome sur les pages web ou de travaux plus génériques sur le Machine Learning, nous chercherons à publier au sein d’ICRA (International Conference on Robotics and Automation), ICML (International Conference on Machine Learning) ou encore NeurIPS (Neural Information Processing Systems).
Développer un jeu de données pour la compréhension des pages web
Comme évoqué dans la section précédente, les approches cherchant à résoudre notre problématique se basent sur des jeux de données synthétiques simplifié. Ces derniers ne représentent pas la réalité de nos sites web et ne traitent pas forcément la problématique de remplissage de formulaire à partir d'un document, ce qui rend difficile le développement d’une approche fiable pour Esker. Pour cela, nous souhaitons développer et mettre à disposition de la communauté scientifique un nouveau jeu de données, qui serait plus représentatif de la vie réelle et donc contiendrait des pages Web réelles et plus complexes (développées en utilisant des technologies récentes). Il constituera un nouveau challenge pour la communauté, car il permettra de travailler sur une nouvelle problématique qui est le remplissage des formulaires Web à partir d’un document business.
Développer un algorithme de remplissage et validation automatique de formulaire
Dans l’objectif de développer la nouvelle fonctionnalité souhaitée sur la plateforme SaaS d’Esker, la doctorante développera un prototype d’algorithme de remplissage et de validation automatique de formulaire. A partir d’une liste d’informations disponibles, une première approche consisterait en l’extraction d’entités nommées et de remplir avec la bonne valeur attendue dans le formulaire (par exemple, le numéro de facture ou le montant), quel que soit le type du champ, et de définir une liste d’actions à effectuer, propre aux portails Web (par exemple, cliquer sur les boutons pour changer de page ou téléverser un document). En entrée nous aurons un formulaire web et une liste d’informations, et la forme et la représentation de ces données restent à déterminer. Par exemple, dans le cas de génération d’un script (code), nous utiliserons très probablement la structure du formulaire (DOM) pour retrouver le bon champ à remplir et générer l’instruction correspondante.
Développer un prototype d’algorithme de navigation autonome sur les pages web
Dans la continuité de la thèse, il pourra être envisagé de généraliser l’algorithme précédent à l’interaction avec la page web. Cet algorithme prendra en entrée une instruction et une page web et exécutera la tâche demandée par l’utilisateur. Nous passerons d’abord par une phase de génération d’instructions pour un site web en utilisant des approches multimodales. Par la suite, en fonction de nos avancées, nous verrons comment s’adapter à tout type de logiciel, y compris les logiciels qui ne sont pas des sites web.
Organisation des travaux de recherche
Première année de doctorat
• Une lecture approfondie de papiers scientifiques relatifs à l’objectif donné sera d’abord menée afin d’en dégager l’état de l’art et de prioriser les verrous scientifiques liés à la compréhension d’une page Web et la navigation sur celle-ci.
• En fonction de l’état de l’art et des premières expérimentations, la doctorante pourrait travailler sur la conception d’un jeu de données permettant d’entraîner ses modèles et d’évaluer son travail avec les modèles présents dans la littérature.
Deuxième année de doctorat
• Mise en place de travaux de recherches avancées en réponse aux différents verrous scientifiques, et aboutissant sur des publications.