Thèse de Hao Tan


Sujet :
Infrastructure de veille stratégique sur le WEB

Date de soutenance : 15/12/2012

Encadrant : Parisa Ghodous

Résumé :

La thèse porte sur la définition, la conception et la réalisation d'une infrastructure de veille stratégique pour les entreprises s'appuyant sur les informations fournies par le WEB.
Un processus de veille suit un processus en plusieurs étapes :
sélection des sources d'information (SI) : où effectuer la veille, et les paramètres de la veille
recherche dans une source d'information des éléments textuels à analyser
(ET) (filtrage par mots clés généralement)-
recherche des éléments d'information pertinents à la veille : analyse des éléments sélectionnés et extraction de l'information clé.
présentation des résultats de veille : simple listage, alertes, ...
traitement de l'information : classement pour analyse ultérieure.
Ce processus s'appuie sur un modèle de données décisionnel où chaque étape nécessite des associations particulières. Les questions à résoudre en première approche sont :

- Sélection des SI : la sélection des SI devrait s'appuyer sur la notion de type de SI (ex: site de société, site journal, ...); les premières questions qui se posent à ce niveau sont :

- établir une typologie de sources relative aux différents types de veille

- l'établissement automatique des types à partir des contenus

- la constitution et la maintenance active des SI répertoriés

l Recherche des ET : cette recherche s'effectue sur une base de mots clé à partir de moteurs identifiés ; à ce niveau se pose la question comment construire la ou les requêtes de clé pour en fonction de la veille à effectuer ;

l Analyse des ET cibles : c'est la partie la plus difficile car il s'agit de définir des modèles d'interprétation du texte source pour identifier des phrase pertinente ; les questions qui se posent à ce niveau sont :

- quel modèle d'analyse : analyse statistiques, analyse sémantique

- peut-on utiliser plusieurs modèles à croiser ? Repérage statistiques des phrases puis analyse sémantique pour affecter un poids d'intérêt

- analyse des citations et repérage des ET résultants de citation ou simplement d'hyperliens.

- tri des données selon des critères d'importance à définir

l Présentation : la présentation peut être linéaire (listage) ou arborescente ; on s'intéressera en particulier au modèles arborescents ou réseau qui peuvent répondre à une topologie d'intérêt; l'objectif est d'afficher la phrase identifiée pertinente dans un ET cible (liste, arbre ou carte réseau) puis d'élargir la visualisation au paragraphe puis à l'ET complet

Traitement de l'information : classement ou marquage des éléments analysés ; notion de cache de recherche ; la veille est un processus itératif : une fois une première analyse terminée il faut marquer les ET et leur date d'édition pour ne pas représenter les mêmes valeurs.

La thèse a pour objectif de faire un état de l'art des différentes solutions pour traiter ces types de problèmes et d'imaginer des solutions nouvelles pour la veille stratégique.

Le service sera implémenté sous forme de Web service avec des portlet pour l'intégration dans un portail.