Projet de Recherche en Informatique
Université Lyon1, PRIM1, 2013-2014
Collecte de médias géo-localisés
et recherche de points d'intérêt avec l'algorithme Mean Shift
Thèmes : Collecte d'information, analyse et fouille de données géo-localisées, Interface de programmation Web (API)
Encadrants : Mehdi Kaytoue, Marc Plantevit
Laboratoire : Laboratoire d'InfoRmatique en Image et Systèmes d'information
Contexte. Depuis quelques années, les applications Web ou smart-phones fleurissent pour fournir des services divers et variés. En exemple récent,
le service Mapado permet à un utilisateur de trouver des activités dans une ville donnée. Encore en version béta, le service Tapastreet permet à tout utilisateur géo-localisé de trouver des photos de points d'intérêt à visiter à sa proximité. Dans un tel cas, on imagine un système capable de récupérer des informations à partir du Web (crawling, scraping), comme des photos géo-taggées. Il faut alors trouver de manière automatique les points d'intérêt principaux à partir d'une large collection de photographies géo-localisées. En effet, 3000 photos prises autour de la tour Eiffel correspondent à un unique point d'intérêt.
Travail demandé.
Dans ce contexte, il vous est demandé le travail suivant.
- Collecte des données. En utilisant l'API de Flickr, construire un jeu de données du plus grand nombre de photos géo-localisées des villes de Lyon et Paris. Ce jeu sera une collection de tuples de la forme
(photographe, photographie, longitude, latitude, tags, date, heure)
- L'algorithme Mean Shift. L'algorithme existant Mean Shift est particulièrement adapté pour la recherche de points d'intérêt à partir d'une collection d'objets géo-localisés. Il faudra comprendre son principe, implémenter un prototype et le tester. On discutera des différents kernels utilisables. Il est également bienvenu de comparer les résultats de votre implémentation avec d'autres existantes (ou discuter les différences). Enfin, il faudra se questionner sur le traitement de millions de photos dans un temps minimum, et sur une approche incrémentale.
- Construction de trajectoires de photographes. On cherche alors, pour chaque photographe, des parcours/trajectoires passant par les points d'intérêt caractérisés à l'étape précédente.
- Visualisation des résultats. On proposera également un outil de visualisation des points d'intérêts et trajectoires, en utilisant l'API Google map (exemple ci-dessous).
Bibliographie
- Y. Cheng. Mean shift, mode seeking, and clustering.
IEEE Trans. Pattern Anal. Mach. Intell., 17(8):790-799, 1995.
- D. Comaniciu and P. Meer. Mean shift: A robust
approach toward feature space analysis. IEEE Trans.
Pattern Anal. Mach. Intell., 24(5):603-619, 2002.
- Zhijun Yin, Liangliang Cao, Jiawei Han, Jiebo Luo, Thomas S. Huang: Diversified Trajectory Pattern Ranking in Geo-tagged Social Media. SDM 2011: 980-991
- Advanced GIS: Web GIS. API Access: Flickr, Tutorial.
http://gis.yohman.com/up206b/tutorials/api-access-flickr/
-
Le livre blanc de Data Publica consacré au Crawling et au Scraping, Data Publica, 2013.
http://www.data-publica.com/content/2013/09/le-livre-blanc-de-data-publica-consacre-au-crawling-et-au-scraping/