Projet de Recherche en Informatique
Université Lyon1, PRIM1, 2014-2015

Fouille des dépendances temporelles dans les flux d’états : Application à Twitch.tv

Thèmes : science des données (data science), analyse de données complexes (big data), visualisation de données (data visualization)

Encadrants :  Mehdi Kaytoue, Marc Plantevit, Marian Scuturici

Laboratoire : Laboratoire d'InfoRmatique en Image et Systèmes d'information

Equipe : Data mining and machine learning (@LirisDM2L)

Projet : Collaboration DM2L LIRIS, Twitch.tv (Amazon), MIT Media Lab


Context. The constant digitization of our society is witnessed in many domains and has irrevocably impacted our everyday actions, social relationships, media access, e-commerce etc. A new step forward has been taken with the digitization of sport through so called Electronic Sport (E-sport). Largely democratized in South Korea in the last decade, it is now spreading to the rest of the world, mainly in Europe and North America. Similarly to any other sport community, the E-sport environment is composed of professionals, amateurs, teams, championships, commentators and sponsors. The main difference with classical sport is the usage of an electronic device as a support to compete. The audience attached to E-sport is actively rooted in social Web media, with one major example Twitch.tv, a video game social TV platform allowing gamers (professionals or amateurs) and E-sport actors to live broadcast competitions for watchers of the whole world, the latter interacting together within chat rooms. Twitch.tv is now the leader video game streaming platform, and has been recently acquired by Amazon for more than 800 millions USD.

Objectifs. Un objectif clef pour Twitch.tv est de comprendre les flux de spectateurs entre les différentes chaînes (streams) afin d’aider à la fois les producteurs (streamers) et les consommateurs (viewers). Dans le premier cas, on cherche à savoir quand et quoi diffuser. Dans le second, on cherche à savoir quand et quoi regarder. On peut voir une chaîne comme un flux d’états (inactif, actif, peu de spectateurs, beaucoup de spectateurs, …), et voir le spectateur comme réalisant une trajectoire dans le temps dans l’espace des chaînes. Dans le cadre d’une collaboration avec Twitch.tv et le MIT Media lab, les chercheurs de l’équipe DM2L cherchent à découvrir des dépendances temporelles entre flux d’états. Par exemple, e_x —[a, b]—> f _y, se lit : lorsqu’un stream e est dans l’état x, le stream f passe dans l’état y entre a et b secondes plus tard. Bien sûr, une telle règle est évaluée par différente mesures qui renseignent sa validité. L'algorithme Teddy utilise diverses techniques pour extraire les meilleurs dépendances temporelles d’un jeu de données. On peut alors synthétiser les résultats comme un graphe de dépendances. C’est ce dernier qui intéresse fortement Twitch.tv.

(gauche) interface spectaeur d'une chaine Twitch.tv - (droite) un graphe d'interraction entre utilisateurs de twitch'


Travail demandé. Dans ce cadre, il faudra (i) se familiariser avec les dépendances temporelles, (ii) comprendre/pré-traiter les données de Twitch.tv (3 mois de logs complets), (iii) appliquer Teddy sur ces données, et (iv) interpréter/visualiser le graphe final de dépendances. Il s'agit là d'une instance du processus d'extraction de connaissance à partir de données (knowledge discovery in databases) illustré ci-dessous, un des aspect principaux de la science des données (data science) 

Informations complémentaires. Ce projet est pertinent pour les étudiants intéressés par la science des données (data science). 

Bibliographie