================
 Web de données
================

.. include:: common.inc

.. only:: html

  .. notslides::

     .. contents::
        :local:
        :depth: 1

Motivation et historique
========================

.. figure:: _static/Tim_Berners-Lee.jpg
   :width: 45%

   source: http://en.wikipedia.org/wiki/File:Tim_Berners-Lee.jpg


Le Web vu par Tim Berners-Lee (1989)
++++++++++++++++++++++++++++++++++++

.. rst-class:: center

   « Vague, but exciting »

.. figure:: _static/tbl-proposal.png
   :width: 18em

   source: http://info.cern.ch/images/proposal.gif


Web de ressources
+++++++++++++++++

Le web est constitué de **ressources**, par exemple :

  * le bulletin météo du jour pour Lyon
  * le bulletin météo du jour pour le lieu courant
  * ma commande de café de jeudi dernier

Chaque ressource est identifiée par un IRI
(*Internationalized Resource Identifier*),
*e.g.*:

  * http://meteo.example.com/lyon
  * http://meteo.example.com/ici
  * http://commerce.example.com/commande/192837

⚠ Un IRI n'est pas un nom de fichier (cf. exemples ci-dessus)

Parenthèse : URL/URI/IRI
------------------------

.. compound::

* URL: Uniform Resource Locator (:rfc:`1738`, 1994)
* URI: Uniform Resource Identifier (:rfc:`2396`, 1998)
* IRI: Internationalized Resource Identifier (:rfc:`3987`, 2005)\

.. compound::

* technologies successives
* même concept


Ressources et représentations
-----------------------------

* Une ressource n'est jamais manipulée directement,
  mais toujours à travers des **représentations**
  (pour la créer, la consulter, la modifier).

* Les représentations d'une ressource peuvent varier en fonction

  * de son *état*
  * de l'agent qui manipule la ressource (négociation de contenu, context)

======================= =============================
représentation :        utilisable par :
======================= =============================
texte                   humains, moteurs de recherche
médias (image, son...)  *surtout* humains
**données structurées**   machines
======================= =============================


De HTML à XML
+++++++++++++

XML (eXtensible Markup Language) a été recommandé par le W3C en 1998. L'objectif était de pallier la sémantique « faible » de HTML.

.. code-block:: html

  <!-- HTML -->
  <a href="http://champin.net/">
    Pierre-Antoine <strong>Champin</strong>
    (<em>Maître de conférences</em>)</a>

.. code-block:: xml

  <!-- XML -->
  <Person homepage="http://champin.net/">
    <givenName>Pierre-Antoine</givenName>
    <surname>Champin</surname>
    <job>Maître de conférences</job></Person>

XML et la sémantique
++++++++++++++++++++

On a dit tout et son contraire l'apport sémantique de XML :

* XML a *plus* de sémantique que HTML,
* XML a *moins* de sémantique que HTML,

Les deux ont leur part de vérité.

XML a *plus* de sémantique que HTML...
--------------------------------------

\... dans le sens ou il est extensible :
on peut donc exprimer des choses que HTML ne permet pas d'exprimer
(e.g.``<givenName>``).

* Importance des *espaces de noms*, qui évitent les collisions de noms et
  fournissent ainsi une sémantique « structuraliste » (i.e. par
  différenciation).

.. code-block:: xml

  <Person xmlns="http://xmlns.com/foaf/0.1/"
          xmlns:pro="http://example.com/"
       homepage="http://champin.net/">
    <givenName>Pierre-Antoine</givenName>
    <surname>Champin</surname>
    <pro:job>Maître de conférence</pro:job></Person>


XML a *moins* de sémantique que HTML...
---------------------------------------

\... dans la mesure ou :

* un navigateur standard ne saura pas quoi faire de la balise ``<givenName>``
  ou de la balise ``<ονομα>``,

  * tout au plus il saura les afficher s'il possède une feuille de style,

* tandis qu'il connaît la sémantique de la  balise ``<em>``\ : elle dénote un
  texte à mettre en évidence *selon les moyens dont il dispose*, par exemple :

  * en le mettant en italique (standard)
  * en le mettant en gras (police déjà en italique)
  * en le mettant en couleurs (police sans italique, terminal)
  * en marquant une pause (synthèse vocale)

XML : apports et limitations
----------------------------

Le surplus de sémantique promis par XML n'est donc pas « magique » : il suppose 

* de créer de nouveaux langages basés sur XML (DTD, schémas),
* d'écrire les logiciels qui *interpréteront* ces nouveaux langages,

  → chaque langage reste relativement idiosyncratique.

XML : apports et limitations (suite)
------------------------------------

L'apport est donc essentiellement technique : la base commune de XML permet de
*factoriser* les efforts de développement et d'apprentissage :

* analyseurs syntaxiques (*parsers*),
* langages de schémas (DTD, XML-Schema, Relax-NG...),
* langages de requêtes (XPath, XQuery),
* langages de transformation (XSL-T),
* méthode de signature cryptographique (xmldsig),
* methode de compression (EXI)...

De XML à RDF
++++++++++++

* Le modèle sous-jacent de la syntaxe XML est un arbre (*XML Infoset*), ce qui
  n'est pas adapté à la structure décentralisée du Web.

* L'objectif du *Resource Description Framework* (RDF), recommandé par le W3C
  en 1999, vise à munir le Web d'un modèle de données plus adapté, ayant une
  structure de *graphe*.

* L'objectif est de construire le *Semantic Web* : un web dans lequel les
  machines ont (enfin) accès à la sémantique des données.

* Recommandation un peu hâtive, présentant quelques défauts importants
  (notamment l'absence de sémantique formelle).

  → faible adoption de RDF


De RDF à RDF
++++++++++++

* En 2004, le W3C publie un nouvel ensemble de recommandations sur RDF pour
  remplacer celles de 1999.

* Pour des raisons de compatibilité avec l'existant, certains aspects sont
  conservés malgré les débats qu'ils suscitent, mais les défauts considérés
  comme majeurs sont corrigés.

* Après cet échec relatif, l'appellation *Semantic Web* tombe peu a peu en
  disgrâce. Certains défenseurs de RDF parlent plus modestement de *Data Web*,
  puis de *Web of Linked Data* (2006).

.. figure:: _static/rdf_w3c.*
   :width: 15%

   source: http://www.w3.org/RDF/icons/


Le mouvement OpenData_
++++++++++++++++++++++

.. _OpenData: http://en.wikipedia.org/wiki/Open_data

Toute donnée publique (gouvernementale, ONU) ou publiée (scientifique) devrait être accessible sous une forme permettant le traitement automatique (en plus d'une forme lisible pour des humains).

* http://data.gov/
* http://data.un.org/
* http://data.gouv.fr/
* http://opendata69.org/

* `Raw Data Now`_ (Tim Berners-Lee à TED)

.. _Raw Data Now: http://www.ted.com/talks/tim_berners_lee_on_the_next_web.html


Linked Open Data
================

.. figure:: _static/lod-datasets_2007-11-10.png
   :width: 75%

   source: http://richard.cyganiak.de/2007/10/lod/

Les quatre principes de Linked Data
+++++++++++++++++++++++++++++++++++

* Utiliser des IRIs pour nommer les choses (= ressources).
* Utiliser des IRIs HTTP pour pouvoir obtenir des *représentations* de ces
  ressources.
* Fournir ces représentations en utilisant des langages et des protocoles
  standards (RDF, SPARQL).
* Inclure des liens pour permettre de découvrir de nouvelles ressources.

.. rst-class:: small

  d'après Tim Berners-Lee, http://www.w3.org/DesignIssues/LinkedData.html

Ouvrir les données liées
------------------------

* Intérêt des IRIs : tout jeu de données peut référencer des données d'un autre jeu de données

  * réutilisation de l'existant

* Intérêt des IRIs déréférençable (*cool IRIs*) : permet de découvrir de nouvelles données sur le mode de l'hypertexte

  * passage à l'échelle

  * importance d'un format commun → RDF

* Linked open data `star scheme`_

.. _star scheme: http://lab.linkeddata.deri.ie/2010/star-scheme-by-example/

.. figure:: _static/data-badge-5.png
   :width: 3cm
   
   source: http://lab.linkeddata.deri.ie/2010/lod-badges/


Projet emblématique : DBpedia
+++++++++++++++++++++++++++++

* Projet lancé par Chris Bizer en 2007.

* Objectif : extraire les informations structurées (*infobox*) présentes dans
  Wikipedia pour les exposer en RDF.

* En juillet 2011 (version 3.7) :

    The new DBpedia data set describes more than 3.64 million things, of which 1.83 million are classified in a consistent ontology, including 416,000 persons, 526,000 places, 106,000 music albums, 60,000 films, 17,500 video games, 169,000 organizations, 183,000 species and 5,400 diseases.


Informations structurées dans Wikipedia
---------------------------------------

.. figure:: _static/wikipedia.png
   :width: 100%

   source : http://en.wikipedia.org/wiki/Lyon


Le « *LOD cloud* »
++++++++++++++++++

 .. figure:: _static/lod-datasets_2007-11-10.*
   :width: 100%

   source: http://richard.cyganiak.de/2007/10/lod/

   En 2007


Le « *LOD cloud* »
------------------

 .. figure:: _static/lod-datasets_2008-09-18.*
   :width: 90%

   source: http://richard.cyganiak.de/2007/10/lod/

   en 2008

Le « *LOD cloud* »
------------------

 .. figure:: _static/lod-datasets_2009-07-14.*
   :width: 95%

   source: http://richard.cyganiak.de/2007/10/lod/

   en 2009

Le « *LOD cloud* »
------------------

 .. figure:: _static/lod-datasets_2010-09-22_colored.*
   :width: 100%

   source: http://richard.cyganiak.de/2007/10/lod/

   en 2010

Le « *LOD cloud* »
------------------

 .. figure:: _static/lod-datasets_2011-09-19_colored.*
   :width: 100%

   source: http://richard.cyganiak.de/2007/10/lod/

   en 2011

Rechercher et explotation des données
-------------------------------------

* Annuaire des sources de données :

  - http://thedatahub.org/

* Moteur de recherche :

  - http://sindice.com/

* Navigateurs de données :

  - http://graphite.ecs.soton.ac.uk/browser/ (navigateur simple)
  - http://sig.ma/ (navigateur multi-source)
  - http://www.visualdataweb.org/relfinder.php

Divergences et convergences
+++++++++++++++++++++++++++

* The Open Graph protocol (Facebook)

  http://ogp.me/

* Schema.org (Bing, Google, Yahoo)

  http://schema.org/

  http://schema.rdfs.org/