La mode est à l'Opendata. L'État français a ainsi ouvert son portail et c'est loin d'être le seul exemple. Des téraoctets de données sont ainsi disponibles sur le web. Il serait criminel de laisser ces données moisir quand on n'a jamais eu autant de puissance de calcul pour les exploiter.
Exploiter ces données peut cependant devenir assez casse-tête dès qu'on veut le faire automatiquement (ce qui est parfois indispensable vu le volume). En prenant un exemple de fichier sur data.gouv.fr, on peut voir que les données sont organisées sur le classeur de tableur, de manière pas forcément homogènes (les années sont classées dans les onglets, la description de l'étude est mélangée dans le même document). Elles sont presque plus organisées pour être lues par un humain que pour être exploitées.
Un de ces gigantesques dépôts de données plus ou moins organisés est Wikipédia. Les données sont organisées sous forme de pages, de catégories, d'infobox, mais pas forcément exploitables facilement automatiquement. Des projets issus du monde du Web Sémantique le font cependant, comme par exemple dbpedia dont voici la page concernant la France, qui permettent d'organiser ces données sous forme plus facilement exploitable par la machine et les programmeurs.
Il n'a pas échappé à certains membres de la communauté wikipedia qu'on pouvait faire beaucoup mieux en n'extrayant plus seulement les données à partir de wikipedia mais en mettant une base de données au cœur de Wikipedia et Mediawiki … C'est ainsi qu'est né le projet Wikidata et ça promet d'être une étape importante pour l'encyclopédie, mais pas que.