Journal Données Libres : Analyse critique de l’open data

Posté par . Licence CC by-sa.
Tags :
22
25
fév.
2019

Sommaire

Open data et données libres

L'ouverture des données (open data) est la mise à disposition de données, ainsi rendues accessibles et exploitables. Vers 2010, nous avons commencé à voir fleurir en France, des sites internet d’open data de villes, communautés de communes, départements, régions, gouvernement…

De la même manière que l’on peut différencier l’open source et le logiciel libre, on peut distinguer l’open data et la notion de données libres. Si dans les deux cas, les données sont libres d’utilisation, il y a une grande différence dans la philosophie, ce qui implique une grande différence dans la pratique.

Richard Stallman, initiateur du mouvement du logiciel libre, écrivait dans son article « En quoi l'open source perd de vue l'éthique du logiciel libre » : « Le mouvement open source est une méthodologie de développement ; le mouvement du logiciel libre, un mouvement social ». Pouvons-nous faire le même constat entre l’open data et les données libres ?

Une notion qui revient souvent dans la communication liée à l’open data et dans la bouche des acteurs de terrain est le « partage ». C’est d’ailleurs un des principes fondateurs du logiciel libre, qui a inspiré l’open data. Sur le site du gouvernement (note de bas de page 1), en ce qui concerne l'ouverture des données publiques, on va encore plus loin et on parle de la France comme ayant une tradition de transparence démocratique.

Seulement, le partage est un terme que l’on peut utiliser à sens unique ou dans les deux sens.

À sens unique, les institutions mettent à disposition des données qu’elles sélectionnent. Ceci qualifie l’open data.

À double sens, les citoyens ou les acteurs de terrain participent également à l’ajout de données, à la remontée des erreurs potentielles, ils peuvent ajouter des jeux de données qui leur semblent pertinentes et ceci en toute transparence démocratique. Ceci qualifierait les données libres.
Actuellement, l’open data domine très largement et ceci est dommageable pour les citoyens et acteurs de terrain.

En effet, ces données sont, entre autre, utilisées par des acteurs de terrain, des associations, des maisons de quartiers, des scientifiques,…, et ne sont produites ou commanditées quasiment que par des institutions, pas toujours au fait des attentes de terrain ou n’appréhendant pas toutes les subtilités, ce qui est bien normal.

Les citoyens et les acteurs de terrains ont pourtant une connaissance à partager et cela n’est pas rendu possible…

Dans les coulisses de réunions, des peurs ont déjà été exprimées concernant le fait de laisser participer les citoyens. « Et si ils écrivaient n’importe quoi ? » est une des premières peurs. Pourtant, les exemples sont nombreux de projets comme Wikipedia (note de bas de page 2), Open Street Map, pour ne citer que les plus connus du grand public.

Il existe des possibilités de modérations, voire de bannissements et ceci depuis fort longtemps sur la toile. Bienvenu dans le web 2.0 ! Là où l’interactivité et le co-développement sont la base !

Cela fait plus de 20 ans, que l’on sait utiliser des outils de modération à priori ou à posteriori, des contributions sur inscriptions, des outils collaboratifs… Et ces outils se peaufinent de plus en plus et sont de plus en plus simples à utiliser…

Permettre une remontée citoyenne et des acteurs de terrains, c’est permettre la transparence démocratique.

Une démarche vers les données libres pourrait donner ce genre pratique :

Modifications et ajouts

Un accès sur le site de données libres permettrait à tous et toutes de proposer des modifications, ajouts ou suppressions de données d’un jeu de données existant.
Cela autoriserait également la proposition de création de nouveaux jeux de données correspondant aux attentes et préoccupations des citoyens et acteurs de terrains.

Le téléchargement

Lorsque l’on téléchargerait un jeu de données, on pourrait alors filtrer et avoir le choix entre :
- les données institutionnelles,
- les dernières modifications,
- les modifications confirmées par les ayants droits,
- les modifications confirmées par d’autres contributrices et contributeurs…
Ceci permettrait d’avoir des données plus à jour. Certains jeux de données peuvent être très anciens et cela pourrait également être un apport concret de données pour les institutions.

Open data et données libres

Il serait possible d’avoir un jeu de données comprenant des données qui ne peuvent pas être modifiées et certaines qui le peuvent.
Dans un cas où l’auteur ne peut ou ne veut libérer une donnée, il est possible d’empêcher sa modification, tout en permettant de modifier les autres données du jeu.

Mise à disposition d’outils informatiques

Les données qui peuvent être exploitées sous forme cartographiées, sous forme de graphiques, sous forme de simples listes ou de fiches sont légions.
Pour que les citoyens et les acteurs de terrains se réapproprient les données, il est impératif d’avoir des outils qui faciliteraient la visualisation des données suite à un traitement de ces dernières.
Pour cela, il est nécessaire de mettre en évidence des téléchargements d’outils et de tutoriels sur leurs utilisations. Un maximum d’outils « simples » d’utilisations et en licences libres permettrait de garder la logique de l’ouverture.

Discussion

Un espace de discussion type forum, n’est généralement pas proposé sur un site institutionnel. Cela est très utile en cas de remontée d’existence d’outils, de partage de connaissances techniques, de discussion sur des données conflictuelles…

Éviter les doublons

Il est dommage et potentiellement dommageable d’avoir des données mises à disposition sur des sites institutionnels qui ne sont pas à jours.
Dans certains cas, comme un listing de lieux, pourquoi les institutions n’utilisent pas les données libres déjà fournies par Open Street Map ? Les associations peuvent mettre à jour leurs données sur Open Street Map et cela est ainsi mis à jour sur tous les outils utilisant ces données (éventuellement sur validation de l’administrateur en cas de changement dans la base de référence).
Actuellement, il est demandé aux structures d’aller mettre à jour leurs données partout sur des outils où elles n’ont pas forcément demandées à figurer, même lorsqu’elles ont déjà renseignées des données libres sur Open Street Map .
De même, pour éviter les doublons, les institutions « mères » pourraient utiliser des données « filles ». Ainsi, les données d’une ville seraient réutilisées par sa communauté de communes, elles-même exploitées par son département, qui alimenteraient les données de la région… De plus, quelqu’un qui proposerait à n’importe quel maillon une modification, cela devrait logiquement se faire automatiquement à la source des données.

Note de bas de page

1- https://www.gouvernement.fr/action/l-ouverture-des-donnees-publiques
La France porte une tradition de transparence démocratique et de partage des informations détenues par la puissance publique. Dans le droit fil de cette tradition, une politique ambitieuse a été engagée depuis deux ans, notamment en matière d'ouverture des données publiques. En octobre 2016, la France prendra la présidence du "Partenariat pour le gouvernement ouvert" (Open Government Partnership).

2- Décriée à ces débuts, Wikipedia est considérée comme une des encyclopédies les plus complètes et fiables. De plus, elle est sourcée !

  • # Investissement et choix

    Posté par . Évalué à 10 (+13/-0).

    D'expérience, mettre à disposition des données «brutes», celles qu'on a utilisé pour faire l'analyse prévue au moment où on a collecté les données, est une procédure relativement simple. Il suffit de téléverser son jeu de données sur un serveur prééxistant, éventuellement renseigner quelques champs pour expliquer quelques détails, et voila. C'est faisable dans le cas du projet, tel qu'il avait été conçu.

    Le reste (faire en sorte de faciliter la vie de celui qui va récupérer les données en anticipant ses besoins éventuels), c'est quasiment impossible. Non seulement tu ne vas jamais pouvoir réellement anticiper les besoins, et tes graphes, tes pré-analyses, ta doc détaillée, ne va jamais pouvoir couvrir toutes les questions, mais en plus, tu vas devoir assurer le «service après-vente» : il faut corriger telle erreur, il faudrait montrer le graphe du machin divisé par le truc, il faudrait plutôt utiliser la méthode truc-chouette, est-ce qu'il est possible d'avoir les tableaux en SVG…

    Bref, en termes de ressources humaines, c'est délirant. La plupart de ces données publiques sont collectées à des fins précises, et les ressources humaines sont adaptées à ces projets. Quand les données sont analysées et publiées, les gens sont mis sur d'autres projets, ils n'ont pas de temps à consacrer à répondre aux questions, corriger les fautes de frappe, ou refaire des graphiques. Ils n'ont pas non plus besoin des retours de la communauté, le rapport a été imprimé, il a été envoyé aux députés, la loi a été votée, bye bye on est passé à autre chose.

    Seules des équipes de bénévoles passionnées sont susceptibles d'assurer un tel service, parce qu'elles peuvent faire le choix de se consacrer à un tout petit truc, à curer des données temporelles sur des périodes très longues, à réanalyser tous les ans leur base de donnée incrémentée des dernières données, etc.

    Le problème, c'est juste que si on demande aux pourvoyeurs de données d'investir pour qu'elles soient exploitables, alors c'est la mort de l'Open Data, parce que les ressources n'existent pas, et qu'elles n'ont pas vraiment de raisons d'exister.

    • [^] # Re: Investissement et choix

      Posté par . Évalué à 3 (+1/-0). Dernière modification le 26/02/19 à 10:29.

      Surtout que rien n'empêche les autres acteurs de récupérer les données, de les compléter, etc… On voit ça très bien avec OpenStreetMap où on utilise largement des opendata pour compléter la carte (le Cadastre par exemple), puis les données sont enrichies et publiées.

  • # SAV ou format propriétaire ?

    Posté par . Évalué à 3 (+3/-1).

    Bonjour,

    L'absence de SAV ne me touche pas particulièrement, on a des données csv assez bien documenté. Après il est clair que certaines description sont assez vagues.

    Mais le plus choquant pour moi est de voir de "l'open data" disponible sous des formats propriétaires.
    Sur l'open data de France, il y a du xls.

    Par dessus le marché, est ce trop demandé de sauvegarder les classeurs xls en csv , est-ce trop compliqué ?
    Surtout que l'analyse des données va ouvrir le fichier dans son tableur et l'exporter en csv

    Après, j'ai vu d'autres formats type base oracle, base SQL server, mais je ne sais plus sur quelle plate forme (UE/RFA/CH ou KB-RB)

    • [^] # Re: SAV ou format propriétaire ?

      Posté par . Évalué à 1 (+2/-3). Dernière modification le 26/02/19 à 11:46.

      Par dessus le marché, est ce trop demandé de sauvegarder les classeurs xls en csv , est-ce trop compliqué ?

      C'est libre, juste fais-le, et héberge les données sur un serveur que tu maintiens, ou sur une base de données communautaire.

      C'est le principe du libre, "est-ce trop demander d'avoir un truc compilé livré avec le code", "est-ce trop demander d'avoir un code portable", "est-ce trop demander que le bug truc-machin soit corrigé"… Bah oui, réellement, c'est trop demander. Si tu n'es pas content, tu forkes. Si tu ne veux pas forker, tu peux essayer de contribuer, mais si les auteurs ont autre chose à faire ou s'ils ne te répondent pas, c'est leur droit.

      Si ça se trouve, ils ont analysé leurs données avec Excel, et ils te fournissent le fichier dans le format natif avec lequel les graphes et les calculs ont été produits sur leur site ou dans le rapport qu'ils ont fait. Ou bien le logiciel qu'ils utilisent pour produire quelque chose d'utile à partir de ces données ne prend que du xls. Dans tous les cas, si tu veux reproduire leur analyse, mieux vaut utiliser leur fichier de départ. Imagine qu'il y ait des erreurs de conversion dans le csv, tu n'irais pas leur gueuler dessus parce que les données qu'ils ont fourni ne sont pas les bonnes?

      • [^] # Re: SAV ou format propriétaire ?

        Posté par (page perso) . Évalué à 5 (+6/-3).

        C'est le principe du libre, "est-ce trop demander d'avoir un truc compilé livré avec le code", "est-ce trop demander d'avoir un code portable", "est-ce trop demander que le bug truc-machin soit corrigé"… Bah oui, réellement, c'est trop demander. Si tu n'es pas content, tu forkes. Si tu ne veux pas forker, tu peux essayer de contribuer, mais si les auteurs ont autre chose à faire ou s'ils ne te répondent pas, c'est leur droit.

        Enfin là, il ne s'agit pas d'un logiciel mais de données d'un gouvernement qui, théoriquement, il y a une circulaire sur le sujet, est censé favoriser les formats ouverts.

        Par ailleurs, proposer des donnes aux format xls aujourd'hui est tout simplement scandaleux. C'est un format mort depuis 2014.

        OS préféré Mageia 6 , CMS préféré SPIP suite bureautique préférée LibreOffice, logiciel de dessin préféré Inkscape.

        • [^] # Re: SAV ou format propriétaire ?

          Posté par . Évalué à 4 (+2/-0).

          En même temps il est lisible depuis libreoffice depuis toujours et tu peux automatiser la conversion en ligne de commande.

          Le point est que les données et leur exploitation, ce n'est pas la même chose. Si les données sont justes formatées dans un .xls, alors ok, c'est dommage sachant qu'il est très simple de faire un .csv. Mais il est aussi possible que les gens aient fait des graphs pour t'aider à comprendre les données qu'il te fournissent et des traitements qui altèrent les données d'origines pour en faire une exploitation acceptable. Du coup s'ils te donnent les données brutes, tu ne trouveras probablement pas les mêmes choses qu'eux et s'ils te donnent les données traitées alors tu auras un biais de traitement. Le tableur permet de sauver données, méthodes de traitements et présentation des résultats dans un même fichier. Je ne suis pas fan du tout et ne l'utilise que quand je ne peux pas faire autrement, mais les gens ne sachant pas du tout programmer n'ont que cela pour communiquer.

          J'aurais préféré que cela soit fait en ods mais la majorité des utilisateurs auraient eu un import pas parfait …
          Il est donc logique qu'ils aient décidé d'utiliser ce format même si je le déplore …

  • # CADA

    Posté par . Évalué à 4 (+3/-0).

    Quand on voit qu'il faut saisir la CADA voire un tribunal pour avoir le moindre bout de code ou le moindre fichier de données dans un format ouvert exploitable, la route sera trèèèès longue.
    https://www.letudiant.fr/etudes/parcoursup/le-code-source-d-admission-post-bac-devoile-mais-illisible.html
    Au passage, une pétition à signer : https://publiccode.eu/fr/

  • # Plateforme communautaire

    Posté par . Évalué à 3 (+1/-0).

    Ce que tu demande ce ne serait pas surtout une plateforme communautaire sur la quelle tout le monde pourrait pousser ses données et qui serait du coup gérées par une communauté (gestion des formats, des demandes de corrections, API standardisées, etc) ?

    • [^] # Re: Plateforme communautaire

      Posté par . Évalué à 1 (+1/-0).

      Bonjour,

      désolé de la latence, j'étais parti… Oui, il y a de cela.

      Je trouve que les données sont utiles parce qu'elles sont utilisables. Il faut une certaine maîtrise informatique pour les réutiliser et il est dommage que cela ne soit pas plus simple. Il existe des outils dont je comprends le fonctionnement sans être une bête d'informatique. Je trouve élitiste de ne pas simplifier l’accès (car cela ne pourra l'être que par des "experts").

      Pour s'ouvrir au plus grand nombre, une plate-forme commune d'outils et de tutoriels serait faisable, pas la peine d'avoir un suivi de ouf, mais une communauté qui s'entraide.

      Bref, ce qui fait la différence entre l'open source et le libre. "Méthodologie de travail" ou "philosophie de partage" ? Perso, c'est le partage qui m'intéresse. Pour faire des réunions fréquentes avec des acteurs, c'est aussi ce qui les intéresse, mais ils n'ont pas la maîtrise de l'outil, ni de piste pour s'approprier cela. Et non, on a pas forcément envie / le temps / l'argent pour des petites assos, d'apprendre à coder ou payer quelqu'un pour utiliser un outil qui pourrait nous servir.

      • [^] # Re: Plateforme communautaire

        Posté par . Évalué à 2 (+0/-0).

        Je trouve élitiste de ne pas simplifier l’accès (car cela ne pourra l'être que par des "experts").

        Sors ton rasoir d'Ockham, ce n'est pas de l'élitisme juste un travaille qui n'est pas fait. Maintenir des outils simples est un travaille véritablement complexe qu'il ne faut pas sous estimer. Puisque tu aime cette analogie, c'est comme créer une communauté ça n'a rien de simple du tout et il ne faut pas voir négativement les gens qui ne se lancent pas là dedans.

        Pour faire des réunions fréquentes avec des acteurs, c'est aussi ce qui les intéresse, mais ils n'ont pas la maîtrise de l'outil, ni de piste pour s'approprier cela. Et non, on a pas forcément envie / le temps / l'argent pour des petites assos, d'apprendre à coder ou payer quelqu'un pour utiliser un outil qui pourrait nous servir.

        Ni d'aller vois l'hacker space ni le LUG, JUG, *UG du coin ? C'est dommage pour eux.

        Pour s'ouvrir au plus grand nombre, une plate-forme commune d'outils et de tutoriels serait faisable, pas la peine d'avoir un suivi de ouf, mais une communauté qui s'entraide.

        L'important de mon commentaire c'est d'inverser le travail. Au lieu de lister ce dont tu voudrais disposer, expliquer ce qui pourrait être fait, pas forcément par les fournisseurs de données initiaux.

  • # Réponse

    Posté par . Évalué à 1 (+1/-0).

    Salut et merci de vos retours.

    J'entends certaines visions de travail, mais en retour j'ai mis un commentaire au dernier commentaire dont certains élément sont généraux. En voici le contenu :

    Désolé de la latence, j'étais parti…

    Je trouve que les données sont utiles parce qu'elles sont utilisables. Il faut une certaine maîtrise informatique pour les réutiliser et il est dommage que cela ne soit pas plus simple. Il existe des outils dont je comprends le fonctionnement sans être une bête d'informatique. Je trouve élitiste de ne pas simplifier l’accès (car cela ne pourra l'être que par des "experts").

    Pour s'ouvrir au plus grand nombre, une plate-forme commune d'outils et de tutoriels serait faisable, pas la peine d'avoir un suivi de ouf, mais une communauté qui s'entraide.

    Bref, ce qui fait la différence entre l'open source et le libre. "Méthodologie de travail" ou "philosophie de partage" ? Perso, c'est le partage qui m'intéresse. Pour faire des réunions fréquentes avec des acteurs, c'est aussi ce qui les intéresse, mais ils n'ont pas la maîtrise de l'outil, ni de piste pour s'approprier cela. Et non, on a pas forcément envie / le temps / l'argent pour des petites assos, d'apprendre à coder ou payer quelqu'un pour utiliser un outil qui pourrait nous servir.

  • # Très intéressant

    Posté par . Évalué à 3 (+1/-0).

    Je trouve ton journal très intéressant.

    Moi j’ai vu que ce qui a motivé le discours de l’open-data auprès de pas mal d’acteurs, ce n’est malheureusement pas toujours la citoyenneté mais les gains économiques potentiels (création de boites et services). Je dis pas que ce deuxième n’est pas bien, je dis que dans de priorité, il me semble qu’il vient en second. Donc pour ce deuxième point les gens se contentent de open-data. Alors qu’il y aurait toute une pédagogie de citoyenneté intéressante à insuffler (cf. Open Knowledge Foundation).

    Pour faire avancer la chose, voici plusieurs suggestions que je te soumet:

    • poster un lien vers ton article sur le forum etalab, c’est pas hyper actif, mais tu touches vraiment des gens du domaine ;
    • écrire à quelques prestataires de plateformes du domaine (un des plus gros étant Open Data Soft mais il y en a d’autres, par exemple Logilab) qui seront peut-être réceptif à certains aspects ou pourront te donner un retour de ce qui existe et qu’on ne voit pas toujours ;
    • connaître les associations qui œuvre dans le sens que tu dis. Outre Open Knowledge déjà cité, je connais un peu Ouvre boite et libertic. Je vois qu’il existe aussi open data france.
    • [^] # Re: Très intéressant

      Posté par . Évalué à 0 (+0/-0).

      Merci pour tous ces liens !
      Je vais creuser cela. Pourquoi pas faire une plateforme de ce qui existe suite à des sollicitations des personnes mentionnées ;)

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.