L'ouverture des données scientifiques : quid novi ?

Posté par (page perso) . Édité par Benoît Sibaud, palm123 et patrick_g. Modéré par Pierre Jarillon. Licence CC by-sa
32
10
déc.
2013
Open Data

J'avais été conviée à la journée d'étude interdisciplinaire de l'ISCC intitulée « Ouverture des données massives scientifiques. Quels risques, quels bénéfices ? », le 6 décembre 2013. Un grand « merci » aux organisateurs et modérateurs de ces échanges, ce fut une journée très réussie et enrichissante. Je suis intervenue lors de la 2e table ronde qui traitait des avantages et dangers d'une telle ouverture ainsi que des nécessités en termes de politiques publiques pour que cette ouverture se fasse. Voici mes notes de préparation dont tous les points ont été abordés.

Lire la suite pour entendre parler des données scientifiques brutes, de non-reproductibilité, de timides avancées, de droit sui generis des bases de données et de licences Creative Commons v4.

Sommaire

À la recherche des données de recherche

« Monter sur des épaules de géant pour voir plus loin », disait Newton. Aujourd'hui, nous continuons à construire en nous fondant sur les concepts et les résultats de nos prédécesseurs. Mais aujourd'hui, nous sommes face à un problème que Newton n'aurait jamais pu anticiper : l'impossibilité d'accéder aux données scientifiques générées par nos pairs.

La recherche scientifique actuelle produit une quantité de données incommensurable, chaque expérience individuelle pouvant générer des giga- ou des térabits de données. Le problème pour la communauté scientifique est que la majorité de ces données ne parvient pas à être publiée car les publications scientifiques tendent, par nécessité, à être limitées aux conclusions principales ou aux résumés des résultats les plus frappants. Les données brutes sont souvent laissées de côté et peuvent être altérées ou perdues, ainsi inaccessibles à la communauté actuelle et future.

Étant donné que la majorité de données de recherche représente de la donnée « négative » (c'est-à-dire produites par des expériences ratées ou ne validant pas/ne donnant pas de réponse claire à l'hypothèse de départ), la perte de ces données mène à une répétition inutile d'expériences chères et chronophages. C'est un problème qui s'auto-entretient : si les chercheurs basent leurs hypothèses sur la littérature publiée seulement, ils continueront à perdre de l'argent et du temps répétant des manipulations ratées et, au mieux, reproduisant des données non-nécessaires ou, au pire, créant de nouveaux jeux de données de faux positifs.

Les essais cliniques, essaie encore

Là où ces considérations ont une importance particulière : les essais cliniques. Le manque de jeux de données adéquats a donné des médicaments placebo et nocifs faisant objets de scandales à répétition depuis des années. Des études (supplémentaires ou annexes) faites par des chercheurs d'autres labos ne peuvent pas ré-analyser ces jeux de données : ils ne sont en mesure ni de les combiner à de nouveaux datasets ni de les utiliser dans des cas non-anticipés par ceux ayant originellement produit les données.

D'une importance critique est également la capacité à reproduire les résultats déjà publiés. Cela ne peut être fait que si toute l'information est disponible. Cette information peut inclure les données brutes, le logiciel et son code source utilisés ainsi que les métadonnées correctes pour chaque fichier. Un récent exemple de souci conséquent de reproductibilité est l'étude faite par Glenn Begley ayant testé (si et) combien parmi 53 études fondatrices de la recherche sur le cancer sont reproductibles. Le résultat est affligeant : seules 6 des 53 le sont… Même connaissant les limitations des essais pré-cliniques, ce résultat était choquant.

Le jeu de la plateforme

Dans certains domaines scientifiques, les données commencent plus ou moins timidement à être publiées. Des défauts et problèmes persistent cependant quant à la manière de partager les données de recherche tant il manque des plate-formes agréées et des formats ouverts et interopérables. Il nous reste énormément de chemin à parcourir également pour l'ouverture des données sur la recherche, actuellement indisponibles en France. Il est ainsi impossible d'avoir une vision globale et fondée sur les thématiques scientifiques prioritaires et les dotations accordées ces quelques dernières années en France.

Là où le bât blesse, c'est que les données sur l'activité et la production de la recherche existent. Les rassembler et les publier est le travail d'Etalab, la mission du Premier Ministre dont la mission est d'accompagner les administrations publiques dans les démarches d'ouverture de données qu'elles produisent. Pour l'instant, l'ANR (Agence Nationale de la Recherche) se montre frileuse : d'après une enquête récente menée par Deuxième Labo, l'ANR explique qu'elle ne représente qu'une partie minime du budget total de la recherche publique (traduction : « oh, laissez-nous tranquilles ») et que de toutes façons l'Agence ne saurait agir en dehors d'une action groupée de l'ensemble des acteurs concernés.

Le secteur public décideur de demain (ouais plutôt demain)

Tiens, donc voilà qu'on en arrive aux histoires de politiques publiques… Elles commencent—très timidement mais quand même—à se dessiner. La Commission Européenne a débuté le programme OpenAIRE qui vise à être un portail unique vers toutes les publications produites dans le cadre des financements accordés par le FP7. Le successeur du FP7, soit le Horizon2020, prévoit d'assurer une continuité en ce sens et s'enrichit également de recommandations en faveur de l'Open Data en recherche. Il ne s'agit cependant pas d'obligations, mais de recommandations…

Même si c'est un pas pour l'instant humble, d'autres initiatives s'y ajoutent telles que la directive PSI. La France est parmi les 9 États membres qui ont adapté leurs législations autour de l'accès des données publiques pour inclure la ré-utilisation de la directive PSI. La Commission s'est également exprimée sur la nécessité de considérer les données de recherche produites avec des deniers publics comme des données publiques, donc devant suivre le même traitement que les autres données publiques. Enfin, l'European Medicines Agency s'est engagée dans l'élaboration d'un cadre légal pour la publication des données d'essais cliniques.

Et maintenant ?

Avant de terminer, je souhaiterais ouvrir sur quelques questions d'ordre légal. Selon la législation en vigueur, les données brutes sont dans le domaine public. En Europe et en France, un droit spécifique—dit des bases de données,—s'applique protégeant la structuration particulière dont peuvent faire objet les données brutes. L'objectif de cette loi (imposée depuis 1996) est de protéger les investissements financiers et humains mobilisés pour la construction de la base de données en question. Mais cet effet n'a pas été démontré et aux États-Unis, une industrie relative s'est développée. La couche spécifique que représente le droit des bases de données peut conduire à une limitation d'accès aux données brutes. La vente d'accès à la base de données est généralement un service qui exclut toute utilisation autre que la consultation. Voyons comment la version 4.0 des licences de la famille Creative Commons—qui inclut désormais les droits des bases de données—changera la donne.

Une autre question légale concerne l'assistance aux chercheurs, que ce soit en tant qu'auteurs lors de la signature du contrat avec un éditeur, que ce soit en tant que producteur de données inscrites dans un cadre légal où se croisent le régime de propriété intellectuelle imposé par l'université, par le centre de recherche, par l'agence de financement, par la définition de la structure (par ex., UMR…). Il n'est même pas dit qu'on puisse trouver de telles informations facilement : j'ai ainsi tenté de vérifier le cadre légal que l'ANR applique, mais je n'ai rien trouvé dans la documentation mise en ligne par leurs soins.

Enfin, nous devons aussi explorer le retour à la dynamique d'échanges de matériel biologique (et son statut : est-ce de la donnée ?), dynamique autrefois courante, mais aujourd'hui fortement limitée.

  • # Données et logiciels ouverts, oui mais

    Posté par . Évalué à 10.

    Dans le cadre de grosse collaborations en physique on s'est posée la question de l'ouverture des données et des logiciels (On parle de gros projets, qui accumulent 10 ans de travails et 10-20 millions de lignes)

    Pour les données :
    On a mis en place l'ouverture des données à la fermeture de la manip, c'est à dire une fois la prise de données terminée, et les analyses finale en cours, l'idée c'est de permettre aux données d'etre ré-analyser dans le futur,
    Si elle n'ont pas été publiée plus tot c'est aussi car les gens qui produisent les données, sont souvent plus occupé à pré-traiter les donnés, comprendre les artefacts experimentaux, reglés les problème de calibration et autres pour regarder les données,
    Or l'évaluation se fait sur les résultat scientifique publiés, et non sur le volume de donnée publiées. La mise en place d'un serveur de partage des données, et tout le reste a demandé un an de travail à mi-temps à un jeune docteur.

    Pour le software :
    La question de l'ouverture est plus simple et plus complexe, les gens du soft qui rejoignent de nouveaux projets n'ont pas envie de passer 2 à 5 ans à ré-inventer la roue, et à ré-écrire toute la base du code.
    d'un autre coté, certains codes sont plus manip-dépendant, n'ont pas encore été publié, ou sont sensibles et certains ne sont pas chaud pour faire le saut dans le libre.

    On s'est donc diriger vers une ouverture partielle, toute la base du code (Fonctions utilitaires, gestionnaires de configurations, etc…) est disponible sur simple demande (licence open-source non copyleft),pour la partie module (code d'analyse spécifique)
    c'est au cas par cas, en fonction de la volonté de l'auteur, de la maturité du module, et de son importance (D'une certaine facon fournir un module dont la source se limite à //Placeholder for future improvement : do nothing ne sert à rien, et fournir l'algo qui va servir à traiter les données dans une future publi lorsqu'un volume de donnée suffisant sera présent pose aussi un problème)

    • [^] # Re: Données et logiciels ouverts, oui mais

      Posté par (page perso) . Évalué à 4.

      La question qui ressort est surtout celle de la valorisation et de l'évaluation des processus et non des résultats. Là on est à évaluer le papier qui n'est qu'un snapshot de tout ce que l'étude a impliqué et produit.

      P.S. J'ai oublié de mettre le lien vers la tribune de Deuxième Labo dans Le Monde, désolée. La voici : Pour un accès aux données sur la recherche française (et version plus complète sur leur site oueb).

    • [^] # Re: Données et logiciels ouverts, oui mais

      Posté par (page perso) . Évalué à 1.

      Pour le software, tout n'est pas si simple. Nous avons mis sous GPLv3 nos modèles [1] qui sont le fruit de 10-15 ans de travail, avec beaucoup d'études sur des points particuliers, des expériences de validation, des publications sur certains aspects, etc Mais le problème, c'est que n'importe qui peut télécharger un modèle, y injecter des données fantaisistes (ou simplement ne pas comprendre comment utiliser le modèle) et publier un article montrant à quel point ce modèle est mauvais… J'ai déjà eu la (désagréable) surprise de vivre cela lors d'une conférence et je me félicite sans cesse que j'ai été dans la salle pour "attaquer" la présentation. Mais combien de présentations similaires ais-je manqué? [2]

      Afin de tenter de limiter ce problème, nous demandons aux utilisateurs de s'enregistrer et de nous envoyer un email avant d'avoir accès aux modèles. Le vrai test commence maintenant avec plein d'utilisateurs chinois qui se mette à travailler avec nos modèles, en sachant que la grande majorité comprend assez mal la modélisation (j'ai donné un cours en Chine, c'est pour cela qu'ils se lancent sur nos modèles et c'est pour cela que je peux un peu évaluer leur performances)…

      Mis à part notre approche, y-a-t il d'autres approches qui semblent marcher? Quelqu'un à des idées? Des retours? Ou est ce qu'il faudrait une sorte d'extension de la licence qui spécifierait qu'en cas de publication d'une travail lié au code en question, les auteurs du code doivent en être informés (afin de leur donner la possibilité de réagir)?

      Mathias
      [1] https://models.slf.ch
      [2] Évidement, nous ne sommes pas contre les critiques de nos modèles, mais il faut que la critique soit fondée!

  • # Consulter ou ouvrir les données?

    Posté par . Évalué à 4. Dernière modification le 10/12/13 à 15:11.

    Je trouve qu'il y a une différence considérable entre offrir la possibilité de consulter les données, et d'organiser leur publication.

    Si on décide de publier les données de la même manière que les résultats scientifique, c'est une procédure qui demande beaucoup (voire énormément) de ressources : il faut mettre en place des serveurs consultables de l'extérieur, les accès autorisés en lecture et en écriture à des collaborateurs éparpillés partout dans le monde, mettre en place les sauvegardes qui vont bien, etc. Il faut aussi documenter les données, indiquer précisément les modalités des expériences, tenir à jour les adresses email des gens à contacter pour les questions, l'endroit où les documents papier (cahiers de laboratoire…) sont consultables, etc. Il faut formatter les données de manière à ce qu'elles puissent être extraites, et surtout, il faut fournir les scripts et outils d'analyse utilisés, souvent du code maison "one shot" non documenté. Il faut également documenter toutes les analyses qui ont été faites et qui n'ont jamais été publiées (du genre, on a regardé telle ou telle corrélation, et on n'a rien vu).

    L'autre solution, c'est de rendre les données consultables, c'est à dire de garantir aux lecteurs des articles scientifiques que les auteurs s'engagent à leur fournir en vrac leurs données et leur code si on leur demande.

    La deuxième solution est réaliste, et c'est déja comme ça que la recherche fonctionne actuellement, sauf exception (il y a toujours un chieur quelque part qui pense que ses données méritent d'être ultrasecrètes…). La première solution offre un rapport cout/bénéfice très défavorable, étant donné la faible probabilité que quelqu'un utilise réellement ces données, et la probabilité encore plus faible que ce quelqu'un produise quelque chose de scientifiquement valable (j'imagine bien que les données risquent d'être aspirées par des labos chinois désargentés qui vont les passer dans des moulinettes idiotes pour produire des articles écrits automatiquement en mauvais anglais et publiés dans des revues peu regardantes). Étant donné l'évolution très rapide des technologies en biologie par exemple, la durée de vie scientifique de certains jeux de données (type séquençage massif) est de quelques années au mieux. Si on autorise un embargo le temps de publier les données, la plupart des labos aura des données de meilleure qualité le jour de la publication de la base.

    Bref, je pense que le temps passé à rendre les données réanalysables est perdu par le labo publiant (celui qui marche bien) sans aucun réel espoir de plus-value scientifique. Le plus simple pour réanalyser les données est de collaborer (en utilisant des transferts de compétences) plutôt que d'essayer de comprendre ce qu'a fait un labo inconnu à partir du titre des champs d'une base de données…

    Bon, et puis, techniquement, ça ne peut pas marcher en France. Produire des données est finalement assez facile ; il suffit de demander des petits financements (10 k€ par ci, 15 k€ par là), la prod de données massive est à la mode, les organismes aiment bien filer de l'argent pour ça. L'analyse des données demande comparativement plus d'argent : il faut payer des salaires, et ça dure longtemps si on veut faire les choses bien. Au final, c'est la plupart du temps plus couteux de payer quelqueun plusieurs mois à récupérer des données publiées et à reproduire les résultats d'un autre labo que de refaire la manip. C'est absurde, mais c'est comme ça.

  • # Course à la publication

    Posté par (page perso) . Évalué à 7.

    C'est vrai que d'une part on produit, a toujours plus de données…

    Mais le plus gênant dans cette histoire provient surtout de la course à la publication. Chaque laboratoire, s'il veut obtenir des financements doit publier en premier et beaucoup si possible dans des revues "prestigieuses". Du coup, on comprends l'intérêt de garder les données "jusqu'à qu'on est exploité le filon, publié", histoire de ne pas se faire piquer l'idée…

    Bref, c'est de moins en moins sympa.

    D'ailleurs, des scientifiques tel que Higgs prétende ne plus être fait pour les canons de la recherche :
    "Today I wouldn't get an academic job. It's as simple as that."
    "Aujour'hui, je ne pourrais plus obtenir un poste de chercheur. C'est aussi simple que ça."
    http://www.theguardian.com/science/2013/dec/06/peter-higgs-boson-academic-system

    Une autre tard de ce manque de recul sur les données, c'est aussi que parfois certains essaye de tricher un peu sur les données… mais, c'est pas grave.
    http://retractionwatch.com/2013/11/13/scientist-who-faked-data-in-his-thesis-will-keep-his-phd/

    La réalité, c'est ce qui continue d'exister quand on cesse d'y croire - Philip K. Dick

  • # CERN

    Posté par . Évalué à 5.

    Un petit peu hors sujet, mais pas complètement, cette dépêche me rappelle un article que j'ai lu récemment, sur la façon dont le CERN gère et met à disposition des chercheurs ses 100 Po de données (dont 75 rien que sur les trois dernières années) :
    http://www.hpcmagazine.fr/en-couverture/comment-le-cern-gere-ses-donnees/

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.