Suivi - Administration système Dump anonymisé de la base de données

#1824 Posté par (page perso) . État de l'entrée : ouverte. Licence CC by-sa.
Tags : aucun
0
26
juin
2018

Ce serait intéressant de fournir un dump (anonymisé bien sûr) régulier et automatisé de la base de données de DLFP.

Déjà, ce serait plus facile pour contribuer au projet, mais ça permettrait aussi certainement de faire des stats intéressantes.

  • # Autre demande similaire

    Posté par (page perso) . Évalué à 3 (+0/-0).

    • [^] # Re: Autre demande similaire

      Posté par (page perso) . Évalué à 2 (+0/-0).

      Ah effectivement, je n'avais pas vu ça.

      Ceci dit, je pense que c'est plus simple d'anonymiser un dump des données existantes que de créer un jeu de données de test (et surtout de le maintenir, ça on sait bien que personne n'aura envie de le faire).

  • # Autre demande similaire

    Posté par (page perso) . Évalué à 3 (+0/-0).

  • # Anonymisation

    Posté par . Évalué à 2 (+0/-0).

    Est-ce que ca serait possible de remplacer tous les user_id par un seul et meme user_id dans le dump? Si le code source peut tourner avec ca, ca fera une bonne anonymisation, ca pourrait etre suffisant pour beaucoup d'usages et se faire avec quelques regex.

    • [^] # Re: Anonymisation

      Posté par (page perso) . Évalué à 3 (+0/-0).

      Je ne pense pas que cela marcherait. Il y a quelques règles du genre on ne peut pas voter sur son propre commentaire. Et de toute façon, c'est très loin d'être suffisant, il y a plein d'autres données personnelles. Par exemple, il est possible de soumettre une dépêche sans avoir de compte, juste en laissant une adresse de courriel en contact. Il faut également anonymiser ces adresses de courriel.

      • [^] # Re: Anonymisation

        Posté par . Évalué à 2 (+0/-0). Dernière modification le 20/07/18 à 23:10.

        Je ne pense pas que cela marcherait. Il y a quelques règles du genre on ne peut pas voter sur son propre commentaire

        J'avais pense aussi aux votes et comme apparemment les votes sont enregistres separement (et temporairement) dans une db Redis il y avait moyens que ca passe quand meme.

        Mais avec le commentaire du bas, qui dit qu'il faut garder les auteurs de commentaires, je deduis que l'anonymisation consiste a ne pas montrer plus d'info que ce qu'on voit quand on navigue sur le site et pas moins.

        • [^] # Re: Anonymisation

          Posté par (page perso) . Évalué à 4 (+0/-0). Dernière modification le 21/07/18 à 10:11.

          • ne pas anonymiser des contenus / commentaires écrits par tout un chacun (souci de contrefaçon)
          • éviter de réutiliser les mêmes contenus pour éviter que le daemon share ne republie sur les réseaux sociaux (il n'aura pas de compte par défaut de toute façon) ou que le daemon img ne retélécharge une fois de plus les mêmes images (éviter des requêtes multiples chez un tiers)
          • ne pas avoir des données personnelles diffusées dans la nature
          • ne pas avoir de soucis avec les données / contenus / commentaires modifiés ou supprimés depuis (droit à l'oubli, spam, volonté de changer de nom affiché, etc.)

          Globalement ça voudrait notamment dire se limiter aux contenus / commentaires d'un sous-ensemble petit de gens d'accord pour cela, par exemple l'équipe du site. Et tout le reste serait non exporté. À voir aussi pour un stockage local des images figurant dans l'export (ou leur remplacement par des images aléatoires locales par exemple).

          • [^] # Re: Anonymisation

            Posté par (page perso) . Évalué à 2 (+0/-0).

            Tout ça me paraît bien compliqué. Ne serait-il pas plus simple d'ouvrir un deuxième LinuxFR en invitant quelques personnes pour créer des contenus, en vue justement d'utiliser ces contenus pour générer des données de test? (Cela ferait partie des conditions d'utilisation de cette deuxième version, qui n'a pas forcément vocation à être accessible au public en tant que telle ou aux inscription ouvertes.)

            • [^] # Re: Anonymisation

              Posté par . Évalué à 2 (+0/-0). Dernière modification le 21/07/18 à 10:58.

              Ca dépend de l'utilisation. Moi pour tester un outil de recherche j'ai besoin de beaucoup de contenu. Peut etre que scraper le site serait plus approprié.

              Pour les autres usages faut voir. Ne reprendre les données que de quelques utilisateurs consentants peut suffire.

          • [^] # Re: Anonymisation

            Posté par (page perso) . Évalué à 3 (+0/-0).

            Globalement ça voudrait notamment dire se limiter aux contenus / commentaires d'un sous-ensemble petit de gens d'accord pour cela, par exemple l'équipe du site

            Nb: il faut même se limiter aux contenus écrits uniquement par l'équipe du site (car il existe de nombreux contenus écrits par les gens du site sur lesquels d'autres personnes ont contribué… et donc il faudrait soit anonymiser leurs contributions (paf contrefaçon) soit obtenir l'autorisation de les inclure dans le "sous-ensemble petit de gens d'accord pour cela"… bref ça serait plus simple de se limiter un peu plus au final)

    • [^] # Re: Anonymisation

      Posté par (page perso) . Évalué à 3 (+0/-0).

      Non, ça serait une contrefaçon, non respect des auteurs de commentaires et contenus.

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.