Suivi - Administration système Dump anonymisé de la base de données

#1824 Posté par (page perso) . État de l'entrée : ouverte. Licence CC by-sa.
Tags : aucun
0
26
juin
2018

Ce serait intéressant de fournir un dump (anonymisé bien sûr) régulier et automatisé de la base de données de DLFP.

Déjà, ce serait plus facile pour contribuer au projet, mais ça permettrait aussi certainement de faire des stats intéressantes.

  • # Autre demande similaire

    Posté par (page perso) . Évalué à 3 (+0/-0).

    • [^] # Re: Autre demande similaire

      Posté par (page perso) . Évalué à 2 (+0/-0).

      Ah effectivement, je n'avais pas vu ça.

      Ceci dit, je pense que c'est plus simple d'anonymiser un dump des données existantes que de créer un jeu de données de test (et surtout de le maintenir, ça on sait bien que personne n'aura envie de le faire).

  • # Autre demande similaire

    Posté par (page perso) . Évalué à 3 (+0/-0).

  • # Anonymisation

    Posté par . Évalué à 2 (+0/-0).

    Est-ce que ca serait possible de remplacer tous les user_id par un seul et meme user_id dans le dump? Si le code source peut tourner avec ca, ca fera une bonne anonymisation, ca pourrait etre suffisant pour beaucoup d'usages et se faire avec quelques regex.

    • [^] # Re: Anonymisation

      Posté par (page perso) . Évalué à 3 (+0/-0).

      Je ne pense pas que cela marcherait. Il y a quelques règles du genre on ne peut pas voter sur son propre commentaire. Et de toute façon, c'est très loin d'être suffisant, il y a plein d'autres données personnelles. Par exemple, il est possible de soumettre une dépêche sans avoir de compte, juste en laissant une adresse de courriel en contact. Il faut également anonymiser ces adresses de courriel.

      • [^] # Re: Anonymisation

        Posté par . Évalué à 2 (+0/-0). Dernière modification le 20/07/18 à 23:10.

        Je ne pense pas que cela marcherait. Il y a quelques règles du genre on ne peut pas voter sur son propre commentaire

        J'avais pense aussi aux votes et comme apparemment les votes sont enregistres separement (et temporairement) dans une db Redis il y avait moyens que ca passe quand meme.

        Mais avec le commentaire du bas, qui dit qu'il faut garder les auteurs de commentaires, je deduis que l'anonymisation consiste a ne pas montrer plus d'info que ce qu'on voit quand on navigue sur le site et pas moins.

        • [^] # Re: Anonymisation

          Posté par (page perso) . Évalué à 4 (+0/-0). Dernière modification le 21/07/18 à 10:11.

          • ne pas anonymiser des contenus / commentaires écrits par tout un chacun (souci de contrefaçon)
          • éviter de réutiliser les mêmes contenus pour éviter que le daemon share ne republie sur les réseaux sociaux (il n'aura pas de compte par défaut de toute façon) ou que le daemon img ne retélécharge une fois de plus les mêmes images (éviter des requêtes multiples chez un tiers)
          • ne pas avoir des données personnelles diffusées dans la nature
          • ne pas avoir de soucis avec les données / contenus / commentaires modifiés ou supprimés depuis (droit à l'oubli, spam, volonté de changer de nom affiché, etc.)

          Globalement ça voudrait notamment dire se limiter aux contenus / commentaires d'un sous-ensemble petit de gens d'accord pour cela, par exemple l'équipe du site. Et tout le reste serait non exporté. À voir aussi pour un stockage local des images figurant dans l'export (ou leur remplacement par des images aléatoires locales par exemple).

          • [^] # Re: Anonymisation

            Posté par . Évalué à 2 (+0/-0).

            Tout ça me paraît bien compliqué. Ne serait-il pas plus simple d'ouvrir un deuxième LinuxFR en invitant quelques personnes pour créer des contenus, en vue justement d'utiliser ces contenus pour générer des données de test? (Cela ferait partie des conditions d'utilisation de cette deuxième version, qui n'a pas forcément vocation à être accessible au public en tant que telle ou aux inscription ouvertes.)

            • [^] # Re: Anonymisation

              Posté par . Évalué à 2 (+0/-0). Dernière modification le 21/07/18 à 10:58.

              Ca dépend de l'utilisation. Moi pour tester un outil de recherche j'ai besoin de beaucoup de contenu. Peut etre que scraper le site serait plus approprié.

              Pour les autres usages faut voir. Ne reprendre les données que de quelques utilisateurs consentants peut suffire.

          • [^] # Re: Anonymisation

            Posté par (page perso) . Évalué à 3 (+0/-0).

            Globalement ça voudrait notamment dire se limiter aux contenus / commentaires d'un sous-ensemble petit de gens d'accord pour cela, par exemple l'équipe du site

            Nb: il faut même se limiter aux contenus écrits uniquement par l'équipe du site (car il existe de nombreux contenus écrits par les gens du site sur lesquels d'autres personnes ont contribué… et donc il faudrait soit anonymiser leurs contributions (paf contrefaçon) soit obtenir l'autorisation de les inclure dans le "sous-ensemble petit de gens d'accord pour cela"… bref ça serait plus simple de se limiter un peu plus au final)

    • [^] # Re: Anonymisation

      Posté par (page perso) . Évalué à 3 (+0/-0).

      Non, ça serait une contrefaçon, non respect des auteurs de commentaires et contenus.

      • [^] # Re: Anonymisation

        Posté par . Évalué à 1 (+0/-0).

        Non,je ne pense pas.
        Partant du principe que la grande majorité du contenu est accessible publiquement, je pense qu'il est inutile de l'anonymiser.
        Par contre il faut anonymiser les profils (nom, adresse email…),les votes (on peut quasiment randomisée l'id du voyant), les contenus privés comme la tribune de la cabale< et les magouilles des modéros 😋, etc.

        Le mieux est sans doute de partir du schéma de la bdd est analyser le degré d'anonymat souhaitable pour chaque champ. Yaka…

        • [^] # Re: Anonymisation

          Posté par (page perso) . Évalué à 3 (+0/-0).

          Il était demandé de tout réattribuer à un seul compte Anonyme (remplacer tous les user_id par un seul et meme user_id), donc de perdre l'auteur de chaque contenu/commentaire, et ça, stricto sensu, ça serait de la contrefaçon (sauf à avoir l'autorisation de chaque compte concerné).

          J'ai déjà donné d'autres éléments dans un autre commentaire.

          Actuellement la base de données du serveur de dév (alpha) est composée d'anciens contenus/commentaires (uniquement ceux de membres de l'équipe du site). Les problèmes restants concerneraient le fait de récupérer les images depuis des serveurs tiers, et le besoin de nettoyer les données personnelles associées aux comptes (on peut garder le nom affiché, le login, le user_id, etc., mais il faut nettoyer les IP de connexion, l'adresse de courriel, le mot de passe, etc.).

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.