Ce serait intéressant de fournir un dump (anonymisé bien sûr) régulier et automatisé de la base de données de DLFP.
Déjà, ce serait plus facile pour contribuer au projet, mais ça permettrait aussi certainement de faire des stats intéressantes.
Ce serait intéressant de fournir un dump (anonymisé bien sûr) régulier et automatisé de la base de données de DLFP.
Déjà, ce serait plus facile pour contribuer au projet, mais ça permettrait aussi certainement de faire des stats intéressantes.
# Autre demande similaire
Posté par Bruno Michel (site web personnel) . Évalué à 3 (+0/-0).
Cf https://linuxfr.org/suivi/fournir-des-donnees-d-exemple#comment-1320006
[^] # Re: Autre demande similaire
Posté par 못 옷 홋 ♨ (site web personnel) . Évalué à 2 (+0/-0).
Ah effectivement, je n'avais pas vu ça.
Ceci dit, je pense que c'est plus simple d'anonymiser un dump des données existantes que de créer un jeu de données de test (et surtout de le maintenir, ça on sait bien que personne n'aura envie de le faire).
# Autre demande similaire
Posté par Bruno Michel (site web personnel) . Évalué à 3 (+0/-0).
https://linuxfr.org/nodes/114940/comments/1744418
# Anonymisation
Posté par j_m . Évalué à 2 (+0/-0).
Est-ce que ca serait possible de remplacer tous les user_id par un seul et meme user_id dans le dump? Si le code source peut tourner avec ca, ca fera une bonne anonymisation, ca pourrait etre suffisant pour beaucoup d'usages et se faire avec quelques regex.
[^] # Re: Anonymisation
Posté par Bruno Michel (site web personnel) . Évalué à 3 (+0/-0).
Je ne pense pas que cela marcherait. Il y a quelques règles du genre on ne peut pas voter sur son propre commentaire. Et de toute façon, c'est très loin d'être suffisant, il y a plein d'autres données personnelles. Par exemple, il est possible de soumettre une dépêche sans avoir de compte, juste en laissant une adresse de courriel en contact. Il faut également anonymiser ces adresses de courriel.
[^] # Re: Anonymisation
Posté par j_m . Évalué à 2 (+0/-0). Dernière modification le 20 juillet 2018 à 23:10.
J'avais pense aussi aux votes et comme apparemment les votes sont enregistres separement (et temporairement) dans une db Redis il y avait moyens que ca passe quand meme.
Mais avec le commentaire du bas, qui dit qu'il faut garder les auteurs de commentaires, je deduis que l'anonymisation consiste a ne pas montrer plus d'info que ce qu'on voit quand on navigue sur le site et pas moins.
[^] # Re: Anonymisation
Posté par Benoît Sibaud (site web personnel) . Évalué à 4 (+0/-0). Dernière modification le 21 juillet 2018 à 10:11.
Globalement ça voudrait notamment dire se limiter aux contenus / commentaires d'un sous-ensemble petit de gens d'accord pour cela, par exemple l'équipe du site. Et tout le reste serait non exporté. À voir aussi pour un stockage local des images figurant dans l'export (ou leur remplacement par des images aléatoires locales par exemple).
[^] # Re: Anonymisation
Posté par Michaël (site web personnel) . Évalué à 2 (+0/-0).
Tout ça me paraît bien compliqué. Ne serait-il pas plus simple d'ouvrir un deuxième LinuxFR en invitant quelques personnes pour créer des contenus, en vue justement d'utiliser ces contenus pour générer des données de test? (Cela ferait partie des conditions d'utilisation de cette deuxième version, qui n'a pas forcément vocation à être accessible au public en tant que telle ou aux inscription ouvertes.)
[^] # Re: Anonymisation
Posté par j_m . Évalué à 2 (+0/-0). Dernière modification le 21 juillet 2018 à 10:58.
Ca dépend de l'utilisation. Moi pour tester un outil de recherche j'ai besoin de beaucoup de contenu. Peut etre que scraper le site serait plus approprié.
Pour les autres usages faut voir. Ne reprendre les données que de quelques utilisateurs consentants peut suffire.
[^] # Re: Anonymisation
Posté par Benoît Sibaud (site web personnel) . Évalué à 3 (+0/-0).
Nb: il faut même se limiter aux contenus écrits uniquement par l'équipe du site (car il existe de nombreux contenus écrits par les gens du site sur lesquels d'autres personnes ont contribué… et donc il faudrait soit anonymiser leurs contributions (paf contrefaçon) soit obtenir l'autorisation de les inclure dans le "sous-ensemble petit de gens d'accord pour cela"… bref ça serait plus simple de se limiter un peu plus au final)
[^] # Re: Anonymisation
Posté par Benoît Sibaud (site web personnel) . Évalué à 3 (+0/-0).
Non, ça serait une contrefaçon, non respect des auteurs de commentaires et contenus.
[^] # Re: Anonymisation
Posté par dyno partouzeur du centre . Évalué à 1 (+0/-0).
Non,je ne pense pas.
Partant du principe que la grande majorité du contenu est accessible publiquement, je pense qu'il est inutile de l'anonymiser.
Par contre il faut anonymiser les profils (nom, adresse email…),les votes (on peut quasiment randomisée l'id du voyant), les contenus privés comme la tribune de la cabale< et les magouilles des modéros 😋, etc.
Le mieux est sans doute de partir du schéma de la bdd est analyser le degré d'anonymat souhaitable pour chaque champ. Yaka…
[^] # Re: Anonymisation
Posté par Benoît Sibaud (site web personnel) . Évalué à 3 (+0/-0).
Il était demandé de tout réattribuer à un seul compte Anonyme (remplacer tous les user_id par un seul et meme user_id), donc de perdre l'auteur de chaque contenu/commentaire, et ça, stricto sensu, ça serait de la contrefaçon (sauf à avoir l'autorisation de chaque compte concerné).
J'ai déjà donné d'autres éléments dans un autre commentaire.
Actuellement la base de données du serveur de dév (alpha) est composée d'anciens contenus/commentaires (uniquement ceux de membres de l'équipe du site). Les problèmes restants concerneraient le fait de récupérer les images depuis des serveurs tiers, et le besoin de nettoyer les données personnelles associées aux comptes (on peut garder le nom affiché, le login, le user_id, etc., mais il faut nettoyer les IP de connexion, l'adresse de courriel, le mot de passe, etc.).
Envoyer un commentaire
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.