Cher journal,
Je désire étudier la proportion de boulais rôdant en meutes sur DLFP, et la comparer entre main-tenant, et à vent...
Pour cela, j'essaie d'obtenir un échantillon significatif de commentaires, parmi les premiers, et les tout derniers...
Saurais-tu si un dump est accessible quelque part ?
Je ne suis pas sûr qu'un bon gros wget des familles soit très adapté...
Merci de ton aide cher journal.
# Commentaire supprimé
Posté par Anonyme . Évalué à 1.
Ce commentaire a été supprimé par l’équipe de modération.
[^] # Re: DLFP mieux à vent ?
Posté par cassecou . Évalué à 1.
# Re: DLFP mieux à vent ?
Posté par mouling . Évalué à 4.
#!/usr/bin/perl
use LWP::Simple;
for ($i=1;$i<500;$i++) {
$journaux= get("http://www.linuxfr.org/journal/index,$i.html(...)") ;
while ($journaux =~ /<a href="..(\/[^\/]+\/\d+.html)">Lire le journal/g) {
$journal = get("http://www.linuxfr.org(...)".$1) ;
print STDOUT $journal ; # ou autre...
}
}
(bien sûr, pas de (...) dans les adresses, avatar de la reconnaissante automagique par les templates de linuxfr)
Avec ça, tu examines les 500 "premières" pages d'accueil de la rubrique journal, et récupères chaque journal dans chacune de ces pages. Reste à faire les regexp qui vont bien pour extraire les auteurs, commentateurs, notes, ... Tu pourras nous produire les stats des contributions, nombre de réponses, trolleurs fous, etc. : de quoi occuper ta soirée !
Ils vont être contents, du côté du serveur de linuxfr...
[^] # Re: DLFP mieux à vent ?
Posté par cassecou . Évalué à 1.
Peu importe, je vais essayer de me débrouiller avec wget ;)
Merci :)
# Re: DLFP mieux à vent ?
Posté par PloufPlouf (site web personnel) . Évalué à 3.
http://linuxfr.org/~ploufplouf/6585.html(...)
[^] # Re: DLFP mieux à vent ?
Posté par cassecou . Évalué à 1.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.