Journal Lister les liens dans les journaux

Posté par Nicolas Ternisien le 15 juillet 2004 à 10:31.

Étiquettes : aucune

juil.

2004

J'arrête tout de suite les médisants, je ne vais pas parler des bugs dans les liens dans la page des journaux qui fonctionne pas alors que dans le journal cela fonctionne.

Comme vous l'avez surement remarqué, internet est vraiment très très vaste, et il est vraiment très difficile de trouver tout ce que l'on recherche et surtout de REtrouver ce que l'on cherche.

Même à coup de Google, ca prend souvent beaucoup de temps...

Or, je trouve que linuxfr, car d'autres sites certainement, est une mine d'or au niveau des différents liens proposés par tout le monde.

Simple blague, canular, histoire sur les complots, images terribles, sites web alternatifs, doc sur le css utile, ...
bref tous ce qui peut exister de surprenant et finalement d'intéressant ET alternatif sur internet se retrouve de temps en temps dans chaque journal, et, à moins de {faire un copier coller;httrack de la mort;maintenir un fichier texte de tous les liens,bookmark de 8000 entrées}, il est très difficile de retrouver ces petites choses.

Donc, je me demandais si à tout hasard, un dimanche, vers 8h du matin, un jour, les admins de Linuxfr ne pourrait pas mettre une entrée dans la crontab de Linuxfr style
0 1 1 1 * /home/penso/scriptdelamort.sh
(je croit...)

avec dans ce script une recherche des liens de chaque commentaires de la base, et meme de sélectionner tous ces commentaires (tout en squizant les microsoft.com, kernel.org mandrakelinux.com...)
Cela permettrait de créer une mine d'or de liens a parcourir pendant les longues soirées d'hiver (ce script de la mort devrait bien mettre 6 mois avant de finir non?)

Bref je rêve probablement, cela n'a surement que d'intérêt pour moi, mais bon, au moins j'aurais formulé ma requête auprès de toi cher journal.

Nico.

# perso

Posté par plagiats le 15 juillet 2004 à 10:46. Évalué à 4.

perso je me suis créé un blog sur blogger.com et lorsque l'un des liens linuxfriens m'interesse je le post. ca me prend 10 secondes, je peux arranger le texte pour avoir une bonne description, et je ne garde que ce que j'ai déjà visité (ce qui peut être un inconvénient).
- [^] # Re: perso
  
  Posté par Ramso le 15 juillet 2004 à 12:01. Évalué à 1.
  
  J'ai un wiki pour faire ça mais pas modifiable par tous.
- [^] # Re: perso
  
  Posté par lyrzine le 15 juillet 2004 à 12:11. Évalué à 2.
  
  Ca serait sympa si tu donnais l'adresse, sauf si ça te dérange bien entendu!
  - [^] # Re: perso
    
    Posté par plagiats le 15 juillet 2004 à 13:17. Évalué à 3.
    
    http://plagiats.blogspot.com(...)
    
    This blog is distributed in the hope that it will be useful,
    but WITHOUT ANY WARRANTY; without even the implied warranty of
    REGULAR UPDATES or FITNESS FOR A PARTICULAR PURPOSE.
    
    comme je le disais je fais ce blog pour moi (et sans autre ligne directrice que de placer des liens "pour que je me rappelle") m'enfin si ca peut être utile à quelqu'un...
    - [^] # Re: perso
      
      Posté par rarcel le 15 juillet 2004 à 13:47. Évalué à 1.
      
      si vous voulez mon brave wiki peut servir a ca .. si il tient le choc
      http://www.rarcel.net/wiki/wakka.php?wiki=ParcaPoussins(...)
    - [^] # Re: perso
      
      Posté par Calim' Héros le 15 juillet 2004 à 13:57. Évalué à 3.
      
      Oui mais c'est un pb recursif, je met ou le lien qui mene a ton blog vue qu'idealement il devrait etre dedans. :p
      Ceci etant un pb recursif, je crois que je vais voir si je peut l traiter en lisp :p
      
      et hop -------> ()
# Perso...

Posté par Calim' Héros le 15 juillet 2004 à 10:50. Évalué à 3.

J'ai une liste de bookmak au moins comme ca <--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------->
Parce que des qu'il y a un lien/journal/news sympa/nteressente hop je bookmark
Comme ca je peut tjs retrouver, c'est long (a retrouver pas a bookmarqué) mais moins que sur google :)

Voila une solution
# Personnalisation

Posté par Yusei (Mastodon) le 15 juillet 2004 à 10:52. Évalué à 2.

Ça me donne une idée (complémentaire de celle-ci). Ce qui serait sympa à faire, et qui existe peut-être déjà, c'est une zone sur le bureau sur laquelle on pourrait déposer les URL, et qui se souviendrait de certaines infos (d'où vient cette URL, quand elle a été posée, combien de fois on l'a visitée...)

Ça nécessiterait une bonne intégration avec l'ensemble des logiciels suceptibles de produire des URL, mais ça pourrait être sympa.
- [^] # Re: Personnalisation
  
  Posté par Yusei (Mastodon) le 15 juillet 2004 à 11:10. Évalué à 2.
  
  Apparemment ça existe déjà en version allégée:
  http://perso.wanadoo.fr/approximativement/urlcollector/(...)
  
  Une version évoluée me semble de plus en plus intéressante.
- [^] # Re: Personnalisation
  
  Posté par Calim' Héros le 15 juillet 2004 à 11:11. Évalué à 2.
  
  Ou alors en future qu'il heure de DLFP on pourrait avoir un systeme de bookmark interne. On vois un poste qui nous plais, hop on le link dans notre espace personnel, du genres mes journaux preferés...
  - [^] # Re: Personnalisation
    
    Posté par Yusei (Mastodon) le 15 juillet 2004 à 11:14. Évalué à 3.
    
    Oui mais le gros défaut c'est que ça serait limité à DLFP. Avec un truc plus global tu peux aussi copier les URL venant de ton logiciel de mails, de ton client IRC... et idéalement le système se souvient de quel mail ça vient, ou de quelle ligne de log IRC.
    
    En fait ça ressemble assez, dans l'idée, à un truc qui s'appelle dashboard je crois (ah voila: http://www.nat.org/dashboard/(...)), mais en plus ciblé.
# shut up and code

Posté par Krunch (courriel, site web personnel) le 15 juillet 2004 à 11:23. Évalué à 3.

Si l'idée c'est de récupérer tous les liens qui sont passés dans les journaux, tu n'as pas besoin d'attendre que qqun de DLFP le fasse. Tu peux écrire un script qui va collecter les liens et les stocker comme tu veux assez facilement (Perl+LWP+HTML::Parser sont tes amis). Après tu peux aussi faire un patch pour DLFP pour qu'à chaque nouveau journal, tous les liens soient stockés qq part mais tu peux aussi bien monter ta propre page qui liste tous les liens que ton bot aura récupéré.

Le problème c'est plutôt le tri des liens après et ça c'est pas très automatisable. A moins qu'à chaque lien on doive mettre une description et des mots clés ou un truc du genre.
pertinent adj. Approprié : qui se rapporte exactement à ce dont il est question.
- [^] # Re: shut up and code
  
  Posté par Nicolas Ternisien le 15 juillet 2004 à 11:44. Évalué à 3.
  
  Je veux bien coder, mais je ne suis pas sur que les admins vont être très content qu'un gros barbare a la wget -R aspire toutes les pages de linuxfr...
  
  et si j'envoie un patch, j'aimerais déja savoir si ce patch a une raison ou un intérêt d'exister et surtout si les administrateurs seraient intéressé par cette idée.
  
  Je vois pas l'intérêt de coder dans le vide et se faire refuser 1 mois plus tard son code.
  Forum Software Reviews: Comparez et testez les logiciels de forums Internet!
  - [^] # Re: shut up and code
    
    Posté par Krunch (courriel, site web personnel) le 15 juillet 2004 à 12:24. Évalué à 2.
    
    Si t'es le seul à aspirer tous les journaux, ça devrait pas poser trop de problèmes et si tu fais ça bien t'as pas besoin de tout aspirer à chaque fois. S'il y a bcp de monde qui commence à pomper, le patch devient légitime. Tu peux aussi faire en sorte que le script cherche dans le cache de ton navigateur plutôt que directement sur le site.
    pertinent adj. Approprié : qui se rapporte exactement à ce dont il est question.
    - [^] # Re: shut up and code
      
      Posté par Nicolas Ternisien le 15 juillet 2004 à 13:42. Évalué à 2.
      
      Oui mais tu es quand même bien conscient qu'avec un accès base et un simple script php, java ou autre ca reste plus {pro,rapide,efficace} que la solution du parsing.
      
      Et je n'ai pas l'intention d'aller dans le cache de mon navigateur pour retrouver des pages manquantes.
      
      Je trouve stupide de devoir parser des pages web / fils rss alors qu'un accès base simplifierais bien les choses.
      
      L'intérêt d'un truc comme cela serait de rendre disponible à tous les différents liens, donc en cas de mis à jour de cette "base parallèle", je ne m'amuserais pas trop à sélectionner "seulement les pages, qui sont générée dynamiquement soit dit en passant, qui contiennent des nouveaux commentaires ou les nouveaux journaux".
      
      Un accès base est quand même plus simple, et je ne pense pas être suffisamment proche des admins pour m'octroyer ce droit, alors je veux bien faire un développement oui, mais pas dans le vide.
      Forum Software Reviews: Comparez et testez les logiciels de forums Internet!
      - [^] # Re: shut up and code
        
        Posté par Krunch (courriel, site web personnel) le 15 juillet 2004 à 14:27. Évalué à 2.
        
        Pour autant que je sache, la db de journaux/commentaires de DLFP ne contient pas une table juste pour les liens donc tu devrais quand même faire du parsing même avec un accès à la base. A moins de commencer à mettre une table pour les liens+description+mots clés qui serait complétée à chaque ajout d'un commentaire/journal, ce qui nécessite encore plus de travail mais c'est vrai que c'est surement la solution la plus "propre". Si ça t'intéresse, je pense que rien ne t'empèche de contacter les admins pour leur proposer l'idée et voir si ça peut être intégré si tu codes le patch. Ca sera aussi plus propre et efficace qu'un cron qui collecte tous les liens une fois par semaine :)
        
        Pour la recherche par mots clés le pauvre serveur va peut être pas supporter mais pour le listing de liens ça ne devrait pas poser de problème.
        pertinent adj. Approprié : qui se rapporte exactement à ce dont il est question.
        
        [^] # Re: shut up and code
        
        Posté par Nicolas Ternisien le 15 juillet 2004 à 14:59. Évalué à 2.
        
        bah l'idée du cron était de donné un point de départ, a ce système, après que cela soit fais régulièrement ou a chaque ajout de liens, il est clair que la seconde solution est plus pratique.
        
        Mais, je reste convaincu que c'est plus lourd de parser 50000 pages XHTML (avec les menus... 50000 fois, ca finit par prendre du volume)
        
        que faire un pauvre select dans la base et qui sélectionne les commentaires dans lesquels on doit ensuite effectuer une recherche de liens.
        
        voila mon avis.
        
        Je ne pense pas être prêt a faire cela tout de suite, mais si au moins cela révèle un intérêt pas uniquement pour moi, je vais garder ca dans un coin de mon esprit
        Forum Software Reviews: Comparez et testez les logiciels de forums Internet!
  - [^] # Re: shut up and code
    
    Posté par Calim' Héros le 15 juillet 2004 à 12:25. Évalué à 1.
    
    Et bien genre tu pourrais filtrer le flux rss (si j'ai bien compris ce que c'est) et tant pis pour les liens passé, tu ne t'attaque qu'au futur. Apres pour le tris, je sais pas mais peut etre que tu peut passer par un spamassasin a qui tu pourrait apprendre a reconnaitres les liens inutils (microsoft, ./, distrib, kernel...) et renvoyer le tout vers la page final ou une base de donnée source de la page finale.
# Ma wishlist...

Posté par calandoa le 15 juillet 2004 à 15:51. Évalué à 3.

Puisqu'on est dans la réclamation de fonctionnalité, je me permet d'ajouter la mienne (de réclamation, pas de fonctionnalité) : ça serait d'avoir un calendrier avec tous les événements à venir ; on a souvent des dépèches pour ça, mais le problème c'est que quand elles sont publiées trop tôt on oubli, et si c'est trop tard, ben on est déjà pris!

Donc voilà un petit calendrier avec les dates des conférences, pic-nics, install parties, salons en France, Suisse, Belgique ça serait sympa, si quelqu'un s'emmerde pendant les vacances...
- [^] # Re: Ma wishlist...
  
  Posté par Yusei (Mastodon) le 15 juillet 2004 à 15:54. Évalué à 3.
  
  C'est une bonne idée, et ça aurait plus de chances d'être vu par des personnes compétentes si c'était posté dans le forum approprié (Linuxfr.idees ?)

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.