Journal Lister les liens dans les journaux

Posté par (page perso) .
Tags : aucun
0
15
juil.
2004
J'arrête tout de suite les médisants, je ne vais pas parler des bugs dans les liens dans la page des journaux qui fonctionne pas alors que dans le journal cela fonctionne.

Comme vous l'avez surement remarqué, internet est vraiment très très vaste, et il est vraiment très difficile de trouver tout ce que l'on recherche et surtout de REtrouver ce que l'on cherche.

Même à coup de Google, ca prend souvent beaucoup de temps...

Or, je trouve que linuxfr, car d'autres sites certainement, est une mine d'or au niveau des différents liens proposés par tout le monde.

Simple blague, canular, histoire sur les complots, images terribles, sites web alternatifs, doc sur le css utile, ...
bref tous ce qui peut exister de surprenant et finalement d'intéressant ET alternatif sur internet se retrouve de temps en temps dans chaque journal, et, à moins de {faire un copier coller;httrack de la mort;maintenir un fichier texte de tous les liens,bookmark de 8000 entrées}, il est très difficile de retrouver ces petites choses.

Donc, je me demandais si à tout hasard, un dimanche, vers 8h du matin, un jour, les admins de Linuxfr ne pourrait pas mettre une entrée dans la crontab de Linuxfr style
0 1 1 1 * /home/penso/scriptdelamort.sh
(je croit...)

avec dans ce script une recherche des liens de chaque commentaires de la base, et meme de sélectionner tous ces commentaires (tout en squizant les microsoft.com, kernel.org mandrakelinux.com...)
Cela permettrait de créer une mine d'or de liens a parcourir pendant les longues soirées d'hiver (ce script de la mort devrait bien mettre 6 mois avant de finir non?)

Bref je rêve probablement, cela n'a surement que d'intérêt pour moi, mais bon, au moins j'aurais formulé ma requête auprès de toi cher journal.

Nico.
  • # perso

    Posté par . Évalué à 4.

    perso je me suis créé un blog sur blogger.com et lorsque l'un des liens linuxfriens m'interesse je le post. ca me prend 10 secondes, je peux arranger le texte pour avoir une bonne description, et je ne garde que ce que j'ai déjà visité (ce qui peut être un inconvénient).
    • [^] # Re: perso

      Posté par . Évalué à 1.

      J'ai un wiki pour faire ça mais pas modifiable par tous.
    • [^] # Re: perso

      Posté par . Évalué à 2.

      Ca serait sympa si tu donnais l'adresse, sauf si ça te dérange bien entendu!
      • [^] # Re: perso

        Posté par . Évalué à 3.

        http://plagiats.blogspot.com(...)

        This blog is distributed in the hope that it will be useful,
        but WITHOUT ANY WARRANTY; without even the implied warranty of
        REGULAR UPDATES or FITNESS FOR A PARTICULAR PURPOSE.

        comme je le disais je fais ce blog pour moi (et sans autre ligne directrice que de placer des liens "pour que je me rappelle") m'enfin si ca peut être utile à quelqu'un...
  • # Perso...

    Posté par (page perso) . Évalué à 3.

    J'ai une liste de bookmak au moins comme ca <--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------->
    Parce que des qu'il y a un lien/journal/news sympa/nteressente hop je bookmark
    Comme ca je peut tjs retrouver, c'est long (a retrouver pas a bookmarqué) mais moins que sur google :)

    Voila une solution
  • # Personnalisation

    Posté par . Évalué à 2.

    Ça me donne une idée (complémentaire de celle-ci). Ce qui serait sympa à faire, et qui existe peut-être déjà, c'est une zone sur le bureau sur laquelle on pourrait déposer les URL, et qui se souviendrait de certaines infos (d'où vient cette URL, quand elle a été posée, combien de fois on l'a visitée...)

    Ça nécessiterait une bonne intégration avec l'ensemble des logiciels suceptibles de produire des URL, mais ça pourrait être sympa.
    • [^] # Re: Personnalisation

      Posté par . Évalué à 2.

      Apparemment ça existe déjà en version allégée:
      http://perso.wanadoo.fr/approximativement/urlcollector/(...)

      Une version évoluée me semble de plus en plus intéressante.
    • [^] # Re: Personnalisation

      Posté par (page perso) . Évalué à 2.

      Ou alors en future qu'il heure de DLFP on pourrait avoir un systeme de bookmark interne. On vois un poste qui nous plais, hop on le link dans notre espace personnel, du genres mes journaux preferés...
      • [^] # Re: Personnalisation

        Posté par . Évalué à 3.

        Oui mais le gros défaut c'est que ça serait limité à DLFP. Avec un truc plus global tu peux aussi copier les URL venant de ton logiciel de mails, de ton client IRC... et idéalement le système se souvient de quel mail ça vient, ou de quelle ligne de log IRC.

        En fait ça ressemble assez, dans l'idée, à un truc qui s'appelle dashboard je crois (ah voila: http://www.nat.org/dashboard/(...)), mais en plus ciblé.
  • # shut up and code

    Posté par (page perso) . Évalué à 3.

    Si l'idée c'est de récupérer tous les liens qui sont passés dans les journaux, tu n'as pas besoin d'attendre que qqun de DLFP le fasse. Tu peux écrire un script qui va collecter les liens et les stocker comme tu veux assez facilement (Perl+LWP+HTML::Parser sont tes amis). Après tu peux aussi faire un patch pour DLFP pour qu'à chaque nouveau journal, tous les liens soient stockés qq part mais tu peux aussi bien monter ta propre page qui liste tous les liens que ton bot aura récupéré.

    Le problème c'est plutôt le tri des liens après et ça c'est pas très automatisable. A moins qu'à chaque lien on doive mettre une description et des mots clés ou un truc du genre.

    pertinent adj. Approprié : qui se rapporte exactement à ce dont il est question.

    • [^] # Re: shut up and code

      Posté par (page perso) . Évalué à 3.

      Je veux bien coder, mais je ne suis pas sur que les admins vont être très content qu'un gros barbare a la wget -R aspire toutes les pages de linuxfr...

      et si j'envoie un patch, j'aimerais déja savoir si ce patch a une raison ou un intérêt d'exister et surtout si les administrateurs seraient intéressé par cette idée.

      Je vois pas l'intérêt de coder dans le vide et se faire refuser 1 mois plus tard son code.

      Forum Software Reviews: Comparez et testez les logiciels de forums Internet!

      • [^] # Re: shut up and code

        Posté par (page perso) . Évalué à 2.

        Si t'es le seul à aspirer tous les journaux, ça devrait pas poser trop de problèmes et si tu fais ça bien t'as pas besoin de tout aspirer à chaque fois. S'il y a bcp de monde qui commence à pomper, le patch devient légitime. Tu peux aussi faire en sorte que le script cherche dans le cache de ton navigateur plutôt que directement sur le site.

        pertinent adj. Approprié : qui se rapporte exactement à ce dont il est question.

        • [^] # Re: shut up and code

          Posté par (page perso) . Évalué à 2.

          Oui mais tu es quand même bien conscient qu'avec un accès base et un simple script php, java ou autre ca reste plus {pro,rapide,efficace} que la solution du parsing.

          Et je n'ai pas l'intention d'aller dans le cache de mon navigateur pour retrouver des pages manquantes.

          Je trouve stupide de devoir parser des pages web / fils rss alors qu'un accès base simplifierais bien les choses.

          L'intérêt d'un truc comme cela serait de rendre disponible à tous les différents liens, donc en cas de mis à jour de cette "base parallèle", je ne m'amuserais pas trop à sélectionner "seulement les pages, qui sont générée dynamiquement soit dit en passant, qui contiennent des nouveaux commentaires ou les nouveaux journaux".

          Un accès base est quand même plus simple, et je ne pense pas être suffisamment proche des admins pour m'octroyer ce droit, alors je veux bien faire un développement oui, mais pas dans le vide.

          Forum Software Reviews: Comparez et testez les logiciels de forums Internet!

          • [^] # Re: shut up and code

            Posté par (page perso) . Évalué à 2.

            Pour autant que je sache, la db de journaux/commentaires de DLFP ne contient pas une table juste pour les liens donc tu devrais quand même faire du parsing même avec un accès à la base. A moins de commencer à mettre une table pour les liens+description+mots clés qui serait complétée à chaque ajout d'un commentaire/journal, ce qui nécessite encore plus de travail mais c'est vrai que c'est surement la solution la plus "propre". Si ça t'intéresse, je pense que rien ne t'empèche de contacter les admins pour leur proposer l'idée et voir si ça peut être intégré si tu codes le patch. Ca sera aussi plus propre et efficace qu'un cron qui collecte tous les liens une fois par semaine :)

            Pour la recherche par mots clés le pauvre serveur va peut être pas supporter mais pour le listing de liens ça ne devrait pas poser de problème.

            pertinent adj. Approprié : qui se rapporte exactement à ce dont il est question.

            • [^] # Re: shut up and code

              Posté par (page perso) . Évalué à 2.

              bah l'idée du cron était de donné un point de départ, a ce système, après que cela soit fais régulièrement ou a chaque ajout de liens, il est clair que la seconde solution est plus pratique.

              Mais, je reste convaincu que c'est plus lourd de parser 50000 pages XHTML (avec les menus... 50000 fois, ca finit par prendre du volume)

              que faire un pauvre select dans la base et qui sélectionne les commentaires dans lesquels on doit ensuite effectuer une recherche de liens.

              voila mon avis.

              Je ne pense pas être prêt a faire cela tout de suite, mais si au moins cela révèle un intérêt pas uniquement pour moi, je vais garder ca dans un coin de mon esprit

              Forum Software Reviews: Comparez et testez les logiciels de forums Internet!

      • [^] # Re: shut up and code

        Posté par (page perso) . Évalué à 1.

        Et bien genre tu pourrais filtrer le flux rss (si j'ai bien compris ce que c'est) et tant pis pour les liens passé, tu ne t'attaque qu'au futur. Apres pour le tris, je sais pas mais peut etre que tu peut passer par un spamassasin a qui tu pourrait apprendre a reconnaitres les liens inutils (microsoft, ./, distrib, kernel...) et renvoyer le tout vers la page final ou une base de donnée source de la page finale.
  • # Ma wishlist...

    Posté par . Évalué à 3.

    Puisqu'on est dans la réclamation de fonctionnalité, je me permet d'ajouter la mienne (de réclamation, pas de fonctionnalité) : ça serait d'avoir un calendrier avec tous les événements à venir ; on a souvent des dépèches pour ça, mais le problème c'est que quand elles sont publiées trop tôt on oubli, et si c'est trop tard, ben on est déjà pris!

    Donc voilà un petit calendrier avec les dates des conférences, pic-nics, install parties, salons en France, Suisse, Belgique ça serait sympa, si quelqu'un s'emmerde pendant les vacances...
    • [^] # Re: Ma wishlist...

      Posté par . Évalué à 3.

      C'est une bonne idée, et ça aurait plus de chances d'être vu par des personnes compétentes si c'était posté dans le forum approprié (Linuxfr.idees ?)

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.