Journal Un projet tout neuf

Posté par  .
Étiquettes : aucune
10
4
fév.
2011
Bonjour, je vous écris pour vous faire part d'un projet auquel je réfléchis depuis longtemps maintenant. C'est légèrement utopique, mais je pense qu'avec les avancées techniques, c'est réalisable.

L'idée est toute simple, archiver le web.



Ça fait peur comme ça. Sachez que je connais bien webarchive, le logiciel libre qui est utilisé notamment par une bibliothèque à Paris, le cache google, et bien d'autres certainement. Ce que j'aimerais faire est un système différent de ce qui existe déjà.

J'avais codé pour moi l'année dernière, une petite application permettant de sauvegarder une page web. Ça utilisait un wget récent, qui permet aussi de récupérer les images et les feuilles de style de la page, un système de catégories à base de dossiers et de liens symboliques, et le gestionnaire de version git.

Seulement, ce n'est pas vraiment pratique, mais ce n'est surtout pas ouvert aux débutants en informatique. Et on l'a vu récemment, les débutants en informatique, ils font quand même des choses biens avec des outils critiquables.



Mon projet, est de repartir de l'idée de sauvegarder des pages web, mais de rendre le système accessible à tous dans un site web.

Imaginez un site web où il suffirait de noter une url, pour qu'elle soit immédiatement sauvegardée dans une base de données communautaire. Il n'est pas question d'utiliser des robots qui parcourent le web, mais bien de sauvegarder à la demande. Entre des robots et des humains, la différence est vite faite.

Les pages seraient versionnées, avec git par exemple. Si une page est déjà dans le dépôt, et qu'une nouvelle demande de sauvegarde est réalisée, le site pourrait permettre de constater des différences de contenu si il y en a.

Utiliser un système de version décentralisé, toujours avec git par exemple, permettrait de décentraliser la base.

Le site pourrait être installé sur de nombreux serveurs, et les différents dépôts synchronisés entre eux. Avec évidemment un site principal, qui proposerait plus de garantie sur le contenu (enfin pas trop non plus).



Le produit final se présenterait donc sous la forme d'un catalogue de pages webs, classées soigneusement. On pourrait consulter un article d'une certaine date, et observer son historique : date de première importation, quelques modifications, et suppression de l'article avec l'apparition d'une page d'erreur 404 par exemple.

Pour éviter de sauvegarder n'importe quoi, une censure pourrait être effectuée, par la communauté.



En ce qui concerne les droits, je suis dans un léger flou dans ce domaine. J'imagine bien qu'il est possible de garder une copie de ce que l'on télécharge (mais encore), mais de proposer ensuite le contenu en accès libre… Google et webarchive le font bien. Quoi qu'il arrive, je n'abandonnerais pas ce projet pour des questions de cet ordre. Si il faut mettre le serveur dans un pays plus souple sur ces questions, le serveur sera dans un autre pays.


J'écris ce journal pour avoir vos avis sur ce projet, et pourquoi pas, faire la connaissance de gens qui seraient intéressés pour participer à ce projet, si il se réalise.

Est-ce que le projet vous semble utile ? Est-ce que le projet est réalisable ? Selon vous, ce projet va t'il faire un flop ?

Vous avez certainement des critiques très intéressantes. Si vous voulez participer au projet, qui pourrait se faire plus ou moins rapidement, n'hésitez pas à le dire dans les commentaires, ou par message privé.

Merci pour votre attention.
  • # just do it

    Posté par  . Évalué à 10.

    Ca me paraît une idée intéressante, j'espère que tu as acheté plein de disquette :-)

    juste fait le
    • [^] # Re: just do it

      Posté par  . Évalué à 1.

      Si le problème principal est de trouver des disques durs, c'est pas trop embêtant :-)

      Envoyé depuis mon lapin.

  • # Pas compris la difference

    Posté par  . Évalué à 6.

    C'est quoi la difference avec http://www.archive.org/web/web.php ?
    • [^] # Re: Pas compris la difference

      Posté par  . Évalué à 5.

      la différence, c'est que web archive est un bot d'archivage. là, ne sont archivé que les pages que les gens jugent intéressantes.
      • [^] # Re: Pas compris la difference

        Posté par  . Évalué à 3.

        Euh oui, mais au final ca amene quoi de plus a l'utilisateur ? Rien de ce cote la vu que archive.org incluera tout ce que le projet propose et plus.

        J'essaie de comprendre ce que l'utilisateur aurait en plus si il utilisait le projet propose plutot que archive.org, et je dois avouer que je ne vois rien.
        • [^] # Re: Pas compris la difference

          Posté par  . Évalué à 2.

          Par nature, c'est un backup et avoir plusieurs services de ce type, c'est toujours mieux.

          S'il y arrive, c'est très bien.
          • [^] # Re: Pas compris la difference

            Posté par  (site web personnel) . Évalué à 5.

            S'il y arrive, c'est très bien.

            bin il attend la réponse du grid :) hmmm du cloud, 'fin il est tombé sur quelques disques de 1 peta-octet et il se demandait quoi en faire :D
          • [^] # Re: Pas compris la difference

            Posté par  . Évalué à 0.

            Peut-etre mais donc il n'a vraiment rien de nouveau, et je dois avouer que l'idee de devoir manuellement faire le backup est une mauvaise idee si tu veux mon avis, personne n'aura envie de faire ca regulierement.
            • [^] # Re: Pas compris la difference

              Posté par  . Évalué à 2.

              Ça peut servir à des gens dont l'internet port 80 en TCP est filtré par des proxys de voir ce qu'on essaie de leur dissimuler pour le bien de leur démocratie.
              • [^] # Re: Pas compris la difference

                Posté par  . Évalué à -1.

                Pas vraiment non, c'est un marteau pour ecraser une mouche ca, t'as pas besoin d'avoir un backup de l'histoire d'internet pour ca, il y a plein d'autres moyens.
            • [^] # Re: Pas compris la difference

              Posté par  (site web personnel) . Évalué à 3.

              Je vois l'intérêt pour des sites comme linuxfr, slashdot ou hackernews : les sites web frisent et dans dix ans seront morts alors que linuxfr continuera d'y pointer. Si tout nouveau lien sur un de ces sites est archivé aussitôt, ça peut aider (et le redirect de linuxfr peut choisir l'archive plutôt que le site original s'il y a linuxfreeze)
              • [^] # Re: Pas compris la difference

                Posté par  . Évalué à 2.

                Pareil pour des sources de wikipedia qui pointent sur des pages qui tombent en 404. Sources qui sont ensuite supprimées par des bots.

                Envoyé depuis mon lapin.

        • [^] # Re: Pas compris la difference

          Posté par  . Évalué à 3.

          Ce qu'il y a de nouveau surtout à mon avis, c'est que c'est toi qui décide de quand sauvegarder.

          Imagine que tu vois un contenu qui va certainement être modifié rapidement, tu rentres l'url sur le site, et un robot va le sauvegarder dans les secondes qui suivent (sauf si tout les robots sont surchargés, mais ce serait étonnant).

          Webarchive sauvegarde de temps en temps certains sites. Ça doit être rare de tomber sur un site hacké dans webarchive par exemple.

          Puis j'ai jamais trouvé webarchive pratique. Et si il peut avoir un équivalent sur ce continent, c'est toujours bon à prendre non ?

          Envoyé depuis mon lapin.

        • [^] # Re: Pas compris la difference

          Posté par  (Mastodon) . Évalué à 4.

          > Euh oui, mais au final ca amene quoi de plus a l'utilisateur ? Rien de ce cote la vu que archive.org incluera tout ce que le projet propose et plus.
          > J'essaie de comprendre ce que l'utilisateur aurait en plus si il utilisait le projet propose plutot que archive.org, et je dois avouer que je ne vois rien.


          s/archive.org/Unix/ et on a l'histoire de Microsoft résumée en deux phrases...
      • [^] # Re: Pas compris la difference

        Posté par  . Évalué à 1.

        > ne sont archivé que les pages que les gens jugent intéressantes.

        Alors attends toi à ce que des gens sauvegardent du pr0n !
  • # Le backup ?

    Posté par  (site web personnel, Mastodon) . Évalué à 10.

    — Qui a encore planqué le backup d'internet ?
    — Euh, c'est yellowiscool le responsable, patron.
    — Dites-lui que j'en ai besoin parce que mon ordinateur m'a dit qu'internet avait planté. Le petit E bleu là.
    — …

    Mes livres CC By-SA : https://ploum.net/livres.html

  • # Trop tard

    Posté par  . Évalué à 10.

    C'était intéressant à l'époque des sites statiques.

    À l'heure des sites ou applications dynamiques, personnalisées et sociales, c'est tout simplement impossible.

    Au mieux tu peux archiver les sites documentaires, mais qui aujourd'hui représentent une part mineure du web.

    Cela dit, si tu veux faire une base communautaire de pages sauvegardés, je te conseille plutôt de constituer une base de liens vers archive.org, plutôt que d'enregistrer une deuxième fois ces pages.

    Pour cela, techniquement, un simple mediawiki me semble suffisant.
    • [^] # Re: Trop tard

      Posté par  . Évalué à 4.

      À vrai dire, j'en ai un peu rien à faire d'archiver la page N des commentaires sur la photo de bob dans un blog d'adolescent.

      Si il faut sauvegarder du contenu, c'est le contenu qui a un intérêt. Si le contenu est sur un site dynamique à un moment donné, il sera sauvegardé.

      Sinon, je ne veux pas dépendre de archive.org. Si ce service coupe ses serveurs, on a plus rien.

      Comme dit dans le journal, je voudrais avoir une architecture décentralisée. Si le serveur principal tombe, il suffit qu'un autre serveur s'étant synchronisé au premier récemment prenne le relais.

      Envoyé depuis mon lapin.

      • [^] # Re: Trop tard

        Posté par  (Mastodon) . Évalué à 3.

        À vrai dire, j'en ai un peu rien à faire d'archiver la page N des commentaires sur la photo de bob dans un blog d'adolescent.

        Alors n'appelle pas ça "archiver le web", mais "archiver ce qui t'intéresse du web".
        ... et que je ne te voies pas te moquer de Orange et de son "Internet par Orange", parce que c'est ni plus ni moins ce que tu fais !

        En théorie, la théorie et la pratique c'est pareil. En pratique c'est pas vrai.

    • [^] # Re: Trop tard

      Posté par  (site web personnel) . Évalué à 1.

      Archive.org j'y trouve jamais les pages que je veux.

  • # Commentaire supprimé

    Posté par  . Évalué à -1.

    Ce commentaire a été supprimé par l’équipe de modération.

  • # URL or it did not happen

    Posté par  . Évalué à 2.

    Et on l'a vu récemment, les débutants en informatique, ils font quand même des choses biens avec des outils critiquables.

    {Reference needed}

    « Rappelez-vous toujours que si la Gestapo avait les moyens de vous faire parler, les politiciens ont, eux, les moyens de vous faire taire. » Coluche

  • # Bilbilothèque

    Posté par  (site web personnel) . Évalué à 1.

    L'archivage du savoir est essentiel, et c'est une des vocations des bibliothèques, qui ont cette problémartique en tête. Robert Darnton, directeur de la bibliothèque de Harvard souhaite lancer un projet en ce sens. Et ça a l'air de beaucoupn bouger dans les bibliothèques universitaires américaines (lire notamment http://www.framablog.org/index.php/post/2010/12/11/decouvrir(...) autour de l'accès au savoir. Vraiment très intéressant.
    • [^] # Commentaire supprimé

      Posté par  . Évalué à 1.

      Ce commentaire a été supprimé par l’équipe de modération.

  • # différenciation

    Posté par  . Évalué à 4.

    Cela ressemblerait à une mix de:
    - "digg it", pour l'aspect social (push de contenu),
    - "webarchiver", pour l'aspect temporael
    - voire "scrapbook", pour la sélection de contenu dans une page.
    Amha, je pense qu'il y a un intérêt un service de ce genre.
    • [^] # Re: différenciation

      Posté par  . Évalué à 2.

      Pour la sélection du contenu dans la page je me pose des questions.

      Déjà, je pense qu'il est inutile de sauvegarder le javascript. Pour les feuilles de style, j'hésite beaucoup, car ça rajoute beaucoup de contenu à sauvegarder. Pour les images, je pense qu'il est important de sauvegarder. Pour les sons, les vidéos, c'est pas la peine, c'est beaucoup trop lourd. Pour le flash ou le java, la question ne se pose pas, ce n'est pas du web.

      Je connais le principe de scrapbook, mais je ne sais pas si c'est fiable. Ce serait très dommage si on sauvegarde une partie d'une page, alors que ce qui est important est oublié.

      Envoyé depuis mon lapin.

      • [^] # Re: différenciation

        Posté par  . Évalué à 3.

        Pour moi la sauvegarde des CSS est assez importante. Souvent la mise en page de certains sites est quasiment artistique et mérite d'être archivée. Après, il y aura peut être des concessions à faire.
  • # Évidemment !

    Posté par  (site web personnel) . Évalué à 4.

    Pour éviter de sauvegarder n'importe quoi, une censure pourrait être effectuée, par la communauté.

    Une censure, c'est évident; il faut garder l'histoire propre. Ton projet était bien jusqu'à cette phrase. Un archivage communautaire mais sélectif selon une morale purement subjective.
    Elle a quelle religion cette censure ?

    "It was a bright cold day in April, and the clocks were striking thirteen" - Georges Orwell

    • [^] # Re: Évidemment !

      Posté par  . Évalué à 2.

      La censure, c'est plus pour les trucs qui touchent aux lapins.

      Nan sérieusement, je pense que certaines pages n'auront rien à faire dans un archivage. Je pense au contenu sans aucun intérêt.

      Mais le pr0n, les contenus choquants, le racisme, les contenus nazis (illégaux en france), je ne vois pas de problème à ce que ça soit sauvegardé. Pour le contenu pédophile par contre, c'est plus à discuter.

      Envoyé depuis mon lapin.

      • [^] # Re: Évidemment !

        Posté par  . Évalué à 2.

        "les contenus nazis"

        Tu veux dire qu'on pourra y trouver les codes sources de Gnome ?
        (pour ceux qui nous ont la mémoire courte http://linuxfr.org/~houplaboom/20256.html)
      • [^] # Re: Évidemment !

        Posté par  . Évalué à 3.

        Plutôt que de censure, je pense qu'on pourrait plus de parler de sélection naturelle, surtout si c'est un processus communautaire et basé sur la discussion plutôt que d'une autorité fixe et intransigeante (un peu comme le système de pertinentage de LinuxFr).

        Par ailleurs, qu'appelles-tu contenu pédophile ? Tu voudrais dire qu'il y a des fichiers attirés par les enfants ?
        À moins que tu ne parles de contenu pédopornographique ;-)

        Article Quarante-Deux : Toute personne dépassant un kilomètre de haut doit quitter le Tribunal. -- Le Roi de Cœur

        • [^] # Re: Évidemment !

          Posté par  . Évalué à 2.

          Je pensais au contenu pédopornographique, effectivement.

          Sinon, j'ai parlé de censure, car c'est plus clair comme ça. C'est annoncé dés le départ.

          Mais dans ma tête, c'était une censure basée sur un système de vote. Je suis assez fan du système de linuxfr sur ce point.

          Envoyé depuis mon lapin.

          • [^] # Re: Évidemment !

            Posté par  . Évalué à 3.

            Tu compte effacer les contenus des opposants à l'avortement? :)

            « Rappelez-vous toujours que si la Gestapo avait les moyens de vous faire parler, les politiciens ont, eux, les moyens de vous faire taire. » Coluche

            • [^] # Re: Évidemment !

              Posté par  . Évalué à 2.

              Même si on est pas d'accord, je pense que l'on est conscient qu'il est important de se souvenir qu'il y a des gens pour tenir ces discours.

              La notation très négative sur linuxfr est à mon avis due au fait que ces débats n'ont rien à faire sur linuxfr, et que les gens transforme «inutile» en «pas d'accord».

              Envoyé depuis mon lapin.

  • # Excellente idée

    Posté par  (site web personnel) . Évalué à 2.

    A l'heure actuelle, quand les gens souhaitent partager une page un peu spéciale sur les réseaux sociaux, ils utilisent généralement une capture d'écran avec un site comme imgur.

    Pouvoir archiver la page web directement représenterait à mon avis un vrai progrès. Fonce! Je te ferai de la pub :)
    • [^] # Re: Excellente idée

      Posté par  . Évalué à 4.

      Encore mieux qu'une page web, ça serait utiliser le format .war (WebArchive). C'est une bête archive ZIP qui contient la page Web et tous les éléments qui la composent (images, vidéos, CSS, Javascript, etc), et offrant des fonctions en plus comme la signature numérique, cf [http://fr.wikipedia.org/wiki/WAR_(format_de_fichier)].

      À ma connaissance, Konqueror est le seul navigateur web qui le gère, et c'est vraiment dommage, je trouve que ça entre plutôt bien dans le cadre de ce projet.

      Article Quarante-Deux : Toute personne dépassant un kilomètre de haut doit quitter le Tribunal. -- Le Roi de Cœur

      • [^] # neutraliser le javascript

        Posté par  . Évalué à 2.

        Il faudrait probablement neutraliser le javascript :
        - inutile de garder l'AJAX et toute interactivité vers le réseau, qui sera obsolète en quelques années
        - mais il faut quand même garder le HTML généré par le javascript à l'instant de l'archivage.

        Je vois un intérêt pour les articles d'actualité uniquement.

        Un plugin firefox pourrait offrir ce service : click-droit > archiver sur thearchive.org

        Idée très intéressante.
      • [^] # Re: Excellente idée

        Posté par  (Mastodon) . Évalué à 4.

        Attention, il ne faut pas confondre le WAR de Java et le WAR de KDE. Le bon lien :

        http://en.wikipedia.org/wiki/KDE_WAR_%28file_format%29
  • # Et les différences ?

    Posté par  (site web personnel) . Évalué à 1.

    Je pense aussi que ce projet peut ajouter quelques choses à Internet.

    LE diff !

    Et oui faire une site ou l'on peut comparer des sites ca c'est bien aussi.
    Voir l'évolution d'une communauté, d'un blog, etc...

    Ça peut être utile pour retrouver le fonctionnement d'un site.
    Ou pour retrouver un article etc...

    Ah oui c’était début décembre sur linuxfr... heureusement que j'ai fait une archive de la page du forum qui en parlait AVANT le ménage des admins...

    :x

    s/linuxfr/[facebook|microsoft|boite a fric]/g
  • # Questions techniques

    Posté par  . Évalué à 2.

    Les questions techniques arrivent :-)

    Numéro 1 : comment stocker tout ça dans un système de fichiers ?

    http://linuxfr.org/forums/31/29673.html

    Envoyé depuis mon lapin.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.