Bonjour, je vous écris pour vous faire part d'un projet auquel je réfléchis depuis longtemps maintenant. C'est légèrement utopique, mais je pense qu'avec les avancées techniques, c'est réalisable.
L'idée est toute simple, archiver le web.
Ça fait peur comme ça. Sachez que je connais bien webarchive, le logiciel libre qui est utilisé notamment par une bibliothèque à Paris, le cache google, et bien d'autres certainement. Ce que j'aimerais faire est un système différent de ce qui existe déjà.
J'avais codé pour moi l'année dernière, une petite application permettant de sauvegarder une page web. Ça utilisait un wget récent, qui permet aussi de récupérer les images et les feuilles de style de la page, un système de catégories à base de dossiers et de liens symboliques, et le gestionnaire de version git.
Seulement, ce n'est pas vraiment pratique, mais ce n'est surtout pas ouvert aux débutants en informatique. Et on l'a vu récemment, les débutants en informatique, ils font quand même des choses biens avec des outils critiquables.
Mon projet, est de repartir de l'idée de sauvegarder des pages web, mais de rendre le système accessible à tous dans un site web.
Imaginez un site web où il suffirait de noter une url, pour qu'elle soit immédiatement sauvegardée dans une base de données communautaire. Il n'est pas question d'utiliser des robots qui parcourent le web, mais bien de sauvegarder à la demande. Entre des robots et des humains, la différence est vite faite.
Les pages seraient versionnées, avec git par exemple. Si une page est déjà dans le dépôt, et qu'une nouvelle demande de sauvegarde est réalisée, le site pourrait permettre de constater des différences de contenu si il y en a.
Utiliser un système de version décentralisé, toujours avec git par exemple, permettrait de décentraliser la base.
Le site pourrait être installé sur de nombreux serveurs, et les différents dépôts synchronisés entre eux. Avec évidemment un site principal, qui proposerait plus de garantie sur le contenu (enfin pas trop non plus).
Le produit final se présenterait donc sous la forme d'un catalogue de pages webs, classées soigneusement. On pourrait consulter un article d'une certaine date, et observer son historique : date de première importation, quelques modifications, et suppression de l'article avec l'apparition d'une page d'erreur 404 par exemple.
Pour éviter de sauvegarder n'importe quoi, une censure pourrait être effectuée, par la communauté.
En ce qui concerne les droits, je suis dans un léger flou dans ce domaine. J'imagine bien qu'il est possible de garder une copie de ce que l'on télécharge (mais encore), mais de proposer ensuite le contenu en accès libre… Google et webarchive le font bien. Quoi qu'il arrive, je n'abandonnerais pas ce projet pour des questions de cet ordre. Si il faut mettre le serveur dans un pays plus souple sur ces questions, le serveur sera dans un autre pays.
J'écris ce journal pour avoir vos avis sur ce projet, et pourquoi pas, faire la connaissance de gens qui seraient intéressés pour participer à ce projet, si il se réalise.
Est-ce que le projet vous semble utile ? Est-ce que le projet est réalisable ? Selon vous, ce projet va t'il faire un flop ?
Vous avez certainement des critiques très intéressantes. Si vous voulez participer au projet, qui pourrait se faire plus ou moins rapidement, n'hésitez pas à le dire dans les commentaires, ou par message privé.
Merci pour votre attention.
# just do it
Posté par grid . Évalué à 10.
juste fait le
[^] # Re: just do it
Posté par yellowiscool . Évalué à 1.
Envoyé depuis mon lapin.
# Pas compris la difference
Posté par pasBill pasGates . Évalué à 6.
[^] # Re: Pas compris la difference
Posté par grid . Évalué à 5.
[^] # Re: Pas compris la difference
Posté par pasBill pasGates . Évalué à 3.
J'essaie de comprendre ce que l'utilisateur aurait en plus si il utilisait le projet propose plutot que archive.org, et je dois avouer que je ne vois rien.
[^] # Re: Pas compris la difference
Posté par grid . Évalué à 2.
S'il y arrive, c'est très bien.
[^] # Re: Pas compris la difference
Posté par BAud (site web personnel) . Évalué à 5.
bin il attend la réponse du grid :) hmmm du cloud, 'fin il est tombé sur quelques disques de 1 peta-octet et il se demandait quoi en faire :D
[^] # Re: Pas compris la difference
Posté par pasBill pasGates . Évalué à 0.
[^] # Re: Pas compris la difference
Posté par feth . Évalué à 2.
[^] # Re: Pas compris la difference
Posté par pasBill pasGates . Évalué à -1.
[^] # Re: Pas compris la difference
Posté par 태 (site web personnel) . Évalué à 3.
[^] # Re: Pas compris la difference
Posté par yellowiscool . Évalué à 2.
Envoyé depuis mon lapin.
[^] # Re: Pas compris la difference
Posté par yellowiscool . Évalué à 3.
Imagine que tu vois un contenu qui va certainement être modifié rapidement, tu rentres l'url sur le site, et un robot va le sauvegarder dans les secondes qui suivent (sauf si tout les robots sont surchargés, mais ce serait étonnant).
Webarchive sauvegarde de temps en temps certains sites. Ça doit être rare de tomber sur un site hacké dans webarchive par exemple.
Puis j'ai jamais trouvé webarchive pratique. Et si il peut avoir un équivalent sur ce continent, c'est toujours bon à prendre non ?
Envoyé depuis mon lapin.
[^] # Re: Pas compris la difference
Posté par rewind (Mastodon) . Évalué à 4.
> J'essaie de comprendre ce que l'utilisateur aurait en plus si il utilisait le projet propose plutot que archive.org, et je dois avouer que je ne vois rien.
s/archive.org/Unix/ et on a l'histoire de Microsoft résumée en deux phrases...
[^] # Re: Pas compris la difference
Posté par fabricius . Évalué à 1.
Alors attends toi à ce que des gens sauvegardent du pr0n !
[^] # Re: Pas compris la difference
Posté par yellowiscool . Évalué à 3.
C'est intéressant pour pas mal de gens.
Envoyé depuis mon lapin.
# Le backup ?
Posté par ploum (site web personnel, Mastodon) . Évalué à 10.
— Euh, c'est yellowiscool le responsable, patron.
— Dites-lui que j'en ai besoin parce que mon ordinateur m'a dit qu'internet avait planté. Le petit E bleu là.
— …
Mes livres CC By-SA : https://ploum.net/livres.html
# Trop tard
Posté par François Nautré . Évalué à 10.
À l'heure des sites ou applications dynamiques, personnalisées et sociales, c'est tout simplement impossible.
Au mieux tu peux archiver les sites documentaires, mais qui aujourd'hui représentent une part mineure du web.
Cela dit, si tu veux faire une base communautaire de pages sauvegardés, je te conseille plutôt de constituer une base de liens vers archive.org, plutôt que d'enregistrer une deuxième fois ces pages.
Pour cela, techniquement, un simple mediawiki me semble suffisant.
[^] # Re: Trop tard
Posté par yellowiscool . Évalué à 4.
Si il faut sauvegarder du contenu, c'est le contenu qui a un intérêt. Si le contenu est sur un site dynamique à un moment donné, il sera sauvegardé.
Sinon, je ne veux pas dépendre de archive.org. Si ce service coupe ses serveurs, on a plus rien.
Comme dit dans le journal, je voudrais avoir une architecture décentralisée. Si le serveur principal tombe, il suffit qu'un autre serveur s'étant synchronisé au premier récemment prenne le relais.
Envoyé depuis mon lapin.
[^] # Re: Trop tard
Posté par gUI (Mastodon) . Évalué à 3.
Alors n'appelle pas ça "archiver le web", mais "archiver ce qui t'intéresse du web".
... et que je ne te voies pas te moquer de Orange et de son "Internet par Orange", parce que c'est ni plus ni moins ce que tu fais !
En théorie, la théorie et la pratique c'est pareil. En pratique c'est pas vrai.
[^] # Re: Trop tard
Posté par MCMic (site web personnel) . Évalué à 1.
Archive.org j'y trouve jamais les pages que je veux.
# Commentaire supprimé
Posté par Anonyme . Évalué à -1.
Ce commentaire a été supprimé par l’équipe de modération.
# URL or it did not happen
Posté par claudex . Évalué à 2.
{Reference needed}
« Rappelez-vous toujours que si la Gestapo avait les moyens de vous faire parler, les politiciens ont, eux, les moyens de vous faire taire. » Coluche
[^] # Re: URL or it did not happen
Posté par yellowiscool . Évalué à 3.
Envoyé depuis mon lapin.
[^] # Re: URL or it did not happen
Posté par zebra3 . Évalué à 5.
L'orthographe française ne remercie pas Twitter.
Article Quarante-Deux : Toute personne dépassant un kilomètre de haut doit quitter le Tribunal. -- Le Roi de Cœur
[^] # Re: URL or it did not happen
Posté par Thomas Debesse (site web personnel) . Évalué à 2.
s/tunisienne/Tunisienne/
grammaire :
s/sauvé/sauvée/
vocabulaire :
s/l'orthographe/la grammaire/
Quand à moi, je mettrais en abîme la belle tradition qui inspire l'usage de commettre au moins autant de fautes que d'en relever. Les trouverez-vous ?
ce commentaire est sous licence cc by 4 et précédentes
# Bilbilothèque
Posté par fredzz (site web personnel) . Évalué à 1.
[^] # Commentaire supprimé
Posté par Anonyme . Évalué à 1.
Ce commentaire a été supprimé par l’équipe de modération.
# différenciation
Posté par steph1978 . Évalué à 4.
- "digg it", pour l'aspect social (push de contenu),
- "webarchiver", pour l'aspect temporael
- voire "scrapbook", pour la sélection de contenu dans une page.
Amha, je pense qu'il y a un intérêt un service de ce genre.
[^] # Re: différenciation
Posté par yellowiscool . Évalué à 2.
Déjà, je pense qu'il est inutile de sauvegarder le javascript. Pour les feuilles de style, j'hésite beaucoup, car ça rajoute beaucoup de contenu à sauvegarder. Pour les images, je pense qu'il est important de sauvegarder. Pour les sons, les vidéos, c'est pas la peine, c'est beaucoup trop lourd. Pour le flash ou le java, la question ne se pose pas, ce n'est pas du web.
Je connais le principe de scrapbook, mais je ne sais pas si c'est fiable. Ce serait très dommage si on sauvegarde une partie d'une page, alors que ce qui est important est oublié.
Envoyé depuis mon lapin.
[^] # Re: différenciation
Posté par _Mumux . Évalué à 3.
# Évidemment !
Posté par Etienne Bagnoud (site web personnel) . Évalué à 4.
Une censure, c'est évident; il faut garder l'histoire propre. Ton projet était bien jusqu'à cette phrase. Un archivage communautaire mais sélectif selon une morale purement subjective.
Elle a quelle religion cette censure ?
"It was a bright cold day in April, and the clocks were striking thirteen" - Georges Orwell
[^] # Re: Évidemment !
Posté par yellowiscool . Évalué à 2.
Nan sérieusement, je pense que certaines pages n'auront rien à faire dans un archivage. Je pense au contenu sans aucun intérêt.
Mais le pr0n, les contenus choquants, le racisme, les contenus nazis (illégaux en france), je ne vois pas de problème à ce que ça soit sauvegardé. Pour le contenu pédophile par contre, c'est plus à discuter.
Envoyé depuis mon lapin.
[^] # Re: Évidemment !
Posté par Jean-Georges de La Blatte . Évalué à 2.
Tu veux dire qu'on pourra y trouver les codes sources de Gnome ?
(pour ceux qui nous ont la mémoire courte http://linuxfr.org/~houplaboom/20256.html)
[^] # Re: Évidemment !
Posté par yellowiscool . Évalué à 3.
Envoyé depuis mon lapin.
[^] # Re: Évidemment !
Posté par Axel R. (site web personnel) . Évalué à 1.
[^] # Re: Évidemment !
Posté par Moonz . Évalué à 2.
[^] # Re: Évidemment !
Posté par zebra3 . Évalué à 3.
Par ailleurs, qu'appelles-tu contenu pédophile ? Tu voudrais dire qu'il y a des fichiers attirés par les enfants ?
À moins que tu ne parles de contenu pédopornographique ;-)
Article Quarante-Deux : Toute personne dépassant un kilomètre de haut doit quitter le Tribunal. -- Le Roi de Cœur
[^] # Re: Évidemment !
Posté par yellowiscool . Évalué à 2.
Sinon, j'ai parlé de censure, car c'est plus clair comme ça. C'est annoncé dés le départ.
Mais dans ma tête, c'était une censure basée sur un système de vote. Je suis assez fan du système de linuxfr sur ce point.
Envoyé depuis mon lapin.
[^] # Re: Évidemment !
Posté par claudex . Évalué à 3.
« Rappelez-vous toujours que si la Gestapo avait les moyens de vous faire parler, les politiciens ont, eux, les moyens de vous faire taire. » Coluche
[^] # Re: Évidemment !
Posté par yellowiscool . Évalué à 2.
La notation très négative sur linuxfr est à mon avis due au fait que ces débats n'ont rien à faire sur linuxfr, et que les gens transforme «inutile» en «pas d'accord».
Envoyé depuis mon lapin.
# Excellente idée
Posté par JoeltheLion (site web personnel) . Évalué à 2.
Pouvoir archiver la page web directement représenterait à mon avis un vrai progrès. Fonce! Je te ferai de la pub :)
[^] # Re: Excellente idée
Posté par zebra3 . Évalué à 4.
À ma connaissance, Konqueror est le seul navigateur web qui le gère, et c'est vraiment dommage, je trouve que ça entre plutôt bien dans le cadre de ce projet.
Article Quarante-Deux : Toute personne dépassant un kilomètre de haut doit quitter le Tribunal. -- Le Roi de Cœur
[^] # neutraliser le javascript
Posté par goeb . Évalué à 2.
- inutile de garder l'AJAX et toute interactivité vers le réseau, qui sera obsolète en quelques années
- mais il faut quand même garder le HTML généré par le javascript à l'instant de l'archivage.
Je vois un intérêt pour les articles d'actualité uniquement.
Un plugin firefox pourrait offrir ce service : click-droit > archiver sur thearchive.org
Idée très intéressante.
[^] # Re: Excellente idée
Posté par rewind (Mastodon) . Évalué à 4.
http://en.wikipedia.org/wiki/KDE_WAR_%28file_format%29
# Et les différences ?
Posté par Memiks (site web personnel) . Évalué à 1.
LE diff !
Et oui faire une site ou l'on peut comparer des sites ca c'est bien aussi.
Voir l'évolution d'une communauté, d'un blog, etc...
Ça peut être utile pour retrouver le fonctionnement d'un site.
Ou pour retrouver un article etc...
Ah oui c’était début décembre sur linuxfr... heureusement que j'ai fait une archive de la page du forum qui en parlait AVANT le ménage des admins...
:x
s/linuxfr/[facebook|microsoft|boite a fric]/g
# Questions techniques
Posté par yellowiscool . Évalué à 2.
Numéro 1 : comment stocker tout ça dans un système de fichiers ?
http://linuxfr.org/forums/31/29673.html
Envoyé depuis mon lapin.
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.