(R)évolutions dans le monde de la sauvegarde de données

89
18
juin
2012
Sécurité

Nous sommes presque deux mois après le World Backup Day mais il n'est jamais trop tard pour faire une sauvegarde. C'est une réalité qu'il faut accepter, votre disque dur va vous lâcher et certainement au moment où cela vous embêtera le plus. Et cela même si vous n'avez pas investi dans un superbe SSD OCZ (jusqu'à 15,58% de taux de panne !).

Subir une défaillance d'un disque dur devient aussi de plus en plus grave à mesure qu'un nombre croissant de types de données se retrouve sous format numérique (musique, photos, messages, rapports, etc.), et que leur volume augmente.

C'est pourquoi le monde du logiciel (libre ou propriétaire) regorge de solutions pour sauvegarder vos précieuses données.

Cette dépêche (voir la seconde partie) n'abordera pas des solutions traditionnelles et éprouvées telles que le très connu Amanda, le moins connu mais tout autant excellent DAR et les solutions « maison » à base de rsync. Elle n'abordera pas non plus des solutions trop restreintes à une plate-forme ou à un système de fichier (ZFS + snapshot par exemple). Elle va plutôt s'intéresser aux logiciels libres prenant en charge la déduplication.

Backup Tape Malfunction
Sous licence CC by-sa par Mrs. Gemstone

Sommaire

Préliminaire

Voici tout d'abord quelques précisions sur des concepts importants pour la dépêche :

Client-serveur

Tous les logiciels présentés peuvent être considérés d'un point de vue client-serveur même si pour la plupart des personnes, c'est en pratique la même machine. Le disque du client contient les données à sauvegarder et le disque du serveur contient les données sauvegardées.

Les différents logiciels à installer sur le client ou le serveur dépendent de la solution logicielle choisie.

Déduplication

La déduplication permet d'économiser de l'espace disque en détectant les fichiers identiques, ou les morceaux (chunk) de fichiers identiques (pratique pour les VM dont seule une petite partie est modifiée).

La déduplication peut-être faite sur le serveur (par un programme dédié ou en utilisant un système de fichier adapté, par exemple lessfs, ZFS ou Btrfs) ou sur le client (plus avantageux car optimise le trafic réseau). Dans le cas de multiples clients, il est aussi possible de dédupliquer entre eux.

Si la déduplication est bien faite, il n'y a plus besoin de notions de delta encoding et de sauvegarde complète, différentielle et incrémentale, et du coup c'est beaucoup plus simple à gérer.

Le désavantage est que si le morceau dédupliqué est perdu/corrompu, tout le monde est touché.
Sans déduplication, s'il vous reste une sauvegarde complète vous n'avez pas tout perdu. Avec déduplication, il est facile de perdre beaucoup d'un coup.
Il est donc primordial de bien gérer la redondance si vous vous orientez vers la déduplication.

Chiffrement

La protection de la vie privée est pour certains « un problème de vieux » (voir la-vie-privee-un-probleme-de-vieux-cons, privacy-is-for-old-people-says-linked-in-founder, Privacy no longer a social norm) mais pour d'autres c'est absolument essentiel.

Le cambriolage est toujours un risque (tremblez à l'idée de ce que quelqu'un pourrait faire avec tous vos emails) et dans le cas d'un serveur dédié ou un disque virtuel loué à une compagnie, il faut faire confiance à cette compagnie (google-drive-terms-privacy-data-skydrive-dropbox-icloud et sorry-dropbox-i-still-dont-trust-you).

Le chiffrement est généralement fait sur le client, de manière "traditionnelle" en chiffrant les (morceaux de) fichiers avec par exemple GnuPG ou bien en montant un système de fichier chiffré (sshfs + EncFS).
Dans le cas de sauvegardes non chiffrées, il est néanmoins possible de sécuriser la connexion (via SSL par exemple) mais bon du coup vous chiffrez ET déchiffrez les données et au final elles sont stockées en clair.

Note : à noter que chiffrement et déduplication sont délicats à gérer ensemble (voir cette analyse sur le sujet de la convergent encryption).

Note 2 : je ne m'y connais pas trop, mais il me semble qu'avec un système de fichier chiffré on perd en souplesse (par exemple difficile d'isoler chaque utilisateur) par rapport à la manière "traditionnelle" mais que au niveau sécurité c'est kif-kif.

Redondance

Quelques études récentes donnent des taux de panne intéressants :

Il est possible d'atténuer les conséquences d'une possible (voire probable) défaillance du support contenant vos sauvegardes.

Pour cela vous pouvez :

  • diversifier vos supports de sauvegarde : par exemple avec un disque dur + un DVD de temps en temps (que vous stockerez idéalement chez quelqu'un d'autre) ou un disque chez vous et chez votre voisin. C'est une très bonne solution si vous réussissez à bien automatiser (dur dur pour un particulier).
  • utiliser un système de fichier plus robuste : par exemple ZFS propose l'auto-réparation même si vous n'utilisez qu'un disque. Je ne connais pas trop les avantages/inconvénients de cette approche.
  • utiliser du RAID (matériel ou logiciel) : intéressante si vous avez besoin d'une excellente disponibilité. La robustesse au cambriolage et au feu n'est pas bonne par contre. Un peu délicat et cher à mettre en place pour un particulier.
  • ajouter des sommes de contrôle permettant l'auto-réparation : par exemple (Parchive ou zfec). Vous pouvez configurer le taux de redondances (robustesse à 5% de corruption par exemple) et conserver ces sommes de contrôles ailleurs (à noter que je crois que les sommes de contrôles sont elles-même auto-réparables).

Multiplateforme

Si vous avez des plates-formes différentes, il est important que le logiciel prenne bien en compte les spécificités de la plate-forme. Sous les systèmes de type Unix, vous avez par exemple les ACL, les liens symboliques ou directs, les modes spéciaux (setuid, setgid, sticky), etc. Sous Windows, certains fichiers sont verrouillées lorsqu'ils sont utilisés (par exemple les données d'Outlook) et il est alors recommandé d'utiliser la solution Microsoft Volume Shadow Copy Service (VSS).

Note : Si l'on se restreint à un environnement particulier, il est possible d'avoir des solutions élégantes et performantes (comme ZFS + snapshot par exemple).

Importants mais non traités

Si vous voulez sauvegarder de manière pérenne sur de nombreuses années, il est important de aussi prendre en compte le format de stockage de vos données (i.e. est-ce que le format est standard ? est-il bien documenté ? dispose-t-il d'une API ?). Malheureusement par manque de temps, cette dépêche ne couvrira pas cet aspect.

La restauration reste normalement une opération beaucoup moins courante que la sauvegarde. Donc je n'ai pas trop cherché à voir si les logiciels offrent une interface évoluée pour parcourir et restaurer des données spécifiques. Du moment qu'il est possible (heureusement !) de restaurer un fichier, même de manière plus ou moins compliquée (ligne de commande tarabiscotée), je considère que le logiciel est acceptable. Malheureusement par manque de temps, je ne pourrai pas pousser le sujet plus loin.

Logiciels présentés

  1. bup (0.25~git2011.11.04-3) : codé en Python/C, il s'appuie sur Git. Licence GNU LGPLv2.
  2. BURP (1.3.8-1) : codé en C, il possède une architecture client/serveur et s'inspire de Bacula. Pour Windows il utilise en particulier Windows Volume Shadow Copy Service (VSS). Licence AGPLv3
  3. Backshift (1.03) : codé en Python avec une architecture client/serveur, il a la particularité d'intégrer la déduplication à la source de pouvoir fonctionner simultanément (concurrency). Licence principalement GPLv3 avec des bouts UCI, Apache et MIT.
  4. Obnam (1.0) : codé en Python, c'est à ce jour le seul logiciel libre intégrant à la fois la déduplication des morceaux de fichiers sur le client et le chiffrement "traditionnel" (avec GnuPG). Licence GPLv3 ou postérieure.
  5. tahoe-LAFS (1.9.1) : codé en Python (mais inclut des bibliothèques tierces codées en C/C++), c'est un système de stockage redondant décentralisé ("dans le nuage") avec une forte composante vie privée/sécurité/cryptographie. Licence GPLv2 ou postérieure, TGPPLv1 ou postérieure.
  6. BackupPC (3.2.1-3) : vénérable logiciel de sauvegarde (depuis 2001), codé en Perl et C. Apprécié des administrateurs de parc de machines hétérogènes, il s'appuie sur rsync sur Linux, Unix ou Mac OS X et/ou sur le protocole SMB sur Windows. Licence GPLv2 ou postérieure.

Avertissement : les logiciels (hormis BackupPC) n'étant pas tout à fait mûrs sur certains points, je pense personnellement que c'est pour le moment à réserver aux curieux aventuriers et pas à ceux qui souhaitent en faire leur solution principale de sauvegarde clé en main sans se prendre la tête. Pour info pendant l'évaluation, j'ai trouvé un bogue et un problème de performance sur la dernière version de bup, signalé un problème 1 jour avant la sortie de la version 1.0 de Obnam, eu quelques problèmes de performances avec la dernière version de Backshift et BURP a un problème avec l'avant-dernière version (1.3.6).

Note : ça fait plaisir de voir que Python est autant utilisé ;-)

Contexte

Tout d'abord précisons pourquoi à titre personnel je me suis intéressé à ces logiciels. Tout allait plus ou moins bien sur mon ordinateur portable au niveau des sauvegardes. Je les enregistrais sur un (gros) disque externe au moyen de DAR et comble du luxe, j'ajoutais même des sommes de contrôles PAR2 pour rendre mes archives auto-réparables (jusqu'à 5% de corruption).

Cependant, tout n'est pas rose car :

  1. Un (gros) disque externe ce n'est pas très pratique. Et donc en pratique je ne le branchais pas souvent et mes sauvegardes n'étaient ni fréquentes, ni régulières.
  2. Un disque externe, ce n'est pas très robuste aux cambriolages et au feu.
  3. Je suis un peu bordélique sur les bords, donc il y beaucoup de fichiers qui sont rangés un peu n'importe comment et je range toutes les deux éclipses totales. DAR, comme beaucoup d'autres logiciels similaires, détecte un fichier qui a bougé comme un nouveau fichier, donc les sauvegardes incrémentales prennent beaucoup de place.
  4. Je commence à utiliser des machines virtuelles qui sont très grosses (de l'ordre de 1 Go, voire plus). Au moindre petit changement dans ces machines virtuelles, il faut tout ré-enregistrer.
  5. J'aimerais bien aussi faire quelque chose pour la famille et les amis qui sont un peu novices en informatique et qui sont sous Windows ou Mac OS.

J'ai donc commencé à m'intéresser aux serveurs dédiés (Kimsufi proposant 1 To pour 216 € par an, cela commence à être intéressant par rapport à de l'auto-hébergement moins robuste aux cambriolages et au feu) et aux logiciels libres de sauvegarde efficaces sur la sauvegarde à distance (i.e. optimisant les échanges et la bande-passante et robuste à une déconnexion).
C'est plus cher et beaucoup plus fastidieux à mettre en place, mais c'est à mettre en balance avec la valeur que vous accordez à vos données.

Un contre-point intéressant serait de comparer avec une personne qui aurait tous ses emails sous Gmail, ses photos sous Flickr, ses documents sous Dropbox, sa musique avec Deezer et sa vie numérique sous Facebook. Il est plus difficile dans ce cas d'expliquer la nécessité de la sauvegarde (défaillance du fournisseur, capture du consommateur), sans même parler de vie privée.

Note : même si cela n'est pas exactement le même sujet, j'ai été aussi impressionné par la facilité d'utilisation et les performances de Dropbox. Il combine la synchronisation des données ainsi que le versioning des fichier (on peut presque dire que c'est plus ou moins équivalent à de la sauvegarde) de manière très intuitive. Voir cette dépêche présentant quelques équivalents libres (et qui m'a fait découvrir bup et Obnam).

bup

Approche originale fondée sur le fameux Git et utilise en particulier ses packfiles :

  • Si vous avez de nombreux petits fichiers, les performances devraient donc être très intéressantes. La déduplication est le gros point fort de bup et c'est peut-être le logiciel optimisant le mieux l'espace disque et le trafic réseau pour vos sauvegardes (déduplication à la source et ne transmet que les changements/deltas).
  • Peut générer les sommes de contrôles PAR2 pour vos sauvegardes, afin de réparer les corruptions éventuelles.
  • Fonctionne avec Linux, Mac OS X >= 10.4, Solaris, ou Windows (avec Cygwin). J'ai quelques doutes pour les fichiers verrouillés sous Windows.
  • Ne gère pas encore officiellement les metadatas des fichiers (les patchs sont prêts mais il reste quelques bogues).
  • Ne gère pas l'expiration ou la rétention des données.
  • Pas de chiffrement des données.
  • La liste de diffusion et la communauté semblent actives mais moins dynamiques qu'auparavant. La dernière version officielle de bup sous Debian Unstable remonte au 04/11/11. Pas facile de trouver où est le dépôt contenant les sources les plus à jour. Sur les problèmes que j'ai remontés, je n'ai pour l'instant pas eu beaucoup d'aide.
  • Pas de bugtracker
  • Comme il s'appuie sur Git, on peut s'attendre à une certaine robustesse. Le format de l'archive est de plus compatible avec Git.
  • Robustesse à l'interruption de la sauvegarde
  • Fonctionnement en ligne de commande.

BURP

BURP (oui le nom peut prêter à confusion avec le précédent) s'inspire donc de Bacula (l'auteur explique pourquoi) et possède de nombreuses fonctionnalités intéressantes :

  • Architecture client-serveur facilement configurable (pratique pour gérer les sauvegardes de la famille)
  • Intègre un mélange de delta encoding pour n'envoyer que la partie modifiée d'un fichier (pratique pour les VM) et de déduplication de fichiers au niveau du serveur (et à lancer manuellement avec bedup).
  • Gère le chiffrement symétrique Blowfish des sauvegardes (mais cela désactive le delta encoding). Cependant le nom des fichiers n'est pas chiffré (et la taille du fichier chiffré étant similaire, vous dévoilez une partie non négligeable de l'information).
  • Très bonne prise en charge des aspects multiplateformes. Utilise VSS pour les sauvegardes Windows : cela permet de gérer les problèmes de verrouillage de certains fichiers
  • Bien adapté pour des sauvegardes à distance : reprise de la sauvegarde en cas d'interruption (le fichier en cours n'a pas besoin d'être retransmis dans son intégralité), génération automatique de certificats SSL, utilisation de SSL obligatoire pour toute communication.
  • Le serveur fonctionne uniquement sur Unix. Client Unix et Windows disponible.
  • De par son fonctionnement (reverse deltas : la dernière sauvegarde contient la dernière version des fichiers et les sauvegardes précédentes sont modifiées pour contenir uniquement le delta), je ne pense pas que cela soit possible d'implémenter un mécanisme Parchive ou zfec (sauf à désactiver le delta encoding).
  • Planification évoluée des sauvegardes
  • Nombreuses options pour la rétention/expiration des sauvegardes
  • Mise à jour automatique des clients
  • l'auteur est très sympa et très réactif (parfois
  • Fonctionnement en ligne de commande.

tahoe-LAFS

tahoe-LAFS n'est pas seulement un logiciel de sauvegarde : c'est un système de fichiers distribué qui intègre en plus un outil de sauvegarde. L'objectif premier est de sécuriser vos données, aussi bien du point de vue vie privée que du point de vue perte de données. Pour cela il stocke vos données chiffrées (à la source) sur plusieurs machines organisées en réseau avec une politique configurable (si vous spécifiez K=2 et N=5, vos données seront réparties sur 5 machines, dont au moins 2 doivent être disponibles pour accéder à vos données).

  • J'aime bien son approche "paranoïaque". L'idée directrice est que personne (pas même l'hébergeur qui détient la machine contenant la sauvegarde) ne devrait pouvoir accéder en lecture/écriture à vos données.
  • Le besoin de sommes de contrôle Parchive ou zfec est moins présent vu que les données sont dupliquées sur le réseau (je recommande quand même une petite sauvegarde de temps en temps sur un autre média au cas où)
  • La communauté et la liste de diffusion sont très actives et très sympathiques (postez un message sur la liste de diffusion pour voir !). La documentation est de qualité.
  • Vous pouvez rejoindre un réseau existant (comme VolunteerGrid2) en ajoutant votre machine. Du coup tous les membres du réseau auront accès à une partie de vos données (chiffrées !) et vice-versa. C'est un saut psychologique important à faire (il faut faire confiance au chiffrement)
  • Vous pouvez aussi louer de l'espace à Least Authority Enterprises ou un réseau privé entier à RentaNode.
  • Pas de delta encoding mais intègre la déduplication à la source mais seulement au niveau d'un fichier entier.
  • Fonctionne sur tous les systèmes suffisamment conformes à la norme POSIX (linux, *BSD, Mac OS X, Windows, etc.). J'ai quelques doutes pour les fichiers verrouillés sous Windows. Mais il est possible d'utiliser Duplicati pour gérer les sauvegardes avec Windows VSS.
  • En cas d'interruption d'une sauvegarde, le fichier en cours doit être retransmis dans son intégralité.
  • Chiffrement avec AES-128 (bientôt combiné avec XSalsa20)
  • Fonctionnement en ligne de commande, via votre navigateur et FTP/SFTP.

Obnam

Obnam s'inspire de Btrfs en utilisant les B-tree (copie sur écriture). La version 1.0 vient de sortir la semaine dernière. C'est (à ma connaissance) le seul logiciel libre intégrant le chiffrement et la déduplication (sur le client) des morceaux de fichiers.

  • Déduplication à la source des morceaux de fichier ("file data chunks") donc pas besoin de delta encoding (mais perte légère d'efficacité qui dépend de la taille des morceaux). L'algorithme est cependant moins performant que celui de bup car il gère mal le décalage à l'intérieur d'un fichier (voir cet exemple de suppression d'une ligne).
  • Déduplication possible entre plusieurs utilisateurs avec chiffrement. Cela est possible en ayant en commun la même clé de chiffrement symétrique qui est elle-même chiffrée avec chacune des clefs publiques des utilisateurs. On peut ainsi révoquer un utilisateur (mais si celui-ci a copié la clef symétrique, c'est mort) et créer des groupes de personnes de confiance pour partager le même dépôt.
  • Ne semble pas adapté à une sauvegarde à distance si vous avez beaucoup de petits fichiers (latence dans la commande SFTP RTT)
  • Chiffrement hybride des données avec GnuPG à la source. A noter que la clé privée est nécessaire pendant toute la durée de la sauvegarde car Obnam a besoin de déchiffrer des informations ("file data chunks checksums") sur les sauvegardes précédentes pour effectuer la déduplication.
  • Sécurisation de la connexion par SSH FTP (mais autant chiffrer de mon point de vue).
  • Reprise possible d'une sauvegarde interrompue (placement de checkpoints après une taille configurable, on reprend alors à partir du checkpoint).
  • Ne fonctionne que sur linux.
  • Développé par une seule personne (un ancien copain de Linus !). Il répond généralement assez vite sur la liste de diffusion.
  • Fonctionnement en ligne de commande.

BackupPC

BackupPC est un logiciel relativement connu car délivrant de bons et loyaux services depuis 2001. Il semble particulièrement adapté à la gestion de sauvegardes d'un parc de machines (outils d'administration à distance évolués) et devrait donc plaire aux administrateurs (personnellement en tant que particulier j'ai eu un peu de mal à lancer ma première sauvegarde). Il rentre dans la catégorie des logiciels de sauvegardes traditionnels et éprouvés, sauf qu'il tient tête aux petits nouveaux en intégrant lui-aussi la déduplication.

  • Pas de chiffrement des données mais sécurisation de la connexion par SSL.
  • Fonctionnement "classique" à base de sauvegardes complètes et incrémentales.
  • Déduplication au niveau d'un fichier sur le serveur. Aussi possible entre plusieurs utilisateurs.
  • Au moins sur Debian, il y a une dépendance sur Apache (!) car il intègre un outil web d'administration à distance (très bien fait d'ailleurs).
  • Sous Windows, possibilité de sauvegarder les fichiers verrouillés pas très claire : voir la FAQ, ce message ainsi que celui-ci.
  • Sur linux, vous avez le choix entre tar et rsync. Les performances ne sont pas toujours similaires (voir par exemple cette comparaison).
  • L'évolution est relativement lente (signe de maturité ?) : 3.2.0 le 02/08/10 et 3.2.1 le 09/05/11.
  • Fonctionne sans installer de logiciels sur le client.
  • Reprise possible d'une sauvegarde interrompue (Partial Backup).
  • Documentation assez complète et de nombreuses ressources à disposition.
  • Le serveur fonctionne avec Linux, Freenix, Solaris. Le client fonctionne avec Linux, Win95, Win98, Win2000 et WinXP.
  • Fonctionne en ligne de commande et via votre navigateur (sous celui-ci, l'interface est extrêmement bien faite).

Backshift

Backshift est visiblement développé par un amateur de Python (voir les différents interpréteurs testés ainsi que les tests de performance). L'accent est apparemment mis sur l'optimisation de la taille de l'archive (déduplication des morceaux de fichiers et utilisation de LZMA pour la compression)

  • Déduplication des morceaux de fichiers sur le client.
  • Possibilité de fonctionnement en parallèle de plusieurs clients avec déduplication entre eux (!).
  • Reprise possible d'une sauvegarde interrompue.
  • Pas de chiffrement des données.
  • Sécurisation de la connexion possible par sshfs.
  • Création initiale de nombreux répertoires/fichiers mais permettant en théorie de mieux optimiser par la suite le nombre de répertoires/fichiers sur de nombreuses sauvegardes.
  • Fonctionnement en ligne de commande.

Je n'ai malheureusement pas réussi à avoir des performances suffisantes pour qu'il puisse rentrer convenablement dans les tests de performance. L'auteur est en train de voir mais cela peut prendre du temps. Je surveille en tout cas ce logiciel de près.

Tests de performance

Afin d'avoir une idée des performances de chacun des logiciels, j'ai créé un petit programme générant des nombres pseudo-aléatoires (j'ai limité aux nombres afin de bien voir l'effet de la compression).
Pour chaque logiciel j'ai alors d'abord sauvegardé, puis modifié, puis re-sauvegardé et enfin effectué une restauration.

L'arborescence "Sauvegarde initiale" est la suivante :

  • 10 répertoires contenant 10 répertoires contenant 10 répertoires contenant 10 fichiers de 1 Mo (soit 10 000 fichiers)
  • 10 répertoires contenant 1 fichiers d'environ 500 Mo (soit 10 fichiers)
  • 3 répertoires contenant 1 fichiers d'environ 2 Go (soit 3 fichiers) Au final nous avons donc environ 10 000 fichiers et 24 Go.

Ensuite j'ai modifié l'arborescence ("Modifications") en touchant 3 Go de fichiers :

  1. Renommage d'un répertoire de petits fichiers (soit 1000 fichiers de 1 Mo)
  2. Renommage d'un fichier de 500 Mo
  3. Modification d'un fichier de 500 Mo (suppression d'une ligne au milieu)
  4. Modification d'un fichier de 500 Mo (modification d'une ligne au milieu)
  5. Duplication d'un fichier de 500 Mo
  6. Duplication d'un fichier de 500 Mo et modification d'une ligne au milieu

La "Restauration" est tout simplement une opération de restauration de toute l'arborescence.

J'ai ajouté un test "Machine Virtuelle" sur la sauvegarde d'une machine virtuelle avant et après installation de divers logiciels (la taille de la VM est de 4.6 Go avant, 7.3 Go après).

Les arborescences ainsi que les dépôts pour la sauvegarde sont sur le même disque dur interne de 5400 rpm (je n'en ai pas d'autres sous la main). Les tests sont réalisés sous Debian Testing (kernel 3.2.0-2-686-pa).

Note : sur un serveur de sauvegarde distant, les résultats devraient être encore plus marqués. On pourra de plus contrôler le volume de données qui transitent et les effets de latence. Des volontaires ?

Résultats "Sauvegarde initiale"

  • bup¹ : 12693 Mo en 36mn28
  • BURP² : 11427 Mo en 79mn47
  • BURP² (avec chiffrement) : 11427 Mo en 80mn36
  • Obnam : 11607 Mo en 59mn55
  • Obnam (avec chiffrement) : 11697 Mo en 78mn43
  • BackupPC (avec tar) : 11729 Mo en 36mn24
  • BackupPC (avec rsync) : 11729 Mo en 38mn42
  • tahoe-LAFS³ : 24795 Mo en 110mn46
  • Backshift⁴ : j'ai arrêté la sauvegarde après 8h et 2000 fichiers traités.

Note 1 : La version de bup utilisée ne stocke pas les metadatas.

Note 2 : J'ai désactivé SSL pour BackupPC mais je n'ai pas réussi à l'enlever pour BURP, celui-ci est donc pénalisé.

Note 3 : tahoe-LAFS est configuré pour un seul noeud de stockage en local (K=H=N=1).

Note 4 : j'ai fait ce que j'ai pu pour accélérer Backshift en choisissant l'interpréteur Pypy (1.7), un disque externe formaté en ext4 (car Backshift crée beaucoup de répertoires/fichiers et en ext3 cela ne passe pas) et désactivé LZMA au profit de bzip2.

Résultats "Modifications"

  • bup : +37 Mo en 12mn43. C'est le roi de la déduplication, rien ne lui échappe.
  • BURP : +271 Mo en 18mn10. Les modifications 3 et 4 sont bien gérées (il n'envoie et stocke que le delta). 1, 2 et 5 sont gérées mais à postériori (déduplication sur le serveur), donc les données sont quand mêmes envoyées. 6 n'est pas gérée.
  • BURP (avec chiffrement) : +811 Mo en 25mn10. Idem que précedemment sauf que les modifications 3 et 4 ne sont plus gérées à cause du chiffrement.
  • Obnam : +140 Mo en 2mn40. La modification 3 est partiellement gérée.
  • Obnam (avec chiffrement) : +141 Mo en 3mn34. Identique au cas précédent.
  • BackupPC (avec tar) : +837 Mo en 26mn36. Les modifications 1, 2 et 5 sont gérées à postériori (déduplication sur le serveur), donc les données sont quand mêmes envoyées. 3, 4 et 6 ne sont pas gérées.
  • BackupPC (avec rsync) : +837 Mo en 6mn54. Identique au cas précédent.
  • tahoe-LAFS : +1751 Mo en 118mn34. Les modifications 1, 2 et 5 sont bien gérées. 3, 4 et 6 ne sont pas gérées.
  • Backshift : non testé.

Résultats "Restauration"

  • bup : 33mn48
  • BURP : 27mn13
  • BURP (avec chiffrement) : 27mn
  • Obnam : 31mn10
  • Obnam (avec chiffrement) : 49mn
  • BackupPC (avec tar) : 22mn06
  • BackupPC (avec rsync) : 22mn24
  • tahoe-LAFS : 68mn20

Résultats "Machine Virtuelle"

  • bup : 1955 Mo en 4mn03, puis +1717 Mo en 4mn42
  • BURP : 2640 Mo en 9mn35, puis +2060 Mo en 15mn23
  • Obnam : 2671 Mo en 6mn07, puis +3098 Mo en 9mn13

Note : à noter qu'on est ici dans un cas similaire aux modifications 3 et 4. Cependant la sauvegarde de Machines Virtuelles se fait usuellement via des instantanés ("snapshots") qui s'apparentent donc plutôt à la modification 6 (BURP ne pourra donc pas économiser quoi que ce soit).

Conclusion

En conclusion voici mon avis personnel basé sur l'état actuel des logiciels. Encore une fois, pour une chose aussi sensible que la sauvegarde de vos données, je vous recommande de faire attention vu la maturité relative de ces logiciels (hormis BackupPC). Mais ils sont tous en plein développement, donc c'est le moment idéal pour y participer en les testant, en remontant les bogues ou en proposant un patch !

  • Si vous êtes sous un système de type Unix :
    • Si vous recherchez les performances pures (rapidité et optimisation de l'espace), bup est LA référence. Cependant ses limitations 'opérationnelles' actuelles (pas de gestion des metadatas, pas d'expiration des sauvegardes) peuvent être trop limitantes.
    • Si vous voulez la performance ainsi que le chiffrement complet de vos données, Obnam est actuellement le meilleur choix (avec une réserve sur la sauvegarde à distance cependant).
  • Si vous êtes sous Windows :
    • BURP gère normalement le mieux les spécificités de Windows (pas essayé malheureusement) tout en maintenant un bon niveau de sécurité.
  • Si vous gérez un parc de machines hétérogènes :
    • Pour un particulier, BURP est peut-être plus accessible.
    • Pour un administrateur, difficile de ne pas trouver son bonheur dans BackupPC qui est de plus mature et éprouvé.
  • Si vous êtes pressés et que vous voulez un logiciel prêt à l'emploi et disposant de toutes les fonctionnalités, je vous recommande chaudement BURP.
  • Si vous très soucieux de votre vie privée, de la sécurité ainsi que de la redondance, tahoe-LAFS est fait pour vous (mais encore une fois ce n'est pas uniquement pour de la sauvegarde, c'est un système de fichiers distribué).

Merci à Nÿco, Benoît Sibaud, Florent Zara, Maz, Anthony F., ziedabid, Laurent Bachelier, Benoît et Beurt d'avoir lu et corrigé les fautes dans la dépêche.

  • # Unison ?

    Posté par . Évalué à  1 . Dernière modification : le 04/06/12 à 18:46

    Article très intéressant, mais je suis un peu déçu de ne pas voir Unison dans la liste :(
    Il me semble pourtant que c'est l'un des plus performants non ?

    • [^] # Re: Unison ?

      Posté par . Évalué à  4 .

      unison AMHA n'est pas du backup mais de la synchro

      • [^] # EN INCRUSTATION

        Posté par . Évalué à  -2 .

        Je tape l'incruste hors Thread, en tête des commentaires, pour expliquer ceci aux lecteurs :

        cette dépêche a été publiée (non finie) par erreur une première fois le 4 juin dernier et a fait l'objet d'une première salve de commentaires (du 4 juin vers 18h45 au 5 juin vers 13h). Elle vient d'être publiée à l'état final.
    • [^] # Re: Unison ?

      Posté par . Évalué à  6 .

      je suis un peu déçu de ne pas voir Unison dans la liste

      Unison est un système de synchronisation, pas de sauvegarde. L'inclure dans cette liste reviendrait à déclarer, par exemple, que le RAID 1 est aussi un système de sauvegarde.

      • [^] # Re: Unison ?

        Posté par . Évalué à  5 .

        Oui effectivement sa fonctionnalité principal c'est la synchronisation, mais il me semble qu'il sait également faire du backup en spécifiant "backupdir" et "maxbackups" pour le nombre de sauvegarde.

      • [^] # Re: Unison ?

        Posté par . Évalué à  1 .

        Certes, mais la différence me semble plus de l'ordre sémantique que pratique… J'utilise justement unison quotidiennement, le but étant effectivement de synchroniser rapidement les données de mon dossier de travail (plusieurs GB) entre mon laptop, ordi de bureau, et deux disques durs sur serveurs accessible en ssh. Je fais cette synchro au moins une fois par jour, en gros en fin de journée et après chaque création de donnée jugée importante (oui un peu de paranoia, issue d'un accident d'il y a quelques années, impliquant la conjonction malencontreuse entre un ordi, une tasse pleine de café, et ma propre personne pas encore assez caféinée; la perte de donnée en fut irrémédiable).

        Quel est le résultat? Mes données se retrouvent identiques et accessibles dans plusieurs endroits géographiquement distincts. C'est de la synchro ou du backup? Perso, je ne vois pas la différence; les données sont synchronisées entre plusieurs endroits. La différence entre synchro et backups ne me semblent exister que dans la manière dont j'utilise les copies. C'est de la synchro entre mon laptop et desktop; je peux travailler soit sur l'un, soit sur l'autre, c'est le même jeu de données. C'est du backup entre mes ordis de travail et de stockage; les ordis distants sont là pour retrouver les données en cas de problème sur les ordis de travail. La technique pour réaliser la synchro et le backup est la même, et je ne vois pas pourquoi utiliser des outils différents pour les deux.

        • [^] # Re: Unison ?

          Posté par . Évalué à  3 .

          Unison peut sauvegarder, aucun doute là-dessus.
          Mais si on part là dessus, cp et dd sont aussi (dans un bateau ?) des logiciels de sauvegarde.

          Je pense que ce qui fait la nécessité d'un logiciel de sauvegarde c'est de pouvoir sauvegarder plusieurs fois et de pouvoir revenir en arrière le jour que l'on veut. Ce que ne permet pas Unison.

          Git par exemple s'apparente beaucoup plus à un logiciel de sauvegarde et c'est pourquoi je trouve que bup est une très bonne idée.

        • [^] # Re: Unison ?

          Posté par . Évalué à  3 .

          Si tu te rends compte après une semaine que tu as effacé des choses importantes, tu es marron. La synchro aura tout effacé sur chaque machine.

          Donc, ce n'est pas de la sauvegarde.

    • [^] # Re: Unison ?

      Posté par . Évalué à  1 .

      J'ai pas lu tout l'article mais il me semble qu'il n'y est pas fait de mention de l'excellent rdiff-backup (un commentaire en bas en parle) et de son associé duplicity, très utile si on veut chiffrer les backups avec des clés gpg avant de les envoyer au serveur.

      • [^] # Re: Unison ?

        Posté par . Évalué à  3 .

        Je crois que ni rdiff-backup, ni Duplicy ne font de la déduplication.
        Si tu as deux fichiers identiques, ils vont sauvegarder chaque fichier séparément.
        J'ai limité la dépêche aux logiciels libres de sauvegarde faisant de la déduplication.

        • [^] # Re: Unison ?

          Posté par . Évalué à  0 .

          Au temps pour moi … mais j'avais prévenu: j'ai pas encore lu l'intégralité de l'article qui semble fort intéressant.

        • [^] # Re: Unison ?

          Posté par (page perso) . Évalué à  0 .

          La phrase :

          Puisque duplicity repose sur librsync, les sauvegardes incrémentielles sont économes en espace de stockage: seules les parties modifiées des fichiers sont prises en considération.

          (source : http://doc.ubuntu-fr.org/duplicity )
          ne signifie-t-elle pas que duplicity fait de la déduplication,justement ?

          • [^] # Re: Unison ?

            Posté par . Évalué à  1 .

            C'est abordé dans la dépêche : il ne faut pas confondre delta encoding et déduplication. La lecture des liens est un peu longue mais permet de bien comprendre la différence.

            En gros, voici deux exemples montrant les différences (je simplifie hein, il ne faut pas prendre cela au pied de la lettre) :
            - si tu sauvegardes une fois un fichier et qu'à la sauvegarde suivante tu as dupliqué le fichier quelque part, la déduplication n'ajoutera rien de plus alors que le delta encoding ajoutera le fichier dupliqué
            - en partant de l'hypothèse d'une déduplication par bloc de 3 caractères, si tu sauvegardes une première fois la chaîne "123456789" et que tu modifies en "123456780", le delta encoding devrait juste stocker "0" alors que la déduplication stockera "780".

            • [^] # Re: Unison ?

              Posté par (page perso) . Évalué à  1 .

              Oh, je vois. Donc je n'avais effectivement pas bien compris… Merci ! Je m'en vais lire les deux articles, et essayer de mieux saisir.

  • # Sur le coup, tahoe-LAFS est *vraiment* intéressant!

    Posté par . Évalué à  5 .

    La distribution du stockage… Je postais récemment un commentaire en n'imaginant pas une seule seconde que c'était déjà fait!

    • [^] # Re: Sur le coup, tahoe-LAFS est *vraiment* intéressant!

      Posté par (page perso) . Évalué à  2 .

      Je plussoie !
      Je me disait qu'il serait possible de faire un système de stockage distribué, ou chaque personne donnerait un bout de son disque dur pour stocker des données cryptées, et en échange elle pourrait stocker ses backups sur le réseau.

      Ça à l'air d'être tout à fait ça :)
      Par contre j'ai l'impression qu'il n'y a pas de réseau public ? Apparemment c'est à chacun de construire son propre réseau de nœuds de stockage.

    • [^] # Re: Sur le coup, tahoe-LAFS est *vraiment* intéressant!

      Posté par . Évalué à  1 .

      Il semble que nous sommes nombreux à avoir cherché, mais eux l'ont fait !

      Comme ça utilise Python, on doit pouvoir l'utiliser sur tout appareil, NAS compris. Voilà un bon moyen d'avoir sa sauvegarde dans les nuages, en contribuant aux nuages.

    • [^] # Re: Sur le coup, tahoe-LAFS est *vraiment* intéressant!

      Posté par (page perso) . Évalué à  0 .

      Wuala fait exactement ça.
      C'est une boite Suisse racheté par LaCie, fondée par des anciens de l'ETH Zurich, et ça semble assez sérieux (http://dcg.ethz.ch/publications/srds06.pdf)

      J'adore le concept, mais c'est en Java…

      • [^] # Re: Sur le coup, tahoe-LAFS est *vraiment* intéressant!

        Posté par (page perso) . Évalué à  5 .

        Je m'auto-réponds car il semblerait que Wuala ait perdu ce qui faisait sa spécificité, à savoir le stockage P2P. Et donc perd tout son intérêt par rapport à la concurrence.

        Si j'osais je dirais que c'était un système de stockage à la BitCoin.
        Le principe était qu'il était possible de mettre à disposition une partie de son disque dur et de sa bande passante pour qu'ils servent à la réplication des données des autres utilisateurs. En partageant on gagnait ainsi plus d'espace "dans le cloud" pour ses propres données.

        Dommage…

    • [^] # Re: Sur le coup, tahoe-LAFS est *vraiment* intéressant!

      Posté par . Évalué à  3 .

      Je n'ai pas fini de rédiger la partie tahoe-LAFS (quelqu'un a publié a ma place…grrr).
      Du coup je vais me faire incendier par l'auteur si il voit la description actuelle.
      Mais oui le projet est très intéressant et il me reste beaucoup à dire sur le sujet…

  • # versions

    Posté par (page perso) . Évalué à  7 .

    Ça aurait été sympa de préciser les version des logiciels utilisé.
    On ne sais même pas si c'est la version 1.0 d'obnam qui est testée.

    En plus, pour quelqu'un qui tomberait sur la dépêche dans quelques mois, ajouter la date en plus de la version sera un info pratique.

  • # Nimage ?

    Posté par . Évalué à  1 .

    Après ce sondage http://linuxfr.org/sondages/quel-logiciel-libre-pour-vos-sauvegardes, ça permet d'avoir un petit état de l'art des outils de sauvegarde avec/sans chiffrement et ou déduplication.

    Sinon, c'est quoi la nimage ? Des spaghettis magnétiques de type fuligineux ?

    • [^] # Re: Nimage ?

      Posté par . Évalué à  4 .

      c'est quoi la nimage ?

      Si je ne m´abuse, c´est une bande magnétique sortie de son support (et donc à peu près inutilisable).

      Comme quand, petit, tu sortais les bandes des cassettes VHS. Enfin, toi je ne sais pas, mais moi, si. ;-]

      Hop,
      Moi.

  • # dedup

    Posté par . Évalué à  3 .

    N'est-ce pas un peu overkill de déléguer la déduplication et l'encryption au logiciel de backup quand ça peut être fait de façon transparente par un filesystem moderne ?

    • [^] # Re: dedup

      Posté par . Évalué à  10 .

      Pas quand les données sont dédupliquées et chiffrées en local avant de les envoyer sur le stockage distant.

    • [^] # Re: dedup

      Posté par . Évalué à  -1 .

      En français ça donne quoi?

  • # À propos de backuppc

    Posté par . Évalué à  8 .

    Nous utilisons backuppc au boulot pour les sauvegardes et j'aimerais apporter quelques précisions :

    – il n'y a pas de chiffrement, donc si tu as accès au serveur, tu accèdes à tout. Par contre les utilisateurs sont authentifiés par l'interface web, et ne peuvent donc accéder ou restaurer que leurs sauvegardes.

    – support partiel de windows : euh… tu es sûr ? Ici nous utilisons un démon rsync sous windows (cwrsync) et non pas les partages sambla, ça marche nickel.

    D'expérience, backuppc est assez long pour faire les sauvegardes. Pour info, la déduplication nous fait passer de environ 40 à 50 To de données utilisateur à sauvegarder à 7 ou 8 To d'utilisé réellement.

    • [^] # Re: À propos de backuppc

      Posté par . Évalué à  3 .

      Oui je sais cela fait partie des points que je souhaitais corriger avant de soumettre la dépêche.
      Mais quelqu'un a publié la dépêche à ma place (!).
      J'attends de voir si on peut retirer la dépêche.

  • # Soumission de la dépêche

    Posté par . Évalué à  10 .

    Bonjour,

    Il ne me semble pas avoir appuyé sur le bouton 'soumettre' la dépêche.
    Comment se fait-il que quelqu'un ait soumis la dépêche à ma place ?

    Je n'ai pas fini la rédaction et les tests de performances sont biaisés ou carrément faux.
    Pour certains logiciels je n'ai pas eu le temps de corriger ou de compléter la description.

    Cela me met mal à l'aise vis à vis de certains auteurs qui m'ont aidé et qui vont retrouver une description inexacte de leur logiciel.

    Si la dépêche n'est pas retirée par un modérateur, je ne proposerai jamais plus de dépêche tellement je trouve le procédé scandaleux.

    Oui je suis énervé.

    • [^] # Re: Soumission de la dépêche

      Posté par . Évalué à  1 .

      Peut-être peux-tu la finir dans une nouvelle tribune et demander à un modérateur de faire le remplacement ici. Comme ça on garde les commentaires.

      Lors de ma première (et unique) dépêche, j'ai validé pour enregistrer un brouillon et ça l'a publiée. Heureusement, elle était finie.

      • [^] # Re: Soumission de la dépêche

        Posté par . Évalué à  5 .

        La dépêche est loin d'être prête.
        Et je ne souhaite pas perdre trop de temps à répondre aux commentaires portant sur des choses que je voulais justement améliorer avant de la publier.
        La meilleure des solutions est de retirer la dépêche.

        Cordialement,

      • [^] # Re: Soumission de la dépêche

        Posté par . Évalué à  1 .

        Bon en fait quand la dépêche repasse en modération puis est à nouveau publiée, les commentaires ne sont pas perdus.

  • # Disque dur externe chez une connaissance?

    Posté par . Évalué à  3 .

    J'ai peut-être des oursins dans les poches, mais depuis un certain temps je pense que le système "idéal" serait de mettre disque dur externe chez une connaissance, branché à sa box (et lui chez toi).
    Comme ça on aurait une sauvegarde qui résiste au vol (les données sur le disque étant bien entendu chiffrée), sans surcoût..

    Après il faut une box ou tu puisse brancher plusieurs disque dur pour ne pas gêner les hébergeurs et où on peut restreindre les accès: tu dois pouvoir accèder à ton disque de sauvegarde, mais pas aux autres: je ne sais pas si ça existe..

    • [^] # Re: Disque dur externe chez une connaissance?

      Posté par . Évalué à  2 . Dernière modification : le 05/06/12 à 11:55

      Ce n'est pas uniquement un problème de portefeuille (quoique 200€ par « site » pour 2 sites, ce n'est pas négligeable pour des particuliers), mais aussi de bande passante pour la restauration en cas de gros crash : avec la solution « j'ai tes backups, tu as mes backups, nous sommes à 10 km l'un de l'autre », une restauration complète peut se faire à la vitesse du bus usb plutôt qu'à celle de l'adsl.

      Bien sûr, pour la sauvegarde, on est par contre fortement limité par la vitesse d'upload de son vis-à-vis (mais la sauvegarde doit pouvoir tourner lentement mais sûrement en tâche de fond avec une règle qui évite de bouffer toute la bande passante up du site émetteur).

      Et bien entendu si tu dois accéder à tes backups pendant les vacances de ton vis-à-vis, il faut avoir un jeu de clés de chez lui !

      La gent féminine, pas la "gente", pas de "e" ! La gent féminine !

      • [^] # Re: Disque dur externe chez une connaissance?

        Posté par . Évalué à  3 .

        Chez moi c'est backup en local sur un premier disque + synchro avec 2 disques dur qui font un tournus chaque x semaines et dont l'un reste sous clé sur mon lieu de travail.

        Même si mon appart brûlait j'auai toujours une copie de moins d'1 mois au boulot.

  • # ah la déduplication !

    Posté par (page perso) . Évalué à  0 .

    Elle va plutôt s'intéresser aux logiciels libres prenant en compte la déduplication :

    J'étais récemment à une présentation chez un mastodonte de l'informatique, qui vantait sa solution de déduplication top moumoute.

    Avec mon mauvais esprit, je me disais, si le client veut passer à une autre solution de sauvegarde, il a le choix
    1) il garde la solution propriétaire uniquement pour pouvoir relire ses anciennes sauvegardes
    2) il relit et convertit toutes ses anciennes sauvegardes

    Génial !

    Dans le genre, je suis pieds et poings liés, c'est pas mal. Si le prix de cette solution propriétaire explose, on fait quoi ?

    Alors oui, on a besoin de moins d'espace disque avec la déduplication. Il y a 15 ans, quand l'espace disque valait une fortune, ça avait son intérêt. Aujourd'hui moins.

    carte des attaque DDOS http://map.ipviking.com/

    • [^] # Re: ah la déduplication !

      Posté par (page perso) . Évalué à  2 .

      Quand tu versionnes, ça évite de jongler.

    • [^] # Re: ah la déduplication !

      Posté par . Évalué à  1 .

      'Dans le genre, je suis pieds et poings liés, c'est pas mal. Si le prix de cette solution propriétaire explose, on fait quoi ?'

      La meme chose qu'avec une solution libre abandonnee ou dont le prix du service explose (ce qui revient au meme d'ailleurs)…

      Ce qui compte c'est le format des donnees, pas la aolution en elle meme. Une solution libre n'est reelement libre qu si plus d'un logiciel utilise le format. Sinon t'es tout autant pied lie niveau tarifaire, tu peux juste esperer qu'il y ait de la concurrence….(et la concurrence ca fonctionne aussi dans le monde proprio donc bon…)

    • [^] # Re: ah la déduplication !

      Posté par . Évalué à  2 .

      Alors oui, on a besoin de moins d'espace disque avec la déduplication. Il y a 15 ans, quand l'espace disque valait une fortune, ça avait son intérêt. Aujourd'hui moins.

      Pas si sûr quand même… les récents évènements (tsunami au Japon, inondations en Thaïlande) ont prouvé le contraire.

      Si je prends un exemple pour un logiciel de messagerie bien connu du monde fermé, jusqu'à la version 2003 la dé duplication des pièces jointes étant prise en compte en natif et depuis les dernières versions, ce n'est plus le cas (soit disant pour des questions de performance).
      Résultat de 2 migrations: au moins 3 fois plus d'espace disque nécessaire et au prix des disques pour serveur (ça recommence à baisser) ça fait un sacré budget, si on pense à redondance locale via RAID + mirroring distant + stockage pour les backup.

      La dé duplication ne peut être que bénéfique quelque soit le cout des disques.

      • [^] # Re: ah la déduplication !

        Posté par . Évalué à  2 .

        Si je prends un exemple pour un logiciel de messagerie bien connu du monde fermé, jusqu'à la version 2003 la dé duplication des pièces jointes étant prise en compte en natif et depuis les dernières versions, ce n'est plus le cas (soit disant pour des questions de performance).
        Résultat de 2 migrations: au moins 3 fois plus d'espace disque nécessaire et au prix des disques pour serveur (ça recommence à baisser) ça fait un sacré budget, si on pense à redondance locale via RAID + mirroring distant + stockage pour les backup.

        En même temps la déduplication étant une fonctionnalité maintenant courante sur les baies de stockage, je comprends la décision de microsoft dans ce cas. Ça doit être un peu négligeable comme parts de marchés les instances exchange qui tournent sur des disques internes.

        • [^] # Re: ah la déduplication !

          Posté par . Évalué à  2 .

          Ça doit être un peu négligeable comme parts de marchés les instances exchange qui tournent sur des disques internes.

          SBS2008 n'est pas négligeable en terme de nombre d'installations. Et cela tourne rarement sur une baie de stockage.

      • [^] # Re: ah la déduplication !

        Posté par (page perso) . Évalué à  1 .

        La dé duplication ne peut être que bénéfique quelque soit le cout des disques.

        Pas forcement : il faut etre sur d'avoir une bonne detection d'erreur sur ton disque, sinon tu perds N fois plus d'infos.

        Ou alors tu securises en faisant des copies … ce qui revient a annuler la deduplication =]

        • [^] # Re: ah la déduplication !

          Posté par . Évalué à  1 .

          En fait là je donnais plutôt un exemple en faveur de la dé duplication sur un disque "actif" et pas sur le backup car, dans ce cas, tu as raison. Mais c'est vrai quelque soit le support et la méthode de toute façon.

        • [^] # Re: ah la déduplication !

          Posté par . Évalué à  3 .

          La déduplication à la source permet aussi d'optimiser le trafic réseau, ce qui est loin d'être négligeable.

          Mais bon il me semble avoir déjà donné tous les arguments pour/contre dans la dépêche non ?

          Le fait que ce soit un point unique de défaillance, le fait que des systèmes intègrent la déduplication directement dans le système de fichier, la nécessite d'avoir des redondances, etc.

          • [^] # Re: ah la déduplication !

            Posté par (page perso) . Évalué à  2 .

            J'avoue ma faute : J'avais lu la dépêche a sa première (fausse) publication, m’étais abonne au flux RSS des commentaires, et quand j'ai vu le commentaire, je me suis senti de réagir.

            Je ne prétends nulle part que ta dépêche ne rappelle pas ces faits. Dépêche très intéressante, au demeurant =]

  • # Et cela même si vous n'avez pas investi dans un superbe SSD. gnee ?

    Posté par . Évalué à  1 .

    J'avoue ne pas comprendre la phrase liee au SSD.

    Niveau fiabilite, mis a part que c'est resistant au choc, ca a aussi des secteurs defectueux, ca peut aussi avoir de bugs graves qui font tout perdre d'un coup et ca peut aussi avoir une carte electronique qui grille, et les exemples ne manquent pas.

    Je n'arrive pas a voir si c'est de l'ironie (l'auteur voulant dire que les SSD sont encore moins fiables que les anciens DD) ou autre chose. Ou c'est jsute moi qui suis mauvais en explication de texte.

  • # Resturation !

    Posté par . Évalué à  2 .

    Encore un document (interessant du reste) qui traite de sauvegarde et ne prend pas en compte la restauration des donnees.

    • Avec tous ces logiciels qui nous sont presentes, combien de temps ca met a restaurer un fichier (celui du "mince, ooops, je l'ai vire par megarde")
      Comme c'est du vecu, et que ma sauvegarde etait a jour (avec rdiff-backup), j'annonce environ 5 min, dont 4 pour chercher le disque externe, le brancher, le monter et retrouver le bon repertoire.

    • Et combien de temps ca met a restaurer tous les fichiers (celui du "mince, le disque a crashe, j'ai tout perdu…") ?
      La, c'est partiellement du vecu : je n'avais perdu qu'une partition de donnees.
      Avec rdiff-backup, le temps de restauration, c'etait le temps de recopier les donnees depuis mon disque externe avec un cp recursif (la sauvegarde venait d'etre faite en prevision de la manip a risque qui n'a pas manque de louper).

    • Et mes sauvegardes d'il y a 3 ans, elles sont encore lisibles avec la nouvelle version du logiciel de sauvegarde, ou dois-je chercher la version de l'epoque ?

    Bien sur, rdiff-backup (dont je fais la pub parce que ca m'a deja bien depanne), c'est bien sur un disque interne ou externe, mais pas sur un espace disque externalise et chiffre.

    Le bonjour chez vous…

    • [^] # Re: Resturation !

      Posté par . Évalué à  2 .

      Et oui je souhaitais aussi faire le point sur la restauration.
      Mais comme expliqué plusieurs fois plus haut, quelqu'un d'autre que moi a soumis la dépêche à ma place alors que j'avais loin d'avoir terminé.

      J'avoue que cela me déprime tellement que je ne souhaite pas corriger quoi que ce soit à moins que l'on retire la dépêche.

    • [^] # Re: Resturation !

      Posté par . Évalué à  1 .

      Au dela du temps de calcul necessaire à la restauration, un point vraiment important, pour moi, est la facilité de cette dernière. Vu qu'on ne restaure qu'une fois de temps en temps, on oublie inevitablement la procedure, le logiciel à lancer, l'hôte qu'il faut pointer, etc… D'autant que généralement, on a besoin de restaurer en urgence.

      C'est ca qui m'a fait choisir un bête rsync chez moi (avec du versionning à la time machine, à coup de hard links). En contrepartie, evidemment, pas de "vrai" chiffrement (encFS tout de même, mais ce n'est pas la même chose), pas de deduplication, etc… Mais au moins, mes utilisateurs peuvent restaurer eux même leurs données, sans trop de questions.

      Donc, si tu les a tous testés : lesquels te semblent les plus simples / rapide a prendre en main au cours de la restauration ?

      • [^] # Re: Resturation !

        Posté par . Évalué à  2 .

        Si pour toi une IHM est absolument indispensable: BackupPC (vraiment très bien fait) et tahoe-LAFS (plus obscur mais fait son boulot).

        Pour les autres c'est en ligne de commande, donc ils sont tous plus ou moins équivalent.

        Je n'ai pas eu le temps par contre de voir comment chacun des logiciels donnent une vue sur les anciennes versions de chaque fichier/répertoire afin de sélectionner la version que l'on souhaite restaurer.

        • [^] # Re: Resturation !

          Posté par . Évalué à  7 .

          Si pour toi une IHM est absolument indispensable
          […]
          Pour les autres c'est en ligne de commande

          Heu… La ligne de commande est une IHM…

        • [^] # Re: Resturation !

          Posté par . Évalué à  2 . Dernière modification : le 20/06/12 à 13:33

          Ok, merci, je jeterais un coup d'œil a TohoeLAFS (BackupPC a vraaaiment l'air overkill), c'était de toute façon le projet qui m'attirait le plus, le coté "communauté de sauvegarde" me plait bien.

          Concernant la GUI, c'est un vrai plus (encore une fois, les restaurations sont rares, donc la perte de temps liée au clicodrome ne me semble pas importante). Cela étant, je ne suis pas réfractaire à la CLI. Simplement, je n'ai jamais vu d'interface facile, en CLI, pour la restauration (j'en ai pas vu beaucoup, en même temps).

  • # Priorisation de fichiers à sauvegarder ?

    Posté par (page perso) . Évalué à  3 .

    Sur le sujet, je m'intéresse moi aussi à sauvegarder mes données personnelles sur un hébergement dédié.

    Le problème c'est de faire passer la première fois près de 200Go en upload sur une ligne ADSL.

    Comme ça va prendre en cumulé près d'un mois (donc en réalité plusieurs), j'aimerai pouvoir donner priorité à certains fichiers pour un même flux de sauvegarde. Dans le principe, l'idéal serait que je n'ai à préciser que ce qui est prioritaire, tout le reste étant par défaut moins prioritaire.

    Quelqu'un a déjà vu des outils de sauvegarde qui font cela ?

    • [^] # Re: Priorisation de fichiers à sauvegarder ?

      Posté par . Évalué à  2 .

      Obnam permet de faire cela manuellement :
      http://liw.fi/obnam/tutorial/

      En gros tu commences par sauvegarder ce qui est important et tu ajoutes petit à petit les fichiers secondaires.

      Donc par exemple :
      obnam backup repertoire_important
      obnam backup repertoire_important repertoire_moins_important
      obnam backup repertoire_important repertoire_moins_important repertoire_pas_important
      etc…

      Ou tu peux aussi jongler avec les options d'exclusion aussi ou sélectionner les fichiers indépendamment.

  • # lessfs ?

    Posté par . Évalué à  3 .

    En parlant de décuplication je suis tombé sur lessfs, un système de fichier fuse utilisant la technique.
    http://www.lessfs.com/wordpress/

    Peut-être qu'en mettant un système de sauvegarde "simple" par dessus, cela peut aussi faire l'affaire ?

    "La liberté de tout dire, n'a d'ennemis, que ceux qui veulent se réserver, le droit de tout faire"

  • # Trop de sauvegarde?

    Posté par (page perso) . Évalué à  2 .

    Perso je me demande pourquoi vous avez tant de données à sauvegarder, perso j'ai ~200Mo de données que je ve absolument garder (code, doc administratif, etc.) qui sont versionnées avec git (et dupliqué sur 3 PC). Certe je ne fait pas de photos ou de videos, mais quand même (et même dans ce cas un bon vieux tar incrémental vers un serveur devrait faire des miracles).

    Le reste de mes données, je peut les retrouver (OS, Films (legaux :-P), jeux…) via le grand Ternet ou en demandant à un ami.

    • [^] # Re: Trop de sauvegarde?

      Posté par . Évalué à  6 .

      L'exemple donné dans la dépêche est purement artificiel afin de tester un peu les logiciels dans leurs retranchements.

      Personnellement j'ai déjà plus de 12 ans d'emails qui totalisent 4 Go (qui dit mieux ?). Bien entendu, si tu es plus jeune, moins nostalgique ou si tes emails sont uniquement sur Gmail (pas bien), le volume sera moins important.

      Pour les photos (sans même parler de vidéo HD), pour te donner un exemple, c'est relativement rapide d'arriver à une centaine de photos par événement. A raison d'une douzaine d'événements par an et 3 Mo par photos, tu arrives à 3.6 Go pour une année, soit 18 Go pour 5 ans. Bon dans tout cela rien qui ne mérite l'attention des journalistes, c'est juste des souvenirs "Tata Ginette" (les amateurs comprendront).

      Donc on arrive déjà à 22 Go, ce qui avec ma liaison en upload de 1 Mb/s, permet de faire une sauvegarde complète en 49h (!).

      Du coup je n'ai pas vraiment envie de faire des sauvegardes complètes tous les mois et si je décide de ré-organiser mes répertoires et/ou de renommer mes fichiers, je ne souhaite pas re-uploader pendant des heures (ce que fera certainement ton tar incrémental). D'où l'intérêt de la déduplication.

      • [^] # Re: Trop de sauvegarde?

        Posté par . Évalué à  4 .

        4 à 10 Go de photo par an depuis 2005. J'ai une carte de 4Go qui fait l'affaire. Je viens de faire l'achat d'une petite camera HD, qui dispose d'une carte de 32Go, je sens que cela va faire mal aux disques dures. (la taille de la carte donne l'idée de la taille max de donné généré par évenement)

        "La liberté de tout dire, n'a d'ennemis, que ceux qui veulent se réserver, le droit de tout faire"

      • [^] # Re: Trop de sauvegarde?

        Posté par (page perso) . Évalué à  3 .

        emails sont uniquement sur Gmail (pas bien)

        Il est d'ailleurs dommage que les utilisateurs de ce type de service ne sauvegardent pas leurs données (d'autant que gmail propose un accès imap je crois) pensant qu'ils sont tranquilles, hors ces derniers années nous avons vu quelques uns de ces services fermer ou des compte se faire bloquer/pirater.

        • [^] # Re: Trop de sauvegarde?

          Posté par . Évalué à  2 . Dernière modification : le 19/06/12 à 11:47

          Ce problème est abordé dans la dépêche :

          Un contre-point intéressant serait de comparer avec une personne qui aurait tous ses emails sous Gmail, ses photos sous Flickr, ses documents sous Dropbox, sa musique avec Deezer et sa vie numérique sous Facebook. Il est plus difficile dans ce cas d'expliquer la nécessité de la sauvegarde (défaillance du fournisseur, capture du consommateur), sans même parler de vie privée.

          Et j'ai donné un lien pointant vers une histoire assez regrettable de piratage de compte Gmail :
          http://www.theatlantic.com/magazine/archive/2011/11/hacked/8673/?single_page=true

      • [^] # Re: Trop de sauvegarde?

        Posté par (page perso) . Évalué à  1 .

        L'exemple donné dans la dépêche est purement artificiel afin de tester un peu les logiciels dans leurs retranchements.

        Pas tant que ça, certains commentaires parle de 200Go de sauvegarde.

        Personnellement j'ai déjà plus de 12 ans d'emails qui totalisent 4 Go (qui dit mieux ?). Bien entendu, si tu es plus jeune, moins nostalgique ou si tes emails sont uniquement sur Gmail (pas bien), le volume sera moins important.

        J'ai aussi plus de 12 ans d'emails mais les emails importants ne représentent qu'une fraction infimes du total (et perdent de leurs importances avec le temps, un facture d'il y a 12 ans, en général je m'en fous donc je supprime), et ils sont dupliqués sur plusieurs machines.

        Pour les photos (sans même parler de vidéo HD), pour te donner un exemple, c'est relativement rapide d'arriver à une centaine de photos par événement. A raison d'une douzaine d'événements par an et 3 Mo par photos, tu arrives à 3.6 Go pour une année, soit 18 Go pour 5 ans. Bon dans tout cela rien qui ne mérite l'attention des journalistes, c'est juste des souvenirs "Tata Ginette" (les amateurs comprendront).

        Comme je l'ai dis, pas de photo ou de videos pour moi et les stocker sur DVD (et les distribuer) me parait à la fois économique et relativement sûr (compte tenu de la durée de vie des support, mais rien ne garanti que le service de sauvegarde soit là dans 5 ans non plus).

        Du coup je n'ai pas vraiment envie de faire des sauvegardes complètes tous les mois et si je décide de ré-organiser mes répertoires et/ou de renommer mes fichiers, je ne souhaite pas re-uploader pendant des heures (ce que fera certainement ton tar incrémental). D'où l'intérêt de la déduplication.

        tar prend en charge le renommage des fichiers.

        • [^] # Re: Trop de sauvegarde?

          Posté par . Évalué à  2 .

          L'exemple donné dans la dépêche est purement artificiel afin de tester un peu les logiciels dans leurs retranchements.

          Pas tant que ça, certains commentaires parle de 200Go de sauvegarde.

          Je parle de l'exemple de la dépêche, qui est purement artificiel. Après si tu parles de certains commentaires en particulier, je ne peux pas deviner (il faudrait leur demander en commentant leurs messages).

          Personnellement j'ai déjà plus de 12 ans d'emails qui totalisent 4 Go (qui dit mieux ?). Bien entendu, si tu es plus jeune, moins nostalgique ou si tes emails sont uniquement sur Gmail (pas bien), le volume sera moins important.

          J'ai aussi plus de 12 ans d'emails mais les emails importants ne représentent qu'une fraction infimes du total (et perdent de leurs importances avec le temps, un facture d'il y a 12 ans, en général je m'en fous donc je supprime), et ils sont dupliqués sur plusieurs machines.

          C'est bien ce que je dis : tu dois être moins nostalgique que moi. J'ai tendance à tout garder même les délires entre potes (c'est assez rigolo à lire avec le recul) et la moindre carte postale envoyée par un ami (quel est l'importance d'une carte postale ?).
          Ce que tu dis n'est pas juste limité aux nombres de Go de tes données, il y a des personnes pour qui leurs effets personnels tiennent dans 2 cartons et d'autres qui accumulent les bibelots et les souvenirs (je suppose que tu es plus dans la première catégorie ?).

          Il faut juste accepter et comprendre que entre l'appartement d'ascète et la maison de tata Ginette, il y a beaucoup d'autres styles de vie.

          Pour les photos (sans même parler de vidéo HD), pour te donner un exemple, c'est relativement rapide d'arriver à une centaine de photos par événement. A raison d'une douzaine d'événements par an et 3 Mo par photos, tu arrives à 3.6 Go pour une année, soit 18 Go pour 5 ans. Bon dans tout cela rien qui ne mérite l'attention des journalistes, c'est juste des souvenirs "Tata Ginette" (les amateurs comprendront).

          Comme je l'ai dis, pas de photo ou de videos pour moi et les stocker sur DVD (et les distribuer) me parait à la fois économique et relativement sûr (compte tenu de la durée de vie des support, mais rien ne garanti que le service de sauvegarde soit là dans 5 ans non plus).

          Je ne peux pas être en désaccord avec ça : c'est expliqué dans ma dépêche, cette forme de redondance est très bien mais parfois délicate à mettre en place de façon automatique. C'est comme le coup d'échanger un disque dur placé chez un copain, en pratique je constate que pour moi je reporte toujours au lendemain.

          Du coup je n'ai pas vraiment envie de faire des sauvegardes complètes tous les mois et si je décide de ré-organiser mes répertoires et/ou de renommer mes fichiers, je ne souhaite pas re-uploader pendant des heures (ce que fera certainement ton tar incrémental). D'où l'intérêt de la déduplication.

          tar prend en charge le renommage des fichiers.

          Je pense que tu n'as pas compris le sens de ma remarque (et peut-être le réel intérêt de la déduplication). Tar n'est pas capable de détecter des fichiers renommés/déplacés/dupliqués (à moins de calculer un checksum, ce qu'il ne fait pas, comment il s'y prendrait ?).
          Si je déplace un répertoire de fichiers (par exemple ma modification 1 dans la dépêche), ton tar incrémental ne va pas reconnaître le renommage et magiquement transmettre uniquement la chaîne de caractère contenant l'ancien nom et le nouveau nom (du coup je suis obligé de perdre des heures pendant la transmission).

          Les logiciels que j'ai présentés détectent cela (et certains vont même encore plus loin en détectant des morceaux communs).

        • [^] # Re: Trop de sauvegarde?

          Posté par . Évalué à  6 .

          Comme je l'ai dis, pas de photo ou de videos pour moi et les stocker sur DVD (et les distribuer) me parait à la fois économique et relativement sûr (compte tenu de la durée de vie des support, mais rien ne garanti que le service de sauvegarde soit là dans 5 ans non plus).

          En gros tu parles de ce que tu ne connais pas ;)

          Heu les medias optiques pour de la sauvegarde de gros volume c'est surement pas la solution:
          - Durée de vie très courte (quelques années au plus)
          - Taille ridicule, un DVD RW ca tient à peine 200 RAW de 5DII
          - Media froid et chiant à manipuler donc tu ne vérifies jamais si tes supports sont corrompus ou non, et tu ne tests jamais la restauration. Tu ne vérifies jamais que ta tout. La misère quand tu cherches quelque chose etc.
          - Sans parler de faire des backup incrementaux, de sauvegarder les fichiers liés etc.

          Ca fait des années que si tu as plus de quelques GB à sauvegarder, t'as foutu les support optique à la poubelle. Si t'es pas capable de synchroniser tes sauvegarde locales à chaque fois que tu bosses, et ramener un disque externe toutes les X semaines, c'est que tu tiens pas à tes données…

          Maintenant y'a les gens qui ont plein de données à sauvegarder par ce qu'ils ont plein de données à sauvegarder, et ceux qui sauvegardent plein de trucs par ce qu'ils sauvegardent plein de trucs.

          • [^] # Re: Trop de sauvegarde?

            Posté par (page perso) . Évalué à  10 .

            Maintenant y'a les gens qui ont plein de données à sauvegarder par ce qu'ils ont plein de données à sauvegarder, et ceux qui sauvegardent plein de trucs par ce qu'ils sauvegardent plein de trucs.

            Le bon sauvegardeur il voit une donnée il la sauvegarde ?

    • [^] # Re: Trop de sauvegarde?

      Posté par . Évalué à  3 .

      200 Mo c'est vraiment rien. Je suppose que tu es jeune et sans enfant :o)

      Ma consommation en disque a explosé avec l'arrivée de mon fils : mitraillage photo d'abord (c'est vite fait 1000 photos x 2 à 5 Mo/photo), puis montage de films de famille. La famille est loin, il y a demande.

      Même en ne conservant sur disque qu'une heure de film par an au format DV (pour pouvoir faire d'autres montages avec les meilleurs morceaux), ça fait 20-25 Go/an. Les rushs restent sur bande jusqu'à ce que le prix du Go baisse encore d'un facteur 5.

      Je numérise au maximum : factures, docs administratifs, archives de certains magazines, mes CDs, etc. En cas de gros pépin/exil/incendie… je sais que j'aurai tout sur un disque.

      La musique ? Au format FLAC (pour regénérer n'importe quel format ensuite).

      Un peu de machines virtuelles pour diverses raisons (essais, vieux jeux…) ? Paf, 10 Go. Et remonter une machine ce sont des heures perdues.

      Ma femme a des docs professionnels à la maison (quelques Go). Les enfants n'ont pas encore commencé à produire grand-chose mais ça va pas tarder.

      Bon, j'ai aussi tendance à trop garder : films déjà vus (ça pourrait intéresser mon fils dans 5 ans), trop de photos de famille… Pas mal de choses pourraient être retrouvées mais j'ai assez d'argent pour un gros disque, et pas assez de temps pour le gaspiller en fouilles dans des archives mal fichues.

      Je considère aussi que tout centraliser dans mon $HOME ou un NAS est plus sûr que multiplier les DVD et disques externes de sauvegarde que j'oublierai petit à petit.

      Mais au final tout tient largement dans un disque de 3 Go, et j'ai deux disques de 1 To pour rsyncer l'essentiel, que j'échange à chaque fois que je passe au coffre à la banque.

      • [^] # Re: Trop de sauvegarde?

        Posté par (page perso) . Évalué à  1 .

        200 Mo c'est vraiment rien. Je suppose que tu es jeune et sans enfant :o)

        Bien vu ;-)

        Ma consommation en disque a explosé avec l'arrivée de mon fils : mitraillage photo d'abord (c'est vite fait 1000 photos x 2 à 5 Mo/photo), puis montage de films de famille. La famille est loin, il y a demande.

        Comme je l'ai dit, je ne fais pas de photos ou de vidéos, je n'ai pas d'appareil photo (je ne compte pas un téléphone comme appareil photo).
        Mais même dans ce cas je me pose 2 questions:
        - 1000 photos? C'est pas un peu beaucoup? Surtout quand on compare aux générations précédentes
        - Ce sont des données qui sont destinée à se "fossiliser", un gravage sur DVD puis l'expédition chez les parents/frère/soeur/etc. me parait plus approprié (surtout s'ils sont demandeurs ). Le problème de la durée de vie (~5 ans il me semble) n'est pas très important si on les remet à jour (50 DVD à graver tout les 5 ans, c'est pas la mort).

        Je numérise au maximum : factures, docs administratifs, archives de certains magazines, mes CDs, etc. En cas de gros pépin/exil/incendie… je sais que j'aurai tout sur un disque.

        Oui pour les factures, docs administratif, etc…
        Mais les magazines? Les CDs (je suppose que ce sont des CD "commerciaux")?

        La musique ? Au format FLAC (pour regénérer n'importe quel format ensuite).

        Je considère ces données comme trouvables ailleurs.

        Un peu de machines virtuelles pour diverses raisons (essais, vieux jeux…) ? Paf, 10 Go. Et remonter une machine ce sont des heures perdues.

        Par rapport à la probabilité du crash, c'est pas grand chose.

        Mais au final tout tient largement dans un disque de 3 Go, et j'ai deux disques de 1 To pour rsyncer l'essentiel, que j'échange à chaque fois que je passe au coffre à la banque.

        3 Go je trouve que c'est dans le domaine du raisonnable, vu les différences de comportement (photos, docs professionnels de ton épouse). Pas mal l'idée de la banque (quoique peu pratique à mon sens).

        • [^] # Re: Trop de sauvegarde?

          Posté par . Évalué à  3 .

          Le problème de la durée de vie (~5 ans il me semble) n'est pas très important si on les remet à jour (50 DVD à graver tout les 5 ans, c'est pas la mort).

          Euh si…à mon humble avis si je me retrouvais un jour avec des dizaines de dvd à regraver, c'est le genre de truc dont j'aurais l'énorme flemme de faire et remettrai au lendemain…et ça c'est sans compter le temps que ça fait, le bruit, la gestion du catalogue, la place de malade que ça prend et le fait que je ne suis pas sûr d'avoir encore un lecteur/graveur de dvd dans 5 ans (il n'y en a pas dans mon netbook déjà).

          Franchement, ça coûte d'une part bien moins cher d'utiliser des disques dur sur le long terme et permet de vérifier l'intégrité des données bien plus facilement et plus régulièrement.

          • [^] # Re: Trop de sauvegarde?

            Posté par . Évalué à  1 .

            Graver des DVD c'est pas du tout une bonne idée pour faire de la sauvegarde. La durée de vie des DVD gravées est nettement inférieure à celle des pressées.

            Please do not feed the trolls

            • [^] # Re: Trop de sauvegarde?

              Posté par . Évalué à  1 .

              Tu recommandes de faire faire un pressage alors? :)

            • [^] # Re: Trop de sauvegarde?

              Posté par . Évalué à  2 . Dernière modification : le 20/06/12 à 13:33

              Personnellement je pense que ce n'est pas une si mauvaise idée.

              L'avantage est la diversification : tu stockes sur un support dont les défaillances sont différentes d'un disque dur.

              Par exemple (cas vécus par des proches) c'est plus facile d'effacer par erreur (rm -rf dans le mauvais répertoire, redimensionnement malheureux d'une partition, mauvais paramétrage de l'expiration) ou par accident (foudre ou autre) tout un disque dur.
              Si tu as plusieurs DVD non-réinscriptibles, c'est plus difficile de tout perdre d'un coup.

              De même lors d'un cambriolage ou d'un feu, ton NAS a plus de chance d'y passer (encore que un cambrioleur c'est peut-être pas très fûté) que toute ta collection de DVD gravés (dans une boîte ignifugée !).

              Pour compenser les problèmes de fiabilité d'un DVD, j'ai ajouté des sommes de contrôle PAR2. Comme il est rare qu'un DVD soit complètement illisible, j'ai une bonne probabilité de pouvoir tout récupérer en mettant 5% de redondance.

              Ce qui me gêne le plus est la capacité limitée d'un DVD. Idéalement il faudrait utiliser un bon vieux système à bande (avec ele réfrigérateur pour conserver les bandes).

              • [^] # Re: Trop de sauvegarde?

                Posté par . Évalué à  1 .

                Dans mon cas j'utilise 3 disque durs, 1 qui reste à la maison, les 2 autres qui tournent entre la maison et le boulot. Et de temps en temps je fais une synchro complète.

                Les erreurs manuelles de rm ou changement de partitions, c'est du vent dans mon cas. D'une part parce que je n'ai pas de partitions (zfs for the win !), d'autre part parce que je ne fais aucune maintenance sur ce disque (sauf s'il commençait à défaillir). De plus tout ce que je fais c'est automatisé depuis belle lurette par un script qui est éprouvé et qu'en gros je ne fais que de la création de snapshots et suppression automatique des plus anciens avec exclusion de tout ce qui est annuel (bon en fait je n'ai qu'un backup annuel, ce n'est pas si vieux !).

                Et un scrub régulier m'assure de l'intégrité de mes données et de mon disque.

                Et puis il y'a une autre chose :
                -moi je fais de la sauvegarde.
                -toi tu fais de l'archivage (mais mal puisqu'avec des supports foireux comme les DVD).

                Et ce sont 2 choses différentes.

                • [^] # Re: Trop de sauvegarde?

                  Posté par . Évalué à  2 .

                  Désolé mais je ne comprends pas ton argumentation.

                  Je souhaite sécuriser (au sens je ne veux pas les perdre) mes emails ou mes photos tout en pouvant continuer à y avoir accès, c'est de la sauvegarde ou de l'archivage ?

                  Dans l'ancien temps, on archivait sur des bandes et on les ressortait de temps en temps quand on avait besoin d'un fichier (parce que les disques durs étaient chers). Donc à cette époque il y avait une nette distinction entre archivage (sur bande) et sauvegarde (sur disque).

                  De nos jours le stockage est devenu bon marché, donc on mets tout sur un disque même si dans l'absolu c'est pas nécessaire car les photos d'il y a 5 ans on y accède pas tous les 4 matins.

                  Donc si tu veux mon avis, sauvegarde ou archivage pour un particulier lambda c'est généralement kif-kif.

                  Par contre le professionnel qui est en moi considère que la diversification a aussi de bons avantages (et inconvénients). C'est bien beau d'avoir dupliqué sur 100 disques identiques, mais s'ils tombent tous en même temps en panne à cause d'une défaillance de mode commun ça te fera une belle jambe.

                  Donc pour les données critiques, utiliser le même logiciel/matériel n'est pas acceptable d'un point de vue fiabilité et il faut diversifier. Plus ton matériel/logiciel est différent, moins tu es sensibles aux défaillances de modes communs.

                  Idéalement il faudrait donc utiliser un OS différent, un logiciel de sauvegarde différent, un support de sauvegarde différent et un endroit de stockage différent. Le tout effectué par une personne différente et alimenté par une source d'énergie différente ! (rigolez pas, c'est ce que l'on fait là où je bosse…)

                  Bon je force le trait parce que l'on parle de mes photos de tata Ginette là, mais c'est juste pour te faire comprendre que la diversification a des avantages (et des inconvénients).
                  Donc graver ses données sur un DVD, bah non je n'irai pas dire immédiatement à un type que c'est foireux. Et je vais continuer à les utiliser malgré ma configuration top-moumoute de sauvegarde/archivage à distance sur un serveur dédié.

                  • [^] # Re: Trop de sauvegarde?

                    Posté par . Évalué à  2 .

                    Tu me dirais que t'utilises des bandes LTO3 ou 4 je comprendrais.

                    Mais des DVD…tu ne fous rien dessus maintenant. Et bonjour le cataloguage. Au moins avec des bandes tu peux utiliser les code barres pour les identifier…

                    • [^] # Re: Trop de sauvegarde?

                      Posté par . Évalué à  2 .

                      Je veux bien utiliser les bandes si tu me donnes les sous pour le lecteur ! ;-)
                      Comme j'ai pas de sous, je fais avec ce que j'ai…

                      Mais comme c'est vraiment pénible de graver, je ne grave que l'essentiel et ça tient sur 2 DVD (bye bye les photos). Pour le cataloguage, je fais à l'ancienne (stylo sur DVD avec la date). Et je ne fais cela que tous les ans ou tous les 2 ans donc ça va (bye bye la dernière année).

                      C'est vraiment histoire de calmer ma paranoïa. Je ne sais pas pourquoi je dors mieux quand je sais que mes données critiques sont au moins sur un bon vieux DVD dans une boîte au fond d'une armoire (merde j'ai révélé ma cachette).

                      Avec les sommes de contrôles PAR2, j'ai quand même une très bonne probabilité de récupérer le DVD même s'il est endommagé (ça doit quand même être très rare un DVD flingué à plus de 5% en moins de 2 ans).

                      Mais rassure-toi, je ne sauvegarderai jamais juste sur DVD. Ce serait du suicide. Un DVD c'est vraiment le plan C ou le plan D.

        • [^] # Re: Trop de sauvegarde?

          Posté par . Évalué à  2 .

          Mais au final tout tient largement dans un disque de 3 Go, et j'ai deux disques de 1 To pour rsyncer l'essentiel, que j'échange à chaque fois que je passe au coffre à la banque.

          3 Go je trouve que c'est dans le domaine du raisonnable, vu les différences de comportement (photos, docs professionnels de ton épouse). Pas mal l'idée de la banque (quoique peu pratique à mon sens).

          J'ai l'impression qu'il voulait plus dire 3 To non ?

          Autrement je ne comprends pas son argumentaire. Il dit qu'il génére énormément de données à coup de milliers de photos, films et machines virtuelles pour finir par dire que tout tient largement dans 3 Go.

  • # remarques

    Posté par . Évalué à  3 .

    merci pour l'article

    J'utilise a fond crashplan et rdiff-backup (que je n'ai pas couplé a zfs, et pourtant j'en rêve)
    Pour les clients c'est tar ;)
    Je pense regarder Obnam

    Avez-vous connaissance de https://github.com/n8gray/Backup-Bouncer qui permet de vérifier que le système de sauvegarde que l'on utilise restaure tout comme il faut ?
    (http://www.haystacksoftware.com/blog/2010/06/crashplan-restore-analysis/)

    • [^] # Re: remarques

      Posté par . Évalué à  3 .

      C'est parfait comme logiciel ça !
      Est-ce que la même chose existe pour Windows et Linux ?

  • # Pouvoir fouiller les sauvegardes

    Posté par . Évalué à  4 .

    J'utilise BackupPC depuis quelques années au boulot.

    Pour l'instant je n'ai pas eu de disque qui ont lâché (et c'est très bien comme ça). Par contre j'ai eu des utilisateurs qui avaient foiré un fichier Office et qui voulaient revenir à une version sauvegardée.

    Je ne sais pas ce que proposent les autres logiciels, mais avec BackupPC on peut facilement se balader dans les sauvegardes pour chercher un fichier sans avoir à faire de "vraie" restauration. C'est très pratique.

  • # saytrocompliqué

    Posté par (page perso) . Évalué à  2 .

    http://www.jwz.org/doc/backups.html

    pertinent adj. Approprié : qui se rapporte exactement à ce dont il est question. | Free Softwares Users Group Arlon, Belgique : http://fsugar.be/

  • # DDAR

    Posté par . Évalué à  2 .

    Afin d'être exhaustif, voici encore un logiciel libre de sauvegarde effectuant de la déduplication :
    http://www.synctus.com/ddar/

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.