Journal Sauvegarde suite et fin ?

Posté par  (site web personnel, Mastodon) . Licence CC By‑SA.
18
3
jan.
2022

Sommaire

'lut 'nal,

Pour commencer l'année, je continue ma série de journaux sur la sauvegarde, je vous vois venir "encore celui-là avec ses articles sur la sauvegarde, ça va commencer à devenir franchement lassant". En fait je me rends compte que je n'avais pas totalement asséché le sujet puisque je n'avais pas encore parlé d'archivage, c'est l'objet de ce journal.

Rappel du contexte

Mais un petit rappel s'impose, voici un bref résumé des précédents épisodes
- le premier journal de la série porte sur la mise en place d'une première configuration de sauvegarde basée sur un script rsync et unison suite au fait déclencheur d'une perte de données
- le deuxième journal évoque une configuration améliorée basée sur borg et btrfs
- et enfin le troisième journal parle de la sauvegarde dans le cloud
Je devrais rajouter également ces autres journaux récents sur le même sujet
- une expérience vécue parmi d'autres de perte de donnée et de restauration
- testez vos sauvegardes et prenez en compte les temps de restauration

Le résumé

Pour ceux qui n'ont pas la patience de parcourir tous ces journaux, je vais tenter de résumer ces différents journaux et les nombreux commentaires qu'ils ont suscités. Si on distingue les données chaudes comme étant celles qui évoluent régulièrement (fichiers bureautique, fichiers source) et les données froides celles qui évoluent peu (fichiers multimédia notamment), les stratégies de sauvegarde seront différentes suivant le type de données. Pour les données froides, on pourra se contenter de sauvegarde ponctuelle manuelle ou automatique à un rythme plus ou moins espacé et régulier, alors que pour les données chaudes on privilégiera les sauvegardes automatiques complètes ou incrémentales régulières. Les sauvegardes pourront être locales ou distantes, l'idéal étant de combiner les deux pour ne pas placer ses œufs dans le même panier.
Parallèlement à la sauvegarde, on pourra mettre en place des dispositifs de vérification de l'intégrité des disques pour éviter la compromission des données à bas bruit et d'amélioration de la tolérance aux pannes.

Les outils

Pour la sauvegarde des données chaudes (mais ça marche également pour les données froides) on peut citer ces outils qui permettent de faire des sauvegardes avec des variantes incrémentielles, différentielles ou complètes, de la synchronisation ou de la copie, localement ou dans le cloud, éventuellement en chiffrant les données
- rclone
- duplicity
- duplicati (qui est le seul à disposer en natif d'un GUI)
- restic

ces autres outils sont similaires mais n’intègrent pas intrinsèquement la sauvegarde dans le cloud
- rsync
- borg backup

pour les sauvegardes manuelles et ponctuelles il existe également unison qui pourra être utilisé pour sauvegarder les données froides. On pourra citer également btrfs qui est un système de fichiers qui intègre la possibilité de créer et restaurer des snapshots.

Ce journal n'a pas vocation à faire une comparaison de tous ces outils, j'ai l'impression qu'ils se valent tous plus ou moins et qu'ils font le job pour lequel ils sont destinés. Personnellement j'utilise pour mes sauvegardes locales des données chaudes btrfs, borg et unison pour les données froides. Pour les sauvegardes distantes j'utilise
- la solution kDrive d'infomaniak avec l'application kDrive pour la sauvegarde automatique des données chaudes et la sauvegarde manuelle via le navigateur pour les données froides
- la sauvergarde et archivage chiffré des données chaudes sur Google Drive avec rclone

Pour les tests d'intégrité des disques on peut compter sur smartmontools et pour les tolérances aux pannes il existe des solutions matérielles comme le RAID, en rappelant bien que RAID is no backup ! Personnellement j'utilise un serveur Dell Poweredge T310 acheté une poignée de figues sur ebay avec des disques en RAID5 hard avec le daemon smartd qui vérifie régulièrement l'intégrité de mes disques.

L'archivage

Tentative de caractérisation

On en vient à la notion d'archivage qui complète la sauvegarde, mais c'est quoi au juste la différence entre les deux ?

Pour faire vite la sauvegarde est une copie identique des données à un moment donné qui permet une restitution en cas de pertes des données d’origine, une copie de sauvegarde n'est pas destinée à être conservée ad vitam æternam, mais à être écrasée régulièrement par une instance plus récente. Alors que l'archivage est une copie des données pour une période plus ou moins longue qui peut s'étaler sur des décennies. La nuance peut paraître subtile, mais on va dire que la sauvegarde a pour finalité la protection des données en temps réel, alors que l'archivage la conservation de données dans un temps long.

L'archivage peut s'imposer pour diverses raisons, à l'échelle d'une entreprise on parlera de Système d'Archivage Électronique (SAE) et il sera nécessaire pour des raisons légales ou à titre patrimonial, la perte de données archivées présentant souvent un risque pour l'entreprise et doit être traité en tant que tel.

Autre caractéristique de l'archivage, on doit pouvoir accéder facilement aux données archivées qui doivent rester lisibles dans le temps et garder leur valeur initiale. Il se pose donc plusieurs difficultés qui sont l'indexation des données, l'intégrité des données, l'obsolescence des technologies, la dégradation des supports et le trop plein de données.

L'indexation des données

L'indexation des données doit être documentée et facilement exploitable par une personne tierce qui n'est pas à l'origine de l'archivage. Elle suppose que les données soient triées et organisées suivant un référentiel connu et partagé ce qui est loin d'être toujours le cas.

L'intégrité des données

Quelle est la garantie qu'une donnée archivée il y a des années soit toujours intègre et n'ait pas été modifiée et/ou altérée dans la période, en gros quel est le degré de confiance qu'on peut accorder à notre système d'archivage ?

L'obsolescence des technologies et la dégradation des supports

La deuxième difficulté consiste sur le fait que les données soient à nouveau accessibles et lisibles alors qu'elles ont été enregistrées il y a des années sur un support particulier potentiellement devenu obsolète ou avec une technologie (voire un chiffrement) dépassée. En plus de l'obsolescence technique des supports il ne faut pas oublier la dégradation physique des supports plus ou ou moins accélérée suivant l'environnement de conservation. Pour se prémunir de l'impossibilité de récupérer des archives, par prévention il faudra veiller à mettre en place des stratégies pour migrer régulièrement les archives en les basculant d'un support obsolète et/ou dégradé vers le support adapté du moment. Pour ce faire, il n'y a pas vraiment de recette miracle, il faut assurer une veille technologique permanente pour vérifier régulièrement que le support physique et que les outils logiciels permettent encore d'accéder et de lire les données. On pourra également confier ses données à un tiers archiveur qui s'assurera de ce service en gageant de la pérennité du dit tiers.

Le trop plein de données

Avec l'évolution des technologies et la numérisation tout azimut de notre monde, nous faisons face à un phénomène exponentiel d'afflux de données numériques en tout genre, d'aucuns parlent de big data, d'autres de vracs numériques, je préfère de loin ce dernier terme qui me parait plus parlant. Par paresse et compte tenu des coût de stockage qui ont tendance à chuter, le plus souvent peu de tri n'est pratiqué et les données sont archivées telles quelles, quand bien même le pourcentage réellement utile représente une part infime. Or un volume important de données complique l'archivage et la récupération des données. De fait des nouvelles activités et métiers font leur apparition, pour à partir d'un fouillis de données non structurées extraire les informations utiles pour les organiser et les gérer, au besoin via l'intelligence artificielle.

Voici deux liens intéressants sur le sujet particulier de l'intelligence artificielle:
- L'IA et l'archivage numérique
- L'intelligence artificielle pour gouverner les archives nationales américaines (article en anglais)

Normalisation

Pour faciliter la gestion, l'archivage et la préservation à long terme des documents numériques la norme 14721 a même été développée et propose un modèle conceptuel basé sur l'Open Archival Information System ou OAIS (Système ouvert d'archivage d'information). Toutefois cette norme reste un modèle abstrait et ne donne aucune recommandation technique sur l’architecture du système et encore moins sur la structure des paquets de données.
Elle est donc complétée par la norme ISO 14641 sur l'"Archivage électronique - Conception et exploitation d'un système informatique pour la conservation intègre de documents électroniques - Spécification" qui est dérivée de la norme AFNOR NF Z42-013. Cette norme a une portée plus limitée mais donne des spécifications techniques et organisationnelles pour l’enregistrement, l’archivage, l'accès et la restitution des documents numériques archivés en assurant leur conservation et en préservant leur intégrité. Un point important de cette dernière porte sur l'intégrité des données archivées, la traçabilité exhaustive des modifications de l'archive et sur les preuves que le SAE apporte pour justifier de l'intégrité des données et de leur non modification.

L'AFNOR délivre la certification NF461 pour les SAE qui sont conformes à ces exigences normatives (275 au total), cette certification offre une certaine garantie de pérennité, de confiance et de sécurité et répondent aux difficultés développées plus haut. A noter que l’État français impose aux prestataires de service d'archivage cette certification pour les archives publiques.
L’État a également développé sa propre solution d’archivage numérique permettant l'enregistrement, la conservation et la consultation sécurisée de gros volumes d’archives numériques. C'est le programme VITAM (Valeurs immatérielles transmises aux archives pour mémoire) qui est une solution open source qui repose sur les normes citées plus haut.

Comme les "normateurs" ne sont jamais à court d'idée, on pourra citer également la norme ISO 13008 qui définit les exigences en matière de migration des données archivées en préservant leur authenticité et intégrité.

Quelques liens utiles sur le sujet:
- Le cadre juridique du tiers archivage
- Le programme VITAM
- Présentation (succincte) de la solution logicielle VITAM
- Code source et environnement de développement de VITAM

Réglementation

Depuis La loi du 13 mars 2000 la législation reconnaît qu’un document numérique peut être une preuve recevable en cas de litige de la même force qu'un document papier “sous réserve que puisse être dûment identifiée la personne dont il émane et qu’il soit établi et conservé dans des conditions de nature à en garantir l’intégrité”. Il reste bien sûr à apporter la preuve de l'identification du rédacteur et de l'intégrité du document ! La réglementation n'impose pas la norme NF461 pour le SAE pas plus qu'elle n'impose la norme NF Z42-026 qui précise les conditions pour réaliser des "copies fidèles" de document papier. Il reste au juge d'apprécier la validité de l'archive numérique.
On peut citer néanmoins cette décision de la cour d'appel de Lyon du 3 septembre 2015 où le juge a estimé qu'une copie numérisée et conservée conformément à la norme NF Z42-013 était une preuve légale suffisante quand bien même l'original papier avait été détruit.

Je n'aborde pas ici volontairement la problématique de la conservation des données personnelles sous couvert de RGPD ni les questions de signature électronique qui débordent quelque peu du sujet initial.

Un lien utile:
- CNIL Archiver de manière sécurisée

A mon (très) modeste niveau de geek

A l'échelle d'un particulier, la frontière entre l'archivage et la sauvegarde est plutôt tenue, puisque les deux ont tendance souvent à se confondre. Certes la problématique n'est sans doute pas aussi critique que pour une entreprise mais il en reste pas moins qu'on n'a pas forcément envie de perdre les photos de tatie Odette ou des rejetons dans leurs jeunes années qui ont une certaine valeur sentimentale et on s'attachera à les conserver, même si l'usage qu'on peut en faire peut se discuter.

Pour ma part, à l'avènement de la numérisation dans les années 90, j'ai commencé à archiver sur disquettes, un support que les moins de 20 ans n'ont pas connu, puis j'ai gravé sur CD puis DVD qui disposaient d'une bien plus grande capacité, or ces derniers supports gravés sur des moyens non professionnels ont une durée de vie assez limitée (5 à 10 ans au mieux). Avec le prix du disque qui a commencé à chuter, j'ai commencé à archiver sur disque en stockant les disques à l'abri jusqu'à bon an, mal an en arriver à ma solution actuelle d'archivage local et distant sur le cloud décrite sur cette page pour la sauvegarde locale et sur cette autre page pour la sauvegarde dans le cloud.

Par ailleurs j'avoue que je n'ai pas fait l'effort de trier, mais je suis loin de maintenir un big data, mes données personnelles sont a minima structurées pour pouvoir les retrouver, il faut néanmoins que je travaille sur le bus factor pour que les données ne se perdent pas à jamais.
Je n'ai pas pour ambition de développer un SAE certifié NF461 mais néanmoins ça m'intéresserait que certains de mes documents personnels puissent être certifiés et aient une valeur légale reconnue, je pense notamment à mes titres de propriété ou feuilles de paye que j'ai scannérisés et archivés numériquement. Comme quoi il me reste de la matière pour compléter cette série de journaux et je ne m'imaginais que suite à une banale perte de donnée je puisse tirer la pelote à ce point.

En synthèse

Un parchemin peut se conserver plusieurs milliers d'année, les papiers plusieurs siècles et paradoxalement à l'ère numérique nos supports informatiques ont une très faible pérennité et nous rendent extrêmement fragiles d'autant que le support papier tend à disparaitre et que le volume des données croit de manière exponentielle. Le sujet de la sauvegarde et de l'archivage constitue donc un véritable enjeu à l'échelle d'une entreprise mais également du particulier, même s'il est a priori peu concerné par les considérations normatives ce qui n'est pas forcément le cas pour les aspects réglementaires.

Je vous laisse maintenant faire part de votre expérience sur la manière dont vous archivez vos données et compléter ainsi ce journal.

  • # Petite cocquille

    Posté par  . Évalué à 2.

    Bonjour,

    Journal particulièrement intéressant, notamment par rapport aux liens et aux normes.
    Je numérise et archive également tous mes documents, avec une certaine politique de sauvegarde/archivage selon le cas.
    Numérisant et détruisant une bonne partie de mes documents, quasiment tous en fait, je suis aussi curieux de savoir dans quelle mesure mes numérisations et archives personnelles peuvent avoir une valeur légale ou pas (je conserve les documents "importants" au format papier).

    Sinon, au coeur du journal:
    conversation --> conservation

  • # Y'a papier... et papier

    Posté par  (site web personnel) . Évalué à 6.

    Un parchemin peut se conserver plusieurs milliers d'année, les papiers plusieurs siècles

    Faut bien choisir son papier et son encre, car avec du papier courant, ça s'abime vite. Et beaucoup d'encres ont tendance a s'estomper au bout de quelques années.

    Bon, probable qu'il y a longtemps le probleme ait été le même avec les parchemins et autres papyrus : qualité de fabrication et conditions de conservation.

    Python 3 - Apprendre à programmer dans l'écosystème Python → https://www.dunod.com/EAN/9782100809141

    • [^] # Re: Y'a papier... et papier

      Posté par  (site web personnel, Mastodon) . Évalué à 5.

      En effet. Et même avant l’encre, la qualité du papier. Il y a une énorme masse de papiers aux Archives nationales datant de la fin du 19e siècle (en gros, révolution industrielle, époque à partir de laquelle on a produit de plus en plus de papier) qui se délitent du fait de leur qualité (question de traitement, voire de rinçage, de la cellulose si je me souviens bien). L’encre est toujours visible sur les petits bouts par contre.

      Le problème sa pose, va se poser aussi pour les quotidiens qui sont, tous, fabriqués avec du papier de mauvaise qualité.

      En outre papier, parchemin, papyrus résistent très mal à l'eau et pas au feu (sauf tassés sous forme de livres dans une bibliothèque bien remplie).

      « Tak ne veut pas quʼon pense à lui, il veut quʼon pense », Terry Pratchett, Déraillé.

    • [^] # Re: Y'a papier... et papier

      Posté par  (site web personnel) . Évalué à 8. Dernière modification le 04 janvier 2022 à 16:01.

      Et beaucoup d'encres ont tendance a s'estomper au bout de quelques années.

      C’est assez récent ça. L’encre métallo-gallique qui a dominé l’écriture pendant presque mille ans pose des problème inverses ! Elle fini au contraire par ronger le papier !

      Papier rongé

  • # Pérennité

    Posté par  (site web personnel) . Évalué à 2.

    à l'ère numérique nos supports informatiques ont une très faible pérennité

    Oui et non, j'ai numérisé des vhs il y a très longtemps, les fichiers existent toujours et sont encore lisibles via vlc

    En multipliant les supports, disquettes, dd, et en les évoluant avec le temps on conserve le fichier d'origine, c'est quand même plus complexe avec du papier

    Les fichiers dans les gros cloud me semblent relativement en sécurité, je parle dans les stockages partagés/dupliqués, pas ceux qui pensaient y être avec un vps et qui sont surpris d'avoir tout perdu lors d'un incendie :-)

    Et si un jour le service ferme, il sera toujours possible de transférer dans un autre

    Avoir mes datas chez moi et en plus chiffrés dans un cloud, me semble bien plus sûr que mes cartons de documents … Pas complètement c'est certain, mais un peu plus

    • [^] # Re: Pérennité

      Posté par  (site web personnel) . Évalué à 4.

      En multipliant les supports, disquettes, dd, et en les évoluant avec le temps on conserve le fichier d'origine, c'est quand même plus complexe avec du papier

      Pourquoi évoluer puisqu'il y a le MiniDisc

  • # Probalités

    Posté par  . Évalué à 5.

    Un parchemin peut se conserver plusieurs milliers d'année, les papiers plusieurs siècles

    Vu le faible échantillon qu'on a récupéré, je dirais qu'il faut quand même avoir beaucoup de chance pour que ça tienne aussi longtemps. De la même manière, on a peu de retour de longévité pour des supports récents. Si ça tombe, on va trouver des disquettes encore lisible dans 200 ans. Il existe aussi des techniques de stockage qui sont censées durer des milliers d'années (mais on n'a pas trop de retour dessus) https://en.wikipedia.org/wiki/5D_optical_data_storage

    « Rappelez-vous toujours que si la Gestapo avait les moyens de vous faire parler, les politiciens ont, eux, les moyens de vous faire taire. » Coluche

    • [^] # Re: Probalités

      Posté par  (site web personnel, Mastodon) . Évalué à 3.

      en fait je pense qu'on en sait rien aujourd'hui, personne a une boule de cristal, pondre des normes sur le sujet et les suivre n'est pas une garantie absolue mais c'est toujours mieux que de s'en remettre à demain et à ceux qui prendront la suite.

      https://www.funix.org mettez un manchot dans votre PC

      • [^] # Re: Probalités

        Posté par  . Évalué à 3.

        Je suis bien d'accord qu'on en sait rien. Par contre, on a quand même une petite expérience de ce qui marche et ce qui ne marche pas. Ça donne des pistes pour avoir un système plus fiable.

        « Rappelez-vous toujours que si la Gestapo avait les moyens de vous faire parler, les politiciens ont, eux, les moyens de vous faire taire. » Coluche

  • # versionning

    Posté par  . Évalué à 4. Dernière modification le 03 janvier 2022 à 18:04.

    une copie de sauvegarde n'est pas destinée à être conservée ad vitam æternam, mais à être écrasée régulièrement par une instance plus récente.

    Si on ne garde que la dernière version sauvegardée, on est sûr de perdre des données tôt ou tard. Qui ne s'est jamais aperçu après coup qu'il avait supprimé un fichier qu'il n'aurait pas dû ou bien qu'un paragraphe entier d'un document avait sauté à notre insu suite à un couper-coller mal fait ?

    Personnellement, je garde tout sur une période assez longue et j'applique une politique de purge dépendant des données concernées. Restic, borg (et d'autres) permettent d'ailleurs ça à moindre coût en espace de stockage grâce à la déduplication.

    • [^] # Re: versionning

      Posté par  (site web personnel, Mastodon) . Évalué à 3. Dernière modification le 03 janvier 2022 à 18:47.

      Oui effectivement, c'est un raccourci un peu rapide, pour mes données chaudes, j'ai une sauvegarde hebdo des derniers 7 jours, une copie par semaine du mois en cours, et une copie par mois pour l'année en cours et on fait tourner en écrasant les précédentes sauvegardes.

      https://www.funix.org mettez un manchot dans votre PC

  • # durée de vie CD/DVD

    Posté par  (site web personnel, Mastodon) . Évalué à 4.

    puis j'ai gravé sur CD puis DVD qui disposaient d'une bien plus grande capacité, or ces derniers supports gravés sur des moyens non professionnels ont une durée de vie assez limitée (5 à 10 ans au mieux)

    J'ai des CD/DVD gravés qui ont plus de 20 ans, j'arrive toujours à les lire. Je ne veux pas faire mon cas une généralité, mais quand même, une durée de vie de 5 à 10 ans est un peu exagéré je pense (à moins que ce soit des DVD manipulés tous les jours, et stockés dans des endroits peu approprié, chaud, humide etc.. ?)

    Maintenant je suis d'accord avec toi sur le fait qu'il est bon de transférer régulièrement les archives sur des supports plus récents (et c'est ce que je fais :-)).

    • [^] # Re: durée de vie CD/DVD

      Posté par  (site web personnel) . Évalué à 4.

      Attention les DVD ont une durée de vie bien plus courte que les CD. La correction d'erreur est différente : dans le cas du DVD, le "paquet de zéros renvoyés" est absorbé par le codec vidéo.

      "La première sécurité est la liberté"

    • [^] # Re: durée de vie CD/DVD

      Posté par  (Mastodon) . Évalué à 8.

      J'ai des CD/DVD gravés qui ont plus de 20 ans, j'arrive toujours à les lire. Je ne veux pas faire mon cas une généralité, mais quand même, une durée de vie de 5 à 10 ans est un peu exagéré je pense (à moins que ce soit des DVD manipulés tous les jours, et stockés dans des endroits peu approprié, chaud, humide etc.. ?)

      Et j'en ai qui on dévoilé un voile étrange en surface qui les faits "sauter" et les rends de fait illisible. Ces CD étaient stockés de la même manières que les autres, dans leur boite originale, elles même dans ces gros boitier en plastiques noirs qui étaient à la mode à l'époque et le tout dans une chambre qui n'est certe pas un bunker dédié à l'archivage mais dont le taux d'humidité et de température n'a pas eu de variations extrêmes autres que les phénomènes saisonniers d'une région tempérée comme la France.

      Pourquoi certains survivent parfaitement lorsque d'autres non, je ne sais pas. Toujours est-il que la non homogénéité d'un aussi petit échantillon me fait penser qu'on ne peut pas vraiment avoir confiance en ce support sur le long terme pour de l'archivage, tout du moins à la maison.

    • [^] # Re: durée de vie CD/DVD

      Posté par  (site web personnel, Mastodon) . Évalué à 4.

      C'est d'après mon expérience et ce qu'on peut lire sur le net, mes CD et DVD n'ont pas duré plus de 5 à 10 ans, même en étant restés stockés dans un coin sans trop les avoir manipulés.
      Beaucoup de sites citent une étude d'IBM qui parle même d'une durée de vie de 2 à 5 ans !

      https://www.funix.org mettez un manchot dans votre PC

    • [^] # Re: durée de vie CD/DVD

      Posté par  (site web personnel, Mastodon) . Évalué à 3.

      J'ai aussi des disquettes et des CD qui ont un certain âge et sont encore lisibles. Mais il faut admettre que, ces mêmes supports ne sont plus exploitable quand ils étaient de faible/mauvaise qualité et qu'on les a correctement conservé et manipulé pareillement. Bien que ce soit, à en croire ce qu'on lit (et le peu de précaution des gens), des cas particuliers, je touche du bois (je dis ça par rapport à la veine hein, des copies ont été faites sur des supports plus récents depuis et c'est juste marrant de voir que ces mammouths traversent le temps malgré tout.)

      “It is seldom that liberty of any kind is lost all at once.” ― David Hume

  • # Encore du papier !

    Posté par  . Évalué à 2.

    Ta synthèse m'a fait réalisé que pour mes photos, j'avais en fait un archivage en plus de mes backups : en effet je réalise un livre-photo/an, ce qui, outre le confort de consultation (mes enfants préfèrent encore feuilleter que faire défiler) m'assure donc aussi une sauvegarde (parcellaire) en dehors du numérique : je suis couvert là face aux risques d'une tempête solaire ;)

    • [^] # Re: Encore du papier !

      Posté par  (site web personnel, Mastodon) . Évalué à 3.

      j'y songe aussi, car il y a quand même rien de mieux que de feuilleter en famille sur un canapé, en plus ça permet de faire un travail de sélection et de tri préalable

      https://www.funix.org mettez un manchot dans votre PC

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.