Journal Bit flippé, bit flippant

Posté par  (site web personnel) .
Étiquettes : aucune
0
16
mai
2005
Alors comme ça, je transfère des photos entre mon portable et mon gros ordi, je les regarde tranquillement sur le gros ordi, et je m'aperçois qu'une d'entre elles est corrompue. Glups ! D'où cela vient-il ? De la CompactFlash de l'appareil photo ? Du disque dur du portable ? Lors du stockage dans un fichier tar ? Lors du transfert du fichier tar ? Lors de la décompression du fichier tar ? Qui est donc en train de tomber en panne ?

Quelques md5sum plus tard, j'ai la réponse : la corruption s'est faite lors de la création du fichier tar. Disque dur mort, secteur défectueux ? Bah non, si le disque était mort, ça se verrait, là il tourne toujours, les données sont toujours intactes, et smartctl est globalement dans le vert. Si c'était un problème de câble défectueux, ça se verrait aussi, tout serait corrompu, pas juste un bout de fichier. Si c'était un secteur défectueux, outre le fait étrange que le disque ne l'ait pas corrigé, il y aurait 512 octets incorrects dans le fichier... Or il n'y a pas 512 octets incorrects dans le fichier, j'ai comparé la version corrompue et la version d'origine, un seul octet a changé.

En fait, en tout et pour tout, un seul bit a basculé. Petite blague de la RAM, rayon cosmique en vadrouille ? La prochaine fois, je m'achète de l'ECC ! :-)

(Et là, je vais faire bien attention à ce que je stocke sur le portable, histoire d'avoir toujours un backup ailleurs.)
  • # Tout est possible...

    Posté par  . Évalué à 4.

    Vendredi 13, rayon cosmique, effet papillon, loi de Murphy, remontée du dollar, tout ça pourrait expliquer... mais plus j'y réfléchis, plus j'y vois une coïncidence troublante : et si c'était lié à l'apparition de monsieur piano ?? ( http://www.cyberpresse.ca/insolite/article/article_complet.php?path(...) )

    On n'est que lundi et ch'uis déjà fatigué, moi...
  • # perturbations électromagnétiques?

    Posté par  (site web personnel) . Évalué à 3.

    http://www.noaanews.noaa.gov/stories2005/s2437.htm(...)

    si ça t'es arrivé vendredi ou ce week-end ça explique peut-être...
    • [^] # Re: perturbations électromagnétiques?

      Posté par  (site web personnel) . Évalué à 3.

      Nan, c'est arrivé cet après-midi. Ce qui me gêne plus, c'est que je viens de m'apercevoir qu'une autre photo est également touchée, mais j'ai effacé l'original depuis. Pas une grande perte, mais ça décrédibilise l'hypothèse du rayon cosmique en faveur de l'hypothèse de la RAM défectueuse. :-/
      • [^] # Re: perturbations électromagnétiques?

        Posté par  . Évalué à 2.

        tu as memtest ou pas? si oui lance le tu seras fixé.
      • [^] # Re: perturbations électromagnétiques?

        Posté par  (site web personnel) . Évalué à 1.

        ça sent vraiment la RAM défectueuse oui...
        (comme dit au dessus, memtest est ton ami...)
      • [^] # Re: perturbations électromagnétiques?

        Posté par  . Évalué à 2.

        et tu parles de ram ecc.

        juste pour mettre le doigt sur un truc dont je ne suis pas sur; faut pas un chipset particulier pour profiter des fonctionnalités de détection et de correction d'erreur de la ram ecc ?
        • [^] # Re: perturbations électromagnétiques?

          Posté par  . Évalué à 1.

          Ba, le chipset ou le processeur lui même, tout dépend où est le controlleur mémoire, sur les AMD c'est dans le processeur (Opteron pour ceux qui supporte l'ECC) et pour la gestion des INTEL XEON, je crois que c'est le chipset qui contient le controlleur mémoire...mais je suis pas sûr.
          • [^] # Re: perturbations électromagnétiques?

            Posté par  . Évalué à 2.

            que le controleur mémoire accepte de booter avec une barette ecc ne signifie pas spécialement qu'il utilisera les fonctionnalités ecc.
            à moins que la barette corrige ses erreurs toute seule, auquel cas je vois pas pourquoi seules les cartes mères workstation et serveurs savent utiliser l'ecc
            • [^] # Re: perturbations électromagnétiques?

              Posté par  . Évalué à 2.


              que le controleur mémoire accepte de booter avec une barette ecc ne signifie pas spécialement qu'il utilisera les fonctionnalités ecc

              Oui peut-être mais ca me parait étrange puisque ca ne sera plus codé sur le même nombre de bits...
              Mais par soucis de stabilité, ils ont peut être prévu la situation sur certains controleur mémoire.

              Mais je ne parlais pas de ca... j'ai juste dit que ca ne doit pas dépendre uniquement de la carte mère...puisque certains processeurs (AMD Opteron) possèdent le controleur de mémoire et pas le chipset (AMD 8xxx)
              Mais les cartes mères étant liées plus ou moins aux processeurs...je voulais juste scinder le fait que le controleur mémoire pouvait être autre part que sur la carte...



              à moins que la barette corrige ses erreurs toute seule, auquel cas je vois pas pourquoi seules les cartes mères workstation et serveurs savent utiliser l'ecc


              Les barettes cerifiées ECC ont justes quelques bits (8 pour 64bits de data et 7 pour 32) de plus pour coder un checksum des data, c'est le controleur mémoire qui verifie que ce checksum est le bon à chaque relecture des data (à chaque accès et à chaque raffraichissement {la ram a besoin d'être réecrite à cause du déchargement des condensteurs}). Ce systèmes permet de récupérer les données d'orgines pré-corruption et la pluspart de ces mémoires incluent aussi un registre de tampon.

              J'espère que je dis pas de connerie...;-)
            • [^] # Re: perturbations électromagnétiques?

              Posté par  (site web personnel) . Évalué à 3.

              à moins que la barette corrige ses erreurs toute seule, auquel cas je vois pas pourquoi seules les cartes mères workstation et serveurs savent utiliser l'ecc

              Ce qu'il voulait dire, c'est justement que le support de l'ECC dépend du chipset ou du processeur, suivant que le contrôleur est sur l'un ou sur l'autre.
  • # C'est la RAM

    Posté par  (site web personnel) . Évalué à 2.

    Bon, j'ai quelques bits qui flippent dans la RAM, un en particulier qui flippe dans tous les tests de memtest+ ou presque. J'vais voir si je peux changer ça. Mauvais timing. :-(

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.