Forum général.général Disque dur défaillant ?

Posté par  (site web personnel) .
Étiquettes :
0
21
avr.
2008
Bonjour,
Pour commencer, il y a quelques semaines déjà, un fichier de dpkg était corrompu : juste un petit octet qui s'était transformé en quelque chose d'autre. L'ayant corrigé à la main, je me suis pas plus inquiété que ça.

Et là, hier, c'était la catastrophe...
J'ai décidé de télécharger les 5 DVDs de debian testing pour une installation offline dans un coin reculé, pendant les vacances...
J'ai téléchargé le premier et le second DVD par HTTP, et le 3ème via jigdo.
Pour les trois, même verdict : les sommes MD5 ne correspondaient pas.
J'ai re-téléchargé le premier DVD et... somme MD5 inédite...
J'ai copié le deuxième DVD vers un autre fichier et... somme MD5 inédite.
Dans le doute, j'ai copié un petit fichier, les sommes MD5 correspondent.
J'ai re-vérifié la somme MD5 du deuxième DVD, la somme était celle d'avant.
Déduction : md5sum ne se trompe pas, et moi, j'ai un sérieux problème pour écrire sur mon DD.

De plus, j'ai eu à nouveau une corruption d'un fichier de dpkg : un « 2 » a remplacé un « : » dans je ne sais plus quel fichier.

Donc, comment être sûr que ça viens du DD ? Qu'il foire en écriture mais pas en lecture n'est-il pas étrange ? De quoi ça viendrait d'autre ? Que faire ( mis à part un backup sur un autre disque, ce que je viens de faire ) ?

Voici ce que SMART me dit ( j'ai pas lancé de test faut que je cherche comment faire ) :

smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 100 100 046 Pre-fail Always - 214740
2 Throughput_Performance 0x0005 100 100 030 Pre-fail Offline - 40370176
3 Spin_Up_Time 0x0003 100 100 025 Pre-fail Always - 1
4 Start_Stop_Count 0x0032 099 099 000 Old_age Always - 1744
5 Reallocated_Sector_Ct 0x0033 100 100 024 Pre-fail Always - 8589934592000
7 Seek_Error_Rate 0x000f 100 100 047 Pre-fail Always - 1045
8 Seek_Time_Performance 0x0005 100 100 019 Pre-fail Offline - 0
9 Power_On_Seconds 0x0032 087 087 000 Old_age Always - 6855h+41m+56s
10 Spin_Retry_Count 0x0013 100 100 020 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 1540
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 107
193 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 7471
194 Temperature_Celsius 0x0022 100 100 000 Old_age Always - 39 (Lifetime Min/Max 15/49)
195 Hardware_ECC_Recovered 0x001a 100 100 000 Old_age Always - 25266
196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 447741952
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x000f 100 100 060 Pre-fail Always - 32078
203 Run_Out_Cancel 0x0002 100 100 000 Old_age Always - 2628526078328


Mon système d'exploitation : Debian GNU/Linux, à cheval entre testing, unstable et experimental, avec surtout du testing en fait.
Version du noyau : 2.6.24-1-686
Options de montage de la partition /home ( ext3 ) qui merde : defaults,relatime.
Le /, qui contient les fichiers de dpkg qui ont été par deux fois corrompus, est sur le même disque dur, et a les mêmes options de montage, avec un errors=remount-ro en plus.
  • # bjr

    Posté par  . Évalué à -4.

    bjr

    tenter d'installer avec des iso dont le md5 est invalide est une erreur,
    si ta ligne est pourrie, tu peux tenter de forcer le débit à être faible pour le téléchargement, avec certains softs de téléchargements ou/et de FTP), et surtout à le faire avec le moins d'activité machine possible, (init 3 et tous services fermés à part les services réseaux).
  • # Problème de mémoire ?

    Posté par  . Évalué à 3.

    Bonjour,

    je ne sais pas trop lire la sortie de smartctl, mais selon la description de ton problème, c'est plutôt la mémoire qui pose problème. Eventuellement la carte-mère, et très peu probablement le processeur.

    Le disque-dur est quasiment hors de cause (cela dit, ce n'est pas 100% exclus).

    A tout hasard fait tourner memtest pendant une nuit.
    • [^] # Re: Problème de mémoire ?

      Posté par  (site web personnel) . Évalué à 1.

      Je ne vois pas pourquoi ce serait plus la mémoire que le disque dur ( utiliser cp ou wget ne devrait pas beaucoup utiliser la RAM, si ? Enfin, pas plus que md5sum ? ).
      Ceci dit, j'essaierai memtest quand SMART aura fini son test long.
      • [^] # tu as des outils bien étonnants

        Posté par  . Évalué à 3.

        cp et wget n'utilisent pas la mémoire ? Ah...

        Si tu ne vois pas pourquoi ce n'est pas le disque-dur, c'est que tu ne sais pas comment ça fonctionne. Ce n'est pas grave en soit, mais ça fait deux problèmes de connaissance dans la même phrase :-)

        Comment dire sans être trop méchant... Hum... Disons que tu vas d'abord faire ton memtest et ensuite tu reviendras dire que j'avais tort.
        • [^] # Re: tu as des outils bien étonnants

          Posté par  (site web personnel) . Évalué à 2.

          J'ai pas dit que tu avais tort, mais que je pensais pas que ce soit la RAM... Mais je vais quand même tester, quand SMART aura fini ( d'ici une heure ).
          Et j'espère que tu as raison, parce que ce serait quand même moins chiant, une barette de RAM qui foire, qu'un disque dur ;)
          • [^] # Re: tu as des outils bien étonnants

            Posté par  . Évalué à 3.

            Il n'empêche que dans tous les cas, tu ne peux plus faire confiance aux données de ton disque.

            Soit le disque a un problème (très peu probable à mon avis) donc poubelle après récupération des données, soit il est bon mais ce qui est dessus est douteux. Dans tous les cas tu es bon pour une sauvegarde sur un autre support, réinstallation de l'OS et recopie des données en sachant qu'elles peuvent être corrompue.

            Si memtest te donnes des erreurs, ça peut venir de la mémoire ou de la carte-mère (éventuellement du processeur, mais je n'ai pour le moment jamais vu cela). Pour savoir si c'est l'un ou l'autre qui pose problème, c'est plus délicat :-)
            Si tu as 2 barettes de mémoire, refait le test avec une seule, puis avec l'autre. Si l'erreur disparaît alors c'est la carte-mère (ou les réglages dans le BIOS). Si l'erreur est toujours là ça ne prouve rien, la bonne blague. Il te faut alors faire le test avec d'autres mémoires.
            • [^] # Re: tu as des outils bien étonnants

              Posté par  (site web personnel) . Évalué à 1.

              Le backup est déjà fait et a l'air de correspondre à ce qu'il ya sur mon disque au moment présent.
              Je suis pas très chaud pour une réinstallation, mais si c'est à faire, je le ferait.

              Pour memtest, je ne pourrait faire qu'un test sans casser la garantie ( laptop, pas le droit d'ouvrir là où y a la RAM ).

              Ah, aussi, niveau températures : le DD est autour de 40°C à peu près tout le temps ( en dessous de 50°C dans le pire des cas il me semble ), par contre, le CPU chauffe très vite. J'ai eu des pointes à plus de 90°C ( mais c'est quand les deux cœurs sont à 100% ). Maintenant, donc plus ou moins au repos, le CPU est à 57°C ).
              • [^] # Re: tu as des outils bien étonnants

                Posté par  (site web personnel) . Évalué à 2.

                Bravo, tu as bien trouvé... 10 minutes de memtest, et 3 erreurs différentes :
                Tst : 4 ; Failing : 00000accd14 - 10.7MB ; Err-Bits : 00080000 ; Count : 43
                Tst : 5 ; Failing : 00000accd10 - 10.7MB ; Err-Bits : 00080000 ; Count : 1
                Tst : 6 ; Failing : 00000accd14 - 10.7MB ; Err-Bits : 00080000 ; Count : 36
                Là, mon PC étant très chaud ( 5 minutes de ventilo après, gkrellm m'affiche 65°C pour le CPU ), j'ai arrêté le memtest, pour éviter de flinguer autre chose...

                SMART n'a trouvé aucune erreur sur le disque.
                • [^] # Re: tu as des outils bien étonnants

                  Posté par  . Évalué à 2.

                  Attends que ça refroidisse, refait un memtest pour voir si ça bloque au méme endroit. Puis re-refait un memtest après par exemple 2 minutes de refroidissement. Si l'erreur n'est pas au même endroit, c'est très probablement la carte-mère. Dans ce cas, aïe aïe, il faut faire joujou avec le SAV, pas marrant.
                  Si c'est "juste" la mémoire, le plus simple est d'en acheter. Ca te coûtera à peine plus cher que les frais de port et de téléphone pour retourner ton portable au SAV.
                  • [^] # Re: tu as des outils bien étonnants

                    Posté par  (site web personnel) . Évalué à 1.

                    J'ai fait deux memtest de quelques minutes et je n'ai relevé que Failing Address et Err-Bits : respectivement 00000accd14 et 00080000, soit les même que la première fois.
                    J'en déduis que c'est « juste » la mémoire... Mais si je la change moi-même ça fait sauter la garantie ( qui, il me semble, devrait durer encore un an ).
                    Donc la première chose que je vais faire c'est d'essayer de retrouver toute cette paperasse...
                    Merci encore pour les conseils :)
                  • [^] # Re: tu as des outils bien étonnants

                    Posté par  (site web personnel) . Évalué à 1.

                    Bon, ça part en réparations demain...
                    Par contre faudra les convaincre de pas formatter parce que vu que la mémoire est corrompue, y a des chances que le backup soit pas identique à l'original...
                    Dans tous les cas, je referait probablement une réinstallation du système ( mon /home est à part ), on sait jamais ce qui a pu être corrompu dedans.
          • [^] # Plein de possibilités !

            Posté par  (site web personnel) . Évalué à 3.

            La corruption de donnés peut provenir de la RAM, du disque dure (mais j'aurais tendance à l'exclure vu la quantité de correction possible), le cablage, mais aussi un bug dma ou du contrôleur disque (fake raid?).

            Bref, cela peut être plein de choses. Il faut aussi vérifier les messages d'insulte IDE qui pourrait se trouver dans les logs.

            Le type de la machine, son age, pourrait aidé. Est-ce que tu viens de faire un upgrade ou pas ? (si elle est ressente, cela peut être un bug d'incompatibilité entre périphérique, essaye dans ce cas de virer l'utilisation des DMA par exemple ). A-t-elle plus de 4Go de RAM? c'est pas courant et cela semble parfois poser problème. En 64 bits ?

            "La première sécurité est la liberté"

            • [^] # Re: Plein de possibilités !

              Posté par  (site web personnel) . Évalué à 1.

              Je n'ai pas de RAID ( ni matériel ni logiciel )...

              Ma machine est un portable ( ASUS A8Jm ), date d'il y a un peu moins de deux ans...
              Je suis sous debian depuis un moment déjà ( je ne saurai pas dire exactement, mais depuis plusieurs mois ).
              Pour l'upgrade, euh, la dernière MàJ du noyau date déjà d'un moment, mais d'après la première corruption que j'ai constaté je crois...
              Ma machine à 1GO de RAM.
              Mon CPU est un dualcore d'intel, en 32 bits.
      • [^] # Re: Problème de mémoire ?

        Posté par  (site web personnel) . Évalué à 2.

        J'ai eu un problème similaire il y a quelques mois : erreurs de checksum lorsque j'essayais de ripper des CD.

        Après diverses manipulations, j'ai découvert que le problème ne survenait que lorsque je manipulais de fichiers de plusieurs dizaines de Mo (copie, téléchargement).
        En effectuant un million de copies d'un même petit fichier, je n'avais pas de problème ; par contre, une simple copie d'un gros fichier échouait systématiquement.

        Le disque dur n'était a priori pas fautif, et un memtest a immédiatement révélé la cause du problème.
        En fonctionnement normal, je suppose que les régions défectueuses de la RAM n'étaient pas utilisées.
  • # Smart rigolo

    Posté par  . Évalué à 3.

    La sortie de smart est "comique".

    Tu as supprimé l'entête qui indique si le disque est connu et sa référence. Tous les indicateurs smart sont au vert, le disque se considère en bonne santé.

    Reallocated_Sector_Ct a une valeur brute de 8589934592000; c'est normalement le nombre de secteur réalloué. Les autres valeurs de la ligne (100 et 24) disent que le disque ne considère pas la valeur comme alarmante.

    Reallocated_Event_Count a une valeur de 447741952 qui est aussi délirante.

    Current_Pending_Sector vaut 0; ce sont les secteurs défectueux en attente de réallocation. Cette valeur est encore plus étonnant. Normalement lorsqu'on a des centaines de secteurs défectueux, il y en a toujours une partie que l'on a essayé de lire et qu'on n'a pas encore écrit, donc qui sont en attente de ré-allocation.

    J'ai toujours vu les disques partir de 0 pour Reallocated_Sector_Ct et augmenter doucement, à partir de 3, je change le disque.

    Start_Stop_Count, nombre d'allumage du disque, vaut 1744, ce qui n'est pas très élevée, mais le disque est loin d'être neuf.

    Power_On_Seconds vaut 6855h+41m+56s, soit 280 jours de fonctionnement.
    • [^] # Re: Smart rigolo

      Posté par  . Évalué à 3.

      J'ai toujours aimé les "normes" qui ne sont pas utilisables. Smart en est un exemple :-(

      Chaque disque et/ou constructeur n'a pas les données aux mêmes endroits, c'est la fête. On est obligé d'avoir une base de données recensant les disques et la manière d'interpréter les données.

      L'exemple copié/collé ici illustre parfaitement cela.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.