Forum Linux.général smartmontool

Posté par  .
Étiquettes : aucune
0
10
mar.
2007
Salut,

suite à des ralentissements de copies de fichiers j'ai voulu tester la santé de mon disque dur avec smartmontool. Il semblerait qu'il y a plein d'erreurs d'après le rapport des tests mais j'ai du mal à les interpréter. Mon disque dur va t-il bientôt lâcher ? Un formatage de bas niveau résoudrait-il le problème ?
Merci de votre aide.

Voici le compte rendu

=== START OF READ SMART DATA SECTION ===
SMART Error Log Version: 1
ATA Error Count: 42063 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 42063 occurred at disk power-on lifetime: 15144 hours (631 days + 0 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 d7 a7 91 e0 Error: UNC at LBA = 0x0091a7d7 = 9545687

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 08 d0 a7 91 e0 00 05:49:20.439 READ DMA
c8 00 08 d0 a7 91 e0 00 05:49:16.803 READ DMA
ca 00 14 cb af 0d e1 00 05:49:16.803 WRITE DMA
ca 00 04 03 3f 00 e0 00 05:49:16.803 WRITE DMA
ca 00 04 fd 21 0e e1 00 05:49:16.803 WRITE DMA

Error 42062 occurred at disk power-on lifetime: 15144 hours (631 days + 0 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 d7 a7 91 e0 Error: UNC at LBA = 0x0091a7d7 = 9545687

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 08 d0 a7 91 e0 00 05:49:16.803 READ DMA
ca 00 14 cb af 0d e1 00 05:49:16.803 WRITE DMA
ca 00 04 03 3f 00 e0 00 05:49:16.803 WRITE DMA
ca 00 04 fd 21 0e e1 00 05:49:16.803 WRITE DMA
ca 00 02 a9 f1 0d e1 00 05:49:16.802 WRITE DMA

Error 42061 occurred at disk power-on lifetime: 15144 hours (631 days + 0 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 d7 a7 91 e0 Error: UNC at LBA = 0x0091a7d7 = 9545687

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 08 d0 a7 91 e0 00 05:49:13.170 READ DMA
ca 00 02 c9 af 0d e1 00 05:49:13.169 WRITE DMA
ca 00 08 6e 93 64 e0 00 05:49:13.169 WRITE DMA
ca 00 02 01 3f 00 e0 00 05:49:13.169 WRITE DMA
ca 00 0c bd af 0d e1 00 05:49:13.169 WRITE DMA

Error 42060 occurred at disk power-on lifetime: 15144 hours (631 days + 0 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 d7 a7 91 e0 Error: UNC at LBA = 0x0091a7d7 = 9545687

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 00 d0 a7 91 e0 00 05:49:09.501 READ DMA
c8 00 02 bb af 0d e1 00 05:49:09.473 READ DMA
ca 00 04 fd 3e 00 e0 00 05:49:09.472 WRITE DMA
ca 00 04 f7 11 0f e1 00 05:49:09.472 WRITE DMA
ca 00 12 ed 21 0e e1 00 05:49:09.472 WRITE DMA

Error 42059 occurred at disk power-on lifetime: 15144 hours (631 days + 0 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 d7 a7 91 e0 Error: UNC at LBA = 0x0091a7d7 = 9545687

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 80 d0 a7 91 e0 00 05:49:05.867 READ DMA
c8 00 80 50 a7 91 e0 00 05:49:05.866 READ DMA
c8 00 80 d0 a6 91 e0 00 05:49:05.865 READ DMA
c8 00 80 50 a6 91 e0 00 05:49:05.863 READ DMA
c8 00 80 d0 a5 91 e0 00 05:49:05.862 READ DMA
  • # smartmontool

    Posté par  . Évalué à 2.

    J'avoue que j'ai moi aussi du mal à interpréter ces informations.

    Dans le résultat de la commande smartctl -a /dev/hda, il doit aussi y avoir des lignes comme celles-ci (exemple pris à l'instant chez moi) :


    SMART Attributes Data Structure revision number: 16
    Vendor Specific SMART Attributes with Thresholds:
    ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
    1 Raw_Read_Error_Rate 0x000f 100 100 051 Pre-fail Always - 0
    3 Spin_Up_Time 0x0007 100 100 025 Pre-fail Always - 2688
    4 Start_Stop_Count 0x0032 085 085 000 Old_age Always - 15992
    5 Reallocated_Sector_Ct 0x0033 100 100 011 Pre-fail Always - 0
    7 Seek_Error_Rate 0x000e 100 100 000 Old_age Always - 0
    8 Seek_Time_Performance 0x0024 100 100 000 Old_age Offline - 0
    9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 102120
    10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
    12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 548
    191 G-Sense_Error_Rate 0x0012 100 100 000 Old_age Always - 275
    194 Temperature_Celsius 0x0022 124 100 000 Old_age Always - 38
    195 Hardware_ECC_Recovered 0x001a 100 100 000 Old_age Always - 2464477
    196 Reallocated_Event_Count 0x0032 100 100 000 Old_age Always - 0
    197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
    198 Offline_Uncorrectable 0x0030 100 100 000 Old_age Offline - 0
    199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
    200 Multi_Zone_Error_Rate 0x000a 100 100 000 Old_age Always - 0
    201 Soft_Read_Error_Rate 0x0012 100 100 000 Old_age Always - 0
    223 Load_Retry_Count 0x0012 100 100 000 Old_age Always - 180
    225 Load_Cycle_Count 0x0012 079 079 000 Old_age Always - 220295
    255 Unknown_Attribute 0x000a 100 100 000 Old_age Always - 0

    SMART Error Log Version: 1


    Les paramètres comme ceux que j'ai mis en gras peuvent être une bonne indication de la présence d'un problème.


    Mais problème ou pas, le seul conseil à suivre est : faire des sauvegardes régulières.

    Le plus souple étant un disque dur externe sur USB (d'un coût aujourd'hui raisonnable), sur lequel faire une sauvegarde régulière (lancée par crontab) avec la commande rsync, qui n'écrira que les modifications (la sauvegarde étant ainsi plus rapide).

    Même si la technologie SMART permet de détecter certaines anomalies, un disque dur peut lâcher définitivement sans le moindre signe avant coureur.
    • [^] # Re: smartmontool

      Posté par  (site web personnel) . Évalué à 2.

      J'avais lu un article dans un magazine y a peu.

      En gros ceux qui sont marqué en pré-fail sont les donnée que le fabricant de disque dur juge comme allant lâcher avant la fin de durée de vie d'un disque dur.
      (qui sont trop haute quoi.)

      Bon, il me faudrais l'article en question pour me rappeler la signification des trois champs :
      VALUE WORST THRESH
      (en gros quand un passe au dessus de l'autre, c'est que le disque va lâcher)

      A ce moment là, la colonne WHEN_FAILED se change en NOW (ou autre, enfin plus moins) et c'est que le disque dur est mort (et doit être dumpé et jeté/renvoyé en garantie).

      J'ai déjà vu ça sur le pc d'un oncle, le nombre de secteur ré-allouable avait atteins le nombre maxi.

      Résultat winXP voulais plus booter comme un con (et restait tout noir).

      Après une petite gravure d'un cd avec ses photos (grace au livecd One mandriva qui a k3b), il a pu renvoyer le pc a la maintenance pour remplacement de disque dur...
      • [^] # Re: smartmontool

        Posté par  . Évalué à 1.

        En gros ceux qui sont marqué en pré-fail sont les donnée que le fabricant de disque dur juge comme allant lâcher avant la fin de durée de vie d'un disque dur.

        Le problème, c'est qu'apparement ces valeurs peuvent être remplies n'importe comment. Comme par hasard à 100, ou 0.

        Résultat, un disque neuf peut avoir déjà atteint ces valeurs. Comme mon disque ci-dessus (qui n'est pas neuf non plus) ou tout est à "Pre-fail" ou "Old_age".

        Sur un autre disque, où j'ai carrément eu des pertes de données (sur le système, pas mon home), c'est au démarrage de la machine, que le bios du disque dur affichait un message d'avertissement sur une défaillance proche, et demandait d'appuyer une touche !
      • [^] # Re: smartmontool

        Posté par  . Évalué à 1.

    • [^] # Re: smartmontool

      Posté par  . Évalué à 1.

      voici le résultat du tableau en tapant la commande smartctl -a /dev/hda. Je vais lire de ce pas l'article sur lealinux
      ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
        1 Raw_Read_Error_Rate     0x000f   069   030   034    Pre-fail  Always   In_the_past 124103856
        3 Spin_Up_Time            0x0003   071   070   000    Pre-fail  Always       -       0
        4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       362
        5 Reallocated_Sector_Ct   0x0033   091   091   036    Pre-fail  Always       -       365
        7 Seek_Error_Rate         0x000f   036   027   030    Pre-fail  Always   In_the_past 203371186578319
        9 Power_On_Hours          0x0032   083   083   000    Old_age   Always       -       15458
       10 Spin_Retry_Count        0x0013   100   001   097    Pre-fail  Always   In_the_past 0
       12 Power_Cycle_Count       0x0032   099   099   020    Old_age   Always       -       1077
      194 Temperature_Celsius     0x0022   038   049   000    Old_age   Always       -       38
      195 Hardware_ECC_Recovered  0x001a   069   030   000    Old_age   Always       -       124103856
      197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       5
      198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       5
      199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
      200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
      202 TA_Increase_Count       0x0032   048   201   000    Old_age   Always       -       52
      
      • [^] # Re: smartmontool

        Posté par  (site web personnel) . Évalué à 3.

        Donc c'est bien ça, quand Value pass au dessus de thresh, c'est mort...

        D'après ce que je vois, ce disque a la surface dead ou des soucis de tête de lecture...

        Pas de chance, backup + garantie recommandée...
      • [^] # Re: smartmontool

        Posté par  . Évalué à 3.

        le disque a été démarrer 362 fois et à fonctionné en tout pendant 15458 heures.

        Mais il est en mauvais était :
        - il y a une 365 secteur ré-alloués, un toutes les 42 heures de fonctionnement en moyenne, mais c'est peut être tous d'un coup (15458).
        - les problèmes que tu indiques dans le journal ont tous eu lieu à 15144 heures de fonctionnement. La il en est à 15458 heures soit ~13 jours de fonctionnement continu par rapport à moment des erreurs.
        - Seek_Error_Rate qui est très élevé, idem pour Hardware_ECC_Recovered (respectivement les problèmes pour trouver un secteur, et les erreurs de lecture du disque qui ont été corrigé par ECC)
        - Current_Pending_Sector et Offline_Uncorrectable qui sont non nul.

        Le log que tu indiques corresponds au 5 dernières erreurs, donc il y a peut être eu d'autres erreurs avant.

        Ce que je passe à la trappe :
        - les pre-fail j'y regarde pas trop : j'ai plus d'un disque en pre-fail alors qu'il fonctionne depuis des lustres sans problème.
        - le Raw_Read_Error_Rate qui est élevé alors qu' "apparement" il n'y a pas de soucis : sur plusieurs disque que j'ai vu il est élevé mais pas de soucis.
        - Temperature_Celsius : d'après une étude de Google (cf rechercher dans linux fr), la température ne pose pas de problème sauf quand elle est trop basse.

        Sur un disque de portable ou j'avais des
        READ DMA, après un formatage bas niveau, il allait bcp mieux (c'était la carte mère du portable qui avait un problème)

        Donc grouille toi de sauvegarder toutes tes informations (et c'est parce que ça marche là, qu'au prochain reboot ca marchera tjrs).
        • [^] # Re: smartmontool

          Posté par  . Évalué à 1.

          :)

          C'est ce que je me disais également pour les sauvegardes.

          Merci de vos commentaires. Vous confirmez tous ce que je craignais.

          sur un serveur ça serait balot tout de même de tout perdre. ^^
          • [^] # Re: smartmontool

            Posté par  . Évalué à 1.

            j'oubliais.

            Quels dossiers me conseillez vous de sauvegarder ?

            /etc/
            /home/
            /var/
            ...
            ...
            • [^] # Re: smartmontool

              Posté par  . Évalué à 2.

              Si tu ne sais pas quoi sauvegarder, alors sauvegarder la totalité : en fonction des distrib, de ce que les admins ont modifiés, de l'age du capitaine, des informations importantes peuvent être situées n'importe où. Donc dans le doute, tu backup tout.
              • [^] # Re: smartmontool

                Posté par  . Évalué à 1.

                heuuuu avec rsync ?

                et après pour restaurer ? à la mano ?

                Je n'ai jamais effectuer ce genre de manip auparavant
  • # Faire marcher la garantie avec smartmontool

    Posté par  . Évalué à 2.

    Petite question autour des problèmes de disque dur. Y'en a certains qui ont essayé de faire remplacer un disque sous garantie, à partir des alertes remontées par smartctl ?

    Si en tant qu'informaticien/linuxien, on peut être certains qu'un disque va lâcher à partir de ces infos, est-ce qu'un service après-vente accepteras de le prendre en charge, si aucune donnée n'est encore perdue ?

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.