Forum Linux.général Est-ce que mon disque dur est en train de crever?

Posté par . Licence CC by-sa
Tags :
3
12
juin
2013

Bonjour tout le monde!

Je suis sous Debian/Sid AMD64 avec quelques paquets expérimentaux.

J'ai ça toutes les ~2h, mais pas avec une exactitude d'horloge:

Jun 12 09:04:52 toutatis kernel: [749627.411567] ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
Jun 12 09:04:52 toutatis kernel: [749627.411574] ata1.00: failed command: READ DMA EXT
Jun 12 09:04:52 toutatis kernel: [749627.411581] ata1.00: cmd 25/00:00:9b:7b:08/00:01:41:00:00/e0 tag 0 dma 131072 in
Jun 12 09:04:52 toutatis kernel: [749627.411581]          res 40/00:03:00:00:00/00:00:00:00:00/b0 Emask 0x4 (timeout)
Jun 12 09:04:52 toutatis kernel: [749627.411584] ata1.00: status: { DRDY }
Jun 12 09:04:52 toutatis kernel: [749627.411604] ata1.00: hard resetting link
Jun 12 09:04:52 toutatis kernel: [749627.731547] ata1.01: hard resetting link
Jun 12 09:04:52 toutatis kernel: [749633.247436] ata1.00: link is slow to respond, please be patient (ready=0)
Jun 12 09:04:52 toutatis kernel: [749637.447344] ata1.00: SRST failed (errno=-16)
Jun 12 09:04:52 toutatis kernel: [749637.447356] ata1.00: hard resetting link
Jun 12 09:04:52 toutatis kernel: [749637.767353] ata1.01: hard resetting link
Jun 12 09:04:52 toutatis kernel: [749643.283245] ata1.00: link is slow to respond, please be patient (ready=0)
Jun 12 09:04:52 toutatis kernel: [749647.487166] ata1.00: SRST failed (errno=-16)
Jun 12 09:04:52 toutatis kernel: [749647.487178] ata1.00: hard resetting link
Jun 12 09:04:52 toutatis kernel: [749647.807160] ata1.01: hard resetting link
Jun 12 09:04:52 toutatis kernel: [749651.307147] ata1.00: SATA link up 3.0 Gbps (SStatus 123 SControl 330)
Jun 12 09:04:52 toutatis kernel: [749651.307173] ata1.01: SATA link up 1.5 Gbps (SStatus 113 SControl 330)
Jun 12 09:04:52 toutatis kernel: [749651.419516] ata1.00: configured for UDMA/133
Jun 12 09:04:52 toutatis kernel: [749651.435299] ata1.01: configured for UDMA/100
Jun 12 09:04:52 toutatis kernel: [749651.436911] ata1.00: device reported invalid CHS sector 0
Jun 12 09:04:52 toutatis kernel: [749651.436919] ata1: EH complete

Alors là je me suis rendu compte que smartd était pas installé (ouai, bon, ça va hein!). Maintenant, en plus, j'ai ça:

Jun 12 09:04:53 toutatis smartd[9403]: Device: /dev/sda [SAT], 7 Currently unreadable (pending) sectors
Jun 12 09:04:53 toutatis smartd[9403]: Device: /dev/sda [SAT], 7 Offline uncorrectable sectors
Jun 12 09:04:53 toutatis smartd[9403]: Device: /dev/sda [SAT], SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 103 to 104

smartctl -t long: ne finit jamais:

smartctl -l selftest /dev/sda

smartctl 6.2 2013-04-20 r3812 [x86_64-linux-3.8-2-amd64] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Error Log Version: 1
No Errors Logged

matian@toutatis:~$ sudo smartctl -l selftest /dev/sda
smartctl 6.2 2013-04-20 r3812 [x86_64-linux-3.8-2-amd64] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Interrupted (host reset)      60%     18468         -
# 2  Extended offline    Aborted by host               90%     18379         -
# 3  Extended offline    Interrupted (host reset)      90%     18378         -
# 4  Extended offline    Interrupted (host reset)      70%     18377         -

smartctl -A

smartctl 6.2 2013-04-20 r3812 [x86_64-linux-3.8-2-amd64] (local build)
Copyright (C) 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   114   099   006    Pre-fail  Always       -       59602947
  3 Spin_Up_Time            0x0003   095   095   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   098   098   020    Old_age   Always       -       2267
  5 Reallocated_Sector_Ct   0x0033   038   038   036    Pre-fail  Always       -       2555
  7 Seek_Error_Rate         0x000f   082   060   030    Pre-fail  Always       -       186511169
  9 Power_On_Hours          0x0032   079   079   000    Old_age   Always       -       18474
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   099   099   020    Old_age   Always       -       1061
183 Runtime_Bad_Block       0x0032   083   083   000    Old_age   Always       -       17
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   097   000    Old_age   Always       -       1632112476931
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   063   053   045    Old_age   Always       -       37 (Min/Max 26/41)
194 Temperature_Celsius     0x0022   037   047   000    Old_age   Always       -       37 (0 8 0 0 0)
195 Hardware_ECC_Recovered  0x001a   036   022   000    Old_age   Always       -       59602947
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       7
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       7
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       42
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       146505629452876
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       3363299857
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       2384606680

Est-ce qu'un expert pourrait me dire si je dois changer de disque ou si c'est un bug? (j'ai utilisé le système un bon moment, c'est pas du neuf, mais avec le dégel, les mises-à-jour arrivent trop vite pour suivre chaque effect de chaque paquet).

Merci d'avance!

  • # Est-ce que mon disque dur est en train de crever?

    Posté par . Évalué à 6.

    5 Reallocated_Sector_Ct 0x0033 038 038 036 Pre-fail Always - 2555

    Oui si tu vois le chiffre brut (2555) augmenter à chaque fois.
    -> Si VALUE=38 passe sous THRESH=36 ton disque sera en Pre-fail.

    Quant aux link reset, j'en doute J'en vois sur mes machines aussi: cable, kernel, charge irq, ou chipset… va savoir.

    • [^] # Re: Est-ce que mon disque dur est en train de crever?

      Posté par . Évalué à 3.

      Bon vu que t'as fait tes sauvegardes et un live linux à portée de main(s),
      peut-être faire un scan de bad sectors sur tout le disque ?
      au moins la partition incriminée ?

    • [^] # Re: Est-ce que mon disque dur est en train de crever?

      Posté par . Évalué à 3.

      Ça augmente (2562 à l'instant).

      Merci pour avoir levé mes doutes!

      • [^] # Re: Est-ce que mon disque dur est en train de crever?

        Posté par . Évalué à 1.

        Idem, fait un test de secteurs défectueux avec fsck , mais clairement oui, je ne mettrais pas de données importantes sur ce disque à ta place.

        J'en est un qui fait pareil, fsck peu "flaguer" les secteurs défectueux , du coup je l'utilise pour des données non sensibles et il fonctionne correctement, m'enfin si il crame je ne serais pas étonné.
        Pour ma part les partitions ne sont pas montées automatiquement et le disque est éteint avec hdparm pour l'économiser un peu.

        Si tu veux faire un backup de tes partitions, un outil intéressant est ddrescue, qui fonctionne comme dd mais ne bloque pas sur les défaut de lectures.

        Avec ça j'ai pu faire un iso de mon disque HS, et récupérer mes données en lançant un fsck sur le fichier iso, alors que la partition n’était , de base, pas montable ( secteurs défectueux dans la "magic master table" ou un truc du genre, fsck a su retrouver un backup de ce truc copié plus loin sur le fs)

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.