Forum général.général Disque dur en train de mourir ?

Posté par PoFMaN le 02 février 2010 à 10:43.

Étiquettes : aucune

fév.

2010

J'ai eu un nouveau disque et j'ai voulu m'en servir pour faire du raid1 avec l'autre.

J'ai donc créé un array avec seulement une partition du nouveau disque, je l'ai découpé avec lvm et j'ai partitionné les volumes logiques en ext4 (ça devrait être stable maintenant et j'en avait marre des fsck trop longs).

Ensuite j'ai copié mon système sur ce nouveau disque, j'ai booté dessus et tout a bien marché. Le lendemain il a pas fallu plus de 10 minutes avant d'avoir des erreurs de lecture dans dmesg et un système complètement inutilisable (tout accès disque échoue, impossible de faire un su par exemple). Après quelques essai, j'ai déplacé le disque dans la tour et contre toute attente tout à bien marché pendant deux semaine.

Et hier soir ça a recommencé avec des messages comme ceci:



[  719.665719] ata5.01: exception Emask 0x10 SAct 0x0 SErr 0x280100 action 0x0

[  719.665724] ata5.01: SError: { UnrecovData 10B8B BadCRC }

[  719.665727] ata5.01: failed command: READ DMA

[  719.665733] ata5.01: cmd c8/00:a0:8f:45:9d/00:00:00:00:00/f2 tag 0 dma 81920 in

[  719.665734]          res 51/84:1f:10:46:9d/00:00:00:00:00/f2 Emask 0x30 (host bus error)

[  719.665737] ata5.01: status: { DRDY ERR }

[  719.665739] ata5.01: error: { ICRC ABRT }

[  719.665748] ata5.00: hard resetting link

[  719.984013] ata5.01: hard resetting link

[  720.460071] ata5.00: SATA link up 3.0 Gbps (SStatus 123 SControl 300)

[  720.460084] ata5.01: SATA link up 3.0 Gbps (SStatus 123 SControl 300)

[  720.493549] ata5.00: configured for UDMA/133

[  720.502235] ata5.01: configured for UDMA/133

[  720.502276] ata5: EH complete



[...]



[  760.665375] sd 4:0:1:0: [sdb] Unhandled error code

[  760.665379] sd 4:0:1:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK

[  760.665383] sd 4:0:1:0: [sdb] CDB: Read(10): 28 00 02 a0 f3 4f 00 00 80 00

[  760.665391] end_request: I/O error, dev sdb, sector 44102479



[...]



[  760.665936] Buffer I/O error on device dm-1, logical block 68400354

[  760.665938] lost page write due to I/O error on dm-1

[  760.665943] Buffer I/O error on device dm-1, logical block 68400355

[  760.665945] lost page write due to I/O error on dm-1



[...]



[  760.666519] Aborting journal on device dm-1-8.

[  760.666541] JBD2: Detected IO errors while flushing file data on dm-0-8

[  760.666558] Aborting journal on device dm-0-8.

[  760.666571] EXT4-fs (dm-0): delayed block allocation failed for inode 1705290 at logical offset 139 with max blocks 5 with error -30

[  760.666575] 

[  760.666576] This should not happen!!  Data will be lost

[  760.666586] EXT4-fs error (device dm-0) in ext4_da_writepages: Journal has aborted

[  760.666588] EXT4-fs (dm-0): Remounting filesystem read-only



[...]



[  760.666855] JBD2: I/O error detected when updating journal superblock for dm-0-8.

[  760.666900] EXT4-fs (dm-1): ext4_da_writepages: jbd2_start: 1018 pages, ino 9738622; err -30

[  760.666904] 

[  760.666908] EXT4-fs error (device dm-1): ext4_journal_start_sb: Detected aborted journal

[  760.666911] EXT4-fs (dm-1): Remounting filesystem read-only

[  760.666914] EXT4-fs (dm-1): ext4_da_writepages: jbd2_start: 8144 pages, ino 9738623; err -30

[  760.666917] 

[  760.667303] EXT4-fs (dm-0): ext4_da_writepages: jbd2_start: 993 pages, ino 1705290; err -30

[  760.667307] 



[...]



[  760.667453] sd 4:0:1:0: [sdb] Unhandled error code

[  760.667455] sd 4:0:1:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK

[  760.667458] sd 4:0:1:0: [sdb] CDB: Write(10): 2a 00 00 04 24 17 00 00 08 00

[  760.667465] end_request: I/O error, dev sdb, sector 271383



[...]

Après que ces erreurs aient commencé, j'ai essayé smartctl mais il ne m'a pas dit grand chose:



$ smartctl -a /dev/sdb

smartctl 5.39 2009-12-09 r2995 [x86_64-unknown-linux-gnu] (local build)

Copyright (C) 2002-9 by Bruce Allen, http://smartmontools.sourceforge.net



Device: /4:0:1:0  Version: 

scsiModePageOffset: response length too short, resp_len=47 offset=50 bd_len=46

>> Terminate command early due to bad response to IEC mode page

A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.

$smartctl -T permissive -a /dev/sdb

smartctl 5.39 2009-12-09 r2995 [x86_64-unknown-linux-gnu] (local build)

Copyright (C) 2002-9 by Bruce Allen, http://smartmontools.sourceforge.net



Device: /4:0:1:0  Version: 

scsiModePageOffset: response length too short, resp_len=47 offset=50 bd_len=46

>> Terminate command early due to bad response to IEC mode page

Log Sense failed, IE page [scsi response fails sanity test]



Error Counter logging not supported

scsiModePageOffset: response length too short, resp_len=47 offset=50 bd_len=46

Device does not support Self Test logging

J'ai bien l'impression qu'il est en train de mourir mais je ne comprend pas pourquoi il a marché pendant deux semaine après que je l'ai déplacé dans ma tour.

La température dans la tour est entre 30 et 40°C d'après les valeurs retournées par sensors.

Est-ce qu'il est en train de mourir? Ou peut-il y avoir une autre cause?

Merci de votre aide.

# C'est grave docteur

Posté par Kerro le 02 février 2010 à 11:07. Évalué à 3.

Bonjour,

il y a plusieurs cause possibles. Pour valider l'hypothèse de la panne disque, il te faut lancer l'utilitaire du constructeur qui indique si et combien il y a de secteurs défectueux relogés, et d'autres choses comme ça.

Le problème vient éventuellement de la carte-mère (chipset) ou de la mémoire. C'est difficile à déterminer si la panne n'est pas flagrante. Un petit coup de memtest+ pendant une nuit aide à lever le doute, mais cela ne prouve rien concernant le chipset qui s'occupe des accès disques.

La "vraie" solution est de mettre le disque douteux dans une autre machine et d'attendre que la panne se reproduise. Si la panne se reproduit sur l'autre machine, c'est le disque. Si la panne se reproduit sur ta machine, c'est la carte-mère ou la mémoire.
Et parfois la panne ne se reproduit jamais, bien embêtant :-)

[^] # Re: C'est grave docteur

Posté par lom (site web personnel) le 02 février 2010 à 11:11. Évalué à 4.

il te faut lancer l'utilitaire du constructeur qui indique si et combien il y a de secteurs défectueux relogés

Ou alors smartmontools, ou l'interface graphique gsmartcontrol (c'est le nom des paquets debian) peut te dire ça sans problème. Ça m'a en effet déja permis de diagnostiquer un disque qui mourrait a grande vitesse.

[^] # Re: C'est grave docteur

Posté par PoFMaN le 02 février 2010 à 14:23. Évalué à 1.

Voilà après un peu de repos il remarche pendant un petit moment et j'ai pu faire un smartctl avant qu'il y ai ces erreurs et ça donne:

$ smartctl -a /dev/sdb
smartctl 5.39 2009-12-09 r2995 [x86_64-unknown-linux-gnu] (local build)
Copyright (C) 2002-9 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Caviar Black family
Device Model:     WDC WD7501AALS-00J7B1
Serial Number:    WD-WMAU00109245
Firmware Version: 05.00K05
User Capacity:    750 156 374 016 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   8
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Tue Feb  2 13:04:58 2010 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x84)	Offline data collection activity
					was suspended by an interrupting command from host.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		 (15480) seconds.
Offline data collection
capabilities: 			 (0x7b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   2) minutes.
Extended self-test routine
recommended polling time: 	 ( 180) minutes.
Conveyance self-test routine
recommended polling time: 	 (   5) minutes.
SCT capabilities: 	       (0x303f)	SCT Status supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   233   225   021    Pre-fail  Always       -       8316
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       271
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   100   253   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       808
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       256
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       38
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       271
194 Temperature_Celsius     0x0022   128   092   000    Old_age   Always       -       22
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   197   000    Old_age   Always       -       37
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%       803         -
# 2  Short offline       Completed without error       00%       798         -
# 3  Short offline       Completed without error       00%       795         -
# 4  Short offline       Completed without error       00%       780         -
# 5  Short offline       Completed without error       00%       757         -
# 6  Extended offline    Completed without error       00%       745         -
# 7  Extended offline    Aborted by host               60%       742         -
# 8  Conveyance offline  Completed without error       00%       740         -
# 9  Short offline       Completed without error       00%       740         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Si j'ai bien compris c'est quand VALUE passe en dessous de THRESH que c'est mauvais signe et là ça a l'air bon (mais il y a pas mal de valeurs avec THRESH à 0). Par contre je me pose des questions sur la valeur WORST de Seek_Error_Rate mais j'ai les même valeurs sur l'autre disque (même marque même gamme) qui n'a jamais eu un problème. Je ferais un test ce soir avec l'outil de western digital.

[^] # Re: C'est grave docteur

Posté par maxix le 02 février 2010 à 14:51. Évalué à 3.

5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 100 253 000 Old_age Always - 0
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0

Donc il n'y a que
199 UDMA_CRC_Error_Count 0x0032 200 197 000 Old_age Always - 37
qui présente des erreurs... Curieux, ca ne ressemble a aucun erreurs que j'ai déja pu voir.

Si le problème ne se pose après un petit temps de repos, je regarderais du coté de l'éléctronique, moins du coté des plateaux...
Change de nappe et de port, essaye une alim plus puissante si tu peux, et le test ultime se fait dans un autre PC avec un controleur différend.
- [^] # Re: C'est grave docteur
  
  Posté par PoFMaN le 03 février 2010 à 12:25. Évalué à 1.
  
  Les tests de western digital (que je soupçonne d'être les mêmes que ceux qu'on peut faire avec smartctl) n'ont trouvé aucune erreur.
  
  Ce matin, j'ai débranché mon ancien disque et j'ai branché seulement le nouveau avec les câbles qui étaient branchés sur l'ancien. Et il a l'air de tenir, mais en même temps il avait tenu deux semaines dans la configuration précédente...
  
  Pour l'alimentation, la mienne fait 550W je suppose que c'est assez pour deux disques sata + un lecteur ide + un core2quad + une ati HD4870 ?

[^] # Re: C'est grave docteur

Posté par Kerro le 03 février 2010 à 00:09. Évalué à 2.

après un peu de repos il remarche pendant un petit moment
Ca ressemble donc bien à un problème de disque. Probablement un problème de température.

Soit l'électronique de ton disque est limite (pas en panne mais presque), soit il fait vraiment trop chaud sur cette face de ta futur brique.

[^] # Re: C'est grave docteur

Posté par PoFMaN le 03 février 2010 à 12:35. Évalué à 1.

Pour ce qui est de la température maintenant:

$ sensors                                                                                                                                                                            <[11:34]>
coretemp-isa-0000
Adapter: ISA adapter
Core 0:      +46.0°C  (high = +74.0°C, crit = +100.0°C)  

coretemp-isa-0001
Adapter: ISA adapter
Core 1:      +45.0°C  (high = +74.0°C, crit = +100.0°C)  

coretemp-isa-0002
Adapter: ISA adapter
Core 2:      +41.0°C  (high = +74.0°C, crit = +100.0°C)  

coretemp-isa-0003
Adapter: ISA adapter
Core 3:      +46.0°C  (high = +74.0°C, crit = +100.0°C)  

f71882fg-isa-0a00
Adapter: ISA adapter
+3.3V:       +3.38 V
in1:         +1.14 V  (max =  +2.04 V)   
in2:         +1.40 V
in3:         +0.98 V
in4:         +1.08 V
in5:         +0.07 V
in6:         +0.10 V
3VSB:        +3.36 V
Vbat:        +3.23 V
fan1:       1413 RPM
fan2:          0 RPM  ALARM
fan3:          0 RPM  ALARM
fan4:          0 RPM  ALARM
temp1:       +35.0°C  (high = +85.0°C, hyst = +81.0°C)  
                      (crit = +100.0°C, hyst = +96.0°C)  sensor = transistor
temp2:       +41.0°C  (high = +85.0°C, hyst = +81.0°C)  
                      (crit = +100.0°C, hyst = +96.0°C)  sensor = transistor
temp3:         FAULT  (high = +70.0°C, hyst = +68.0°C)  
                      (crit = +85.0°C, hyst = +83.0°C)  sensor = transistor

Et les températures juste avant et pendant les erreurs de lectures étaient à peu-près pareilles.

# Si les deux disques durs sont identiques

Posté par GG (site web personnel) le 03 février 2010 à 17:46. Évalué à 3.

Bonjour,

si les deux disques durs sont identiques, alors quand l'un sera bien HS, tu pourras transférer les cartes électroniques, si c'est la carte électronique qui à lâché.

Je trouve que la température (au dessus de 45°c) est excessive, le mien est à 25°c en ce moment, et il ne dépasse pas les 38°c l'été, et atteint rarement les 35°c.

Les hautes températures, c'est pas bon pour l'électronique.
Pareil, en dessous de 10°c pour le matos qui n'est pas prévu pour.

Profites-en pour faire des sauvegardes.

A bientôt
G
Pourquoi bloquer la publicité et les traqueurs : https://greboca.com/Pourquoi-bloquer-la-publicite-et-les-traqueurs.html

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.