suite à des ralentissements de copies de fichiers j'ai voulu tester la santé de mon disque dur avec smartmontool. Il semblerait qu'il y a plein d'erreurs d'après le rapport des tests mais j'ai du mal à les interpréter. Mon disque dur va t-il bientôt lâcher ? Un formatage de bas niveau résoudrait-il le problème ?
Merci de votre aide.
Voici le compte rendu
=== START OF READ SMART DATA SECTION ===
SMART Error Log Version: 1
ATA Error Count: 42063 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.
Error 42063 occurred at disk power-on lifetime: 15144 hours (631 days + 0 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 d7 a7 91 e0 Error: UNC at LBA = 0x0091a7d7 = 9545687
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 08 d0 a7 91 e0 00 05:49:20.439 READ DMA
c8 00 08 d0 a7 91 e0 00 05:49:16.803 READ DMA
ca 00 14 cb af 0d e1 00 05:49:16.803 WRITE DMA
ca 00 04 03 3f 00 e0 00 05:49:16.803 WRITE DMA
ca 00 04 fd 21 0e e1 00 05:49:16.803 WRITE DMA
Error 42062 occurred at disk power-on lifetime: 15144 hours (631 days + 0 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 d7 a7 91 e0 Error: UNC at LBA = 0x0091a7d7 = 9545687
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 08 d0 a7 91 e0 00 05:49:16.803 READ DMA
ca 00 14 cb af 0d e1 00 05:49:16.803 WRITE DMA
ca 00 04 03 3f 00 e0 00 05:49:16.803 WRITE DMA
ca 00 04 fd 21 0e e1 00 05:49:16.803 WRITE DMA
ca 00 02 a9 f1 0d e1 00 05:49:16.802 WRITE DMA
Error 42061 occurred at disk power-on lifetime: 15144 hours (631 days + 0 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 d7 a7 91 e0 Error: UNC at LBA = 0x0091a7d7 = 9545687
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 08 d0 a7 91 e0 00 05:49:13.170 READ DMA
ca 00 02 c9 af 0d e1 00 05:49:13.169 WRITE DMA
ca 00 08 6e 93 64 e0 00 05:49:13.169 WRITE DMA
ca 00 02 01 3f 00 e0 00 05:49:13.169 WRITE DMA
ca 00 0c bd af 0d e1 00 05:49:13.169 WRITE DMA
Error 42060 occurred at disk power-on lifetime: 15144 hours (631 days + 0 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 d7 a7 91 e0 Error: UNC at LBA = 0x0091a7d7 = 9545687
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 00 d0 a7 91 e0 00 05:49:09.501 READ DMA
c8 00 02 bb af 0d e1 00 05:49:09.473 READ DMA
ca 00 04 fd 3e 00 e0 00 05:49:09.472 WRITE DMA
ca 00 04 f7 11 0f e1 00 05:49:09.472 WRITE DMA
ca 00 12 ed 21 0e e1 00 05:49:09.472 WRITE DMA
Error 42059 occurred at disk power-on lifetime: 15144 hours (631 days + 0 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 d7 a7 91 e0 Error: UNC at LBA = 0x0091a7d7 = 9545687
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 80 d0 a7 91 e0 00 05:49:05.867 READ DMA
c8 00 80 50 a7 91 e0 00 05:49:05.866 READ DMA
c8 00 80 d0 a6 91 e0 00 05:49:05.865 READ DMA
c8 00 80 50 a6 91 e0 00 05:49:05.863 READ DMA
c8 00 80 d0 a5 91 e0 00 05:49:05.862 READ DMA
# smartmontool
Posté par Jllc . Évalué à 2.
Dans le résultat de la commande smartctl -a /dev/hda, il doit aussi y avoir des lignes comme celles-ci (exemple pris à l'instant chez moi) :
Les paramètres comme ceux que j'ai mis en gras peuvent être une bonne indication de la présence d'un problème.
Mais problème ou pas, le seul conseil à suivre est : faire des sauvegardes régulières.
Le plus souple étant un disque dur externe sur USB (d'un coût aujourd'hui raisonnable), sur lequel faire une sauvegarde régulière (lancée par crontab) avec la commande rsync, qui n'écrira que les modifications (la sauvegarde étant ainsi plus rapide).
Même si la technologie SMART permet de détecter certaines anomalies, un disque dur peut lâcher définitivement sans le moindre signe avant coureur.
[^] # Re: smartmontool
Posté par Raphaël G. (site web personnel) . Évalué à 2.
En gros ceux qui sont marqué en pré-fail sont les donnée que le fabricant de disque dur juge comme allant lâcher avant la fin de durée de vie d'un disque dur.
(qui sont trop haute quoi.)
Bon, il me faudrais l'article en question pour me rappeler la signification des trois champs :
VALUE WORST THRESH
(en gros quand un passe au dessus de l'autre, c'est que le disque va lâcher)
A ce moment là, la colonne WHEN_FAILED se change en NOW (ou autre, enfin plus moins) et c'est que le disque dur est mort (et doit être dumpé et jeté/renvoyé en garantie).
J'ai déjà vu ça sur le pc d'un oncle, le nombre de secteur ré-allouable avait atteins le nombre maxi.
Résultat winXP voulais plus booter comme un con (et restait tout noir).
Après une petite gravure d'un cd avec ses photos (grace au livecd One mandriva qui a k3b), il a pu renvoyer le pc a la maintenance pour remplacement de disque dur...
[^] # Re: smartmontool
Posté par Jllc . Évalué à 1.
Le problème, c'est qu'apparement ces valeurs peuvent être remplies n'importe comment. Comme par hasard à 100, ou 0.
Résultat, un disque neuf peut avoir déjà atteint ces valeurs. Comme mon disque ci-dessus (qui n'est pas neuf non plus) ou tout est à "Pre-fail" ou "Old_age".
Sur un autre disque, où j'ai carrément eu des pertes de données (sur le système, pas mon home), c'est au démarrage de la machine, que le bios du disque dur affichait un message d'avertissement sur une défaillance proche, et demandait d'appuyer une touche !
[^] # Re: smartmontool
Posté par Mailik . Évalué à 1.
[^] # Re: smartmontool
Posté par zekicker . Évalué à 1.
[^] # Re: smartmontool
Posté par Raphaël G. (site web personnel) . Évalué à 3.
D'après ce que je vois, ce disque a la surface dead ou des soucis de tête de lecture...
Pas de chance, backup + garantie recommandée...
[^] # Re: smartmontool
Posté par _alex . Évalué à 3.
Mais il est en mauvais était :
- il y a une 365 secteur ré-alloués, un toutes les 42 heures de fonctionnement en moyenne, mais c'est peut être tous d'un coup (15458).
- les problèmes que tu indiques dans le journal ont tous eu lieu à 15144 heures de fonctionnement. La il en est à 15458 heures soit ~13 jours de fonctionnement continu par rapport à moment des erreurs.
- Seek_Error_Rate qui est très élevé, idem pour Hardware_ECC_Recovered (respectivement les problèmes pour trouver un secteur, et les erreurs de lecture du disque qui ont été corrigé par ECC)
- Current_Pending_Sector et Offline_Uncorrectable qui sont non nul.
Le log que tu indiques corresponds au 5 dernières erreurs, donc il y a peut être eu d'autres erreurs avant.
Ce que je passe à la trappe :
- les pre-fail j'y regarde pas trop : j'ai plus d'un disque en pre-fail alors qu'il fonctionne depuis des lustres sans problème.
- le Raw_Read_Error_Rate qui est élevé alors qu' "apparement" il n'y a pas de soucis : sur plusieurs disque que j'ai vu il est élevé mais pas de soucis.
- Temperature_Celsius : d'après une étude de Google (cf rechercher dans linux fr), la température ne pose pas de problème sauf quand elle est trop basse.
Sur un disque de portable ou j'avais des
READ DMA, après un formatage bas niveau, il allait bcp mieux (c'était la carte mère du portable qui avait un problème)
Donc grouille toi de sauvegarder toutes tes informations (et c'est parce que ça marche là, qu'au prochain reboot ca marchera tjrs).
[^] # Re: smartmontool
Posté par zekicker . Évalué à 1.
C'est ce que je me disais également pour les sauvegardes.
Merci de vos commentaires. Vous confirmez tous ce que je craignais.
sur un serveur ça serait balot tout de même de tout perdre. ^^
[^] # Re: smartmontool
Posté par zekicker . Évalué à 1.
Quels dossiers me conseillez vous de sauvegarder ?
/etc/
/home/
/var/
...
...
[^] # Re: smartmontool
Posté par _alex . Évalué à 2.
[^] # Re: smartmontool
Posté par zekicker . Évalué à 1.
et après pour restaurer ? à la mano ?
Je n'ai jamais effectuer ce genre de manip auparavant
# Faire marcher la garantie avec smartmontool
Posté par Jllc . Évalué à 2.
Si en tant qu'informaticien/linuxien, on peut être certains qu'un disque va lâcher à partir de ces infos, est-ce qu'un service après-vente accepteras de le prendre en charge, si aucune donnée n'est encore perdue ?
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.