Forum général.général Disque dur en train de mourir ?

Posté par  .
Étiquettes : aucune
0
2
fév.
2010
J'ai eu un nouveau disque et j'ai voulu m'en servir pour faire du raid1 avec l'autre.

J'ai donc créé un array avec seulement une partition du nouveau disque, je l'ai découpé avec lvm et j'ai partitionné les volumes logiques en ext4 (ça devrait être stable maintenant et j'en avait marre des fsck trop longs).

Ensuite j'ai copié mon système sur ce nouveau disque, j'ai booté dessus et tout a bien marché. Le lendemain il a pas fallu plus de 10 minutes avant d'avoir des erreurs de lecture dans dmesg et un système complètement inutilisable (tout accès disque échoue, impossible de faire un su par exemple). Après quelques essai, j'ai déplacé le disque dans la tour et contre toute attente tout à bien marché pendant deux semaine.

Et hier soir ça a recommencé avec des messages comme ceci:

[ 719.665719] ata5.01: exception Emask 0x10 SAct 0x0 SErr 0x280100 action 0x0
[ 719.665724] ata5.01: SError: { UnrecovData 10B8B BadCRC }
[ 719.665727] ata5.01: failed command: READ DMA
[ 719.665733] ata5.01: cmd c8/00:a0:8f:45:9d/00:00:00:00:00/f2 tag 0 dma 81920 in
[ 719.665734] res 51/84:1f:10:46:9d/00:00:00:00:00/f2 Emask 0x30 (host bus error)
[ 719.665737] ata5.01: status: { DRDY ERR }
[ 719.665739] ata5.01: error: { ICRC ABRT }
[ 719.665748] ata5.00: hard resetting link
[ 719.984013] ata5.01: hard resetting link
[ 720.460071] ata5.00: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[ 720.460084] ata5.01: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[ 720.493549] ata5.00: configured for UDMA/133
[ 720.502235] ata5.01: configured for UDMA/133
[ 720.502276] ata5: EH complete

[...]

[ 760.665375] sd 4:0:1:0: [sdb] Unhandled error code
[ 760.665379] sd 4:0:1:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
[ 760.665383] sd 4:0:1:0: [sdb] CDB: Read(10): 28 00 02 a0 f3 4f 00 00 80 00
[ 760.665391] end_request: I/O error, dev sdb, sector 44102479

[...]

[ 760.665936] Buffer I/O error on device dm-1, logical block 68400354
[ 760.665938] lost page write due to I/O error on dm-1
[ 760.665943] Buffer I/O error on device dm-1, logical block 68400355
[ 760.665945] lost page write due to I/O error on dm-1

[...]

[ 760.666519] Aborting journal on device dm-1-8.
[ 760.666541] JBD2: Detected IO errors while flushing file data on dm-0-8
[ 760.666558] Aborting journal on device dm-0-8.
[ 760.666571] EXT4-fs (dm-0): delayed block allocation failed for inode 1705290 at logical offset 139 with max blocks 5 with error -30
[ 760.666575]
[ 760.666576] This should not happen!! Data will be lost
[ 760.666586] EXT4-fs error (device dm-0) in ext4_da_writepages: Journal has aborted
[ 760.666588] EXT4-fs (dm-0): Remounting filesystem read-only

[...]

[ 760.666855] JBD2: I/O error detected when updating journal superblock for dm-0-8.
[ 760.666900] EXT4-fs (dm-1): ext4_da_writepages: jbd2_start: 1018 pages, ino 9738622; err -30
[ 760.666904]
[ 760.666908] EXT4-fs error (device dm-1): ext4_journal_start_sb: Detected aborted journal
[ 760.666911] EXT4-fs (dm-1): Remounting filesystem read-only
[ 760.666914] EXT4-fs (dm-1): ext4_da_writepages: jbd2_start: 8144 pages, ino 9738623; err -30
[ 760.666917]
[ 760.667303] EXT4-fs (dm-0): ext4_da_writepages: jbd2_start: 993 pages, ino 1705290; err -30
[ 760.667307]

[...]

[ 760.667453] sd 4:0:1:0: [sdb] Unhandled error code
[ 760.667455] sd 4:0:1:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
[ 760.667458] sd 4:0:1:0: [sdb] CDB: Write(10): 2a 00 00 04 24 17 00 00 08 00
[ 760.667465] end_request: I/O error, dev sdb, sector 271383

[...]


Après que ces erreurs aient commencé, j'ai essayé smartctl mais il ne m'a pas dit grand chose:

$ smartctl -a /dev/sdb
smartctl 5.39 2009-12-09 r2995 [x86_64-unknown-linux-gnu] (local build)
Copyright (C) 2002-9 by Bruce Allen, http://smartmontools.sourceforge.net

Device: /4:0:1:0 Version:
scsiModePageOffset: response length too short, resp_len=47 offset=50 bd_len=46
>> Terminate command early due to bad response to IEC mode page
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.
$smartctl -T permissive -a /dev/sdb
smartctl 5.39 2009-12-09 r2995 [x86_64-unknown-linux-gnu] (local build)
Copyright (C) 2002-9 by Bruce Allen, http://smartmontools.sourceforge.net

Device: /4:0:1:0 Version:
scsiModePageOffset: response length too short, resp_len=47 offset=50 bd_len=46
>> Terminate command early due to bad response to IEC mode page
Log Sense failed, IE page [scsi response fails sanity test]

Error Counter logging not supported
scsiModePageOffset: response length too short, resp_len=47 offset=50 bd_len=46
Device does not support Self Test logging


J'ai bien l'impression qu'il est en train de mourir mais je ne comprend pas pourquoi il a marché pendant deux semaine après que je l'ai déplacé dans ma tour.

La température dans la tour est entre 30 et 40°C d'après les valeurs retournées par sensors.

Est-ce qu'il est en train de mourir? Ou peut-il y avoir une autre cause?

Merci de votre aide.
  • # C'est grave docteur

    Posté par  . Évalué à 3.

    Bonjour,

    il y a plusieurs cause possibles. Pour valider l'hypothèse de la panne disque, il te faut lancer l'utilitaire du constructeur qui indique si et combien il y a de secteurs défectueux relogés, et d'autres choses comme ça.

    Le problème vient éventuellement de la carte-mère (chipset) ou de la mémoire. C'est difficile à déterminer si la panne n'est pas flagrante. Un petit coup de memtest+ pendant une nuit aide à lever le doute, mais cela ne prouve rien concernant le chipset qui s'occupe des accès disques.

    La "vraie" solution est de mettre le disque douteux dans une autre machine et d'attendre que la panne se reproduise. Si la panne se reproduit sur l'autre machine, c'est le disque. Si la panne se reproduit sur ta machine, c'est la carte-mère ou la mémoire.
    Et parfois la panne ne se reproduit jamais, bien embêtant :-)
    • [^] # Re: C'est grave docteur

      Posté par  (site web personnel) . Évalué à 4.

      il te faut lancer l'utilitaire du constructeur qui indique si et combien il y a de secteurs défectueux relogés

      Ou alors smartmontools, ou l'interface graphique gsmartcontrol (c'est le nom des paquets debian) peut te dire ça sans problème. Ça m'a en effet déja permis de diagnostiquer un disque qui mourrait a grande vitesse.
      • [^] # Re: C'est grave docteur

        Posté par  . Évalué à 1.

        Voilà après un peu de repos il remarche pendant un petit moment et j'ai pu faire un smartctl avant qu'il y ai ces erreurs et ça donne:
        $ smartctl -a /dev/sdb
        smartctl 5.39 2009-12-09 r2995 [x86_64-unknown-linux-gnu] (local build)
        Copyright (C) 2002-9 by Bruce Allen, http://smartmontools.sourceforge.net
        
        === START OF INFORMATION SECTION ===
        Model Family:     Western Digital Caviar Black family
        Device Model:     WDC WD7501AALS-00J7B1
        Serial Number:    WD-WMAU00109245
        Firmware Version: 05.00K05
        User Capacity:    750 156 374 016 bytes
        Device is:        In smartctl database [for details use: -P show]
        ATA Version is:   8
        ATA Standard is:  Exact ATA specification draft version not indicated
        Local Time is:    Tue Feb  2 13:04:58 2010 CET
        SMART support is: Available - device has SMART capability.
        SMART support is: Enabled
        
        === START OF READ SMART DATA SECTION ===
        SMART overall-health self-assessment test result: PASSED
        
        General SMART Values:
        Offline data collection status:  (0x84)	Offline data collection activity
        					was suspended by an interrupting command from host.
        					Auto Offline Data Collection: Enabled.
        Self-test execution status:      (   0)	The previous self-test routine completed
        					without error or no self-test has ever 
        					been run.
        Total time to complete Offline 
        data collection: 		 (15480) seconds.
        Offline data collection
        capabilities: 			 (0x7b) SMART execute Offline immediate.
        					Auto Offline data collection on/off support.
        					Suspend Offline collection upon new
        					command.
        					Offline surface scan supported.
        					Self-test supported.
        					Conveyance Self-test supported.
        					Selective Self-test supported.
        SMART capabilities:            (0x0003)	Saves SMART data before entering
        					power-saving mode.
        					Supports SMART auto save timer.
        Error logging capability:        (0x01)	Error logging supported.
        					General Purpose Logging supported.
        Short self-test routine 
        recommended polling time: 	 (   2) minutes.
        Extended self-test routine
        recommended polling time: 	 ( 180) minutes.
        Conveyance self-test routine
        recommended polling time: 	 (   5) minutes.
        SCT capabilities: 	       (0x303f)	SCT Status supported.
        					SCT Feature Control supported.
        					SCT Data Table supported.
        
        SMART Attributes Data Structure revision number: 16
        Vendor Specific SMART Attributes with Thresholds:
        ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
          1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
          3 Spin_Up_Time            0x0027   233   225   021    Pre-fail  Always       -       8316
          4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       271
          5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
          7 Seek_Error_Rate         0x002e   100   253   000    Old_age   Always       -       0
          9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       808
         10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
         11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
         12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       256
        192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       38
        193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       271
        194 Temperature_Celsius     0x0022   128   092   000    Old_age   Always       -       22
        196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
        197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
        198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
        199 UDMA_CRC_Error_Count    0x0032   200   197   000    Old_age   Always       -       37
        200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0
        
        SMART Error Log Version: 1
        No Errors Logged
        
        SMART Self-test log structure revision number 1
        Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
        # 1  Short offline       Completed without error       00%       803         -
        # 2  Short offline       Completed without error       00%       798         -
        # 3  Short offline       Completed without error       00%       795         -
        # 4  Short offline       Completed without error       00%       780         -
        # 5  Short offline       Completed without error       00%       757         -
        # 6  Extended offline    Completed without error       00%       745         -
        # 7  Extended offline    Aborted by host               60%       742         -
        # 8  Conveyance offline  Completed without error       00%       740         -
        # 9  Short offline       Completed without error       00%       740         -
        
        SMART Selective self-test log data structure revision number 1
         SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
            1        0        0  Not_testing
            2        0        0  Not_testing
            3        0        0  Not_testing
            4        0        0  Not_testing
            5        0        0  Not_testing
        Selective self-test flags (0x0):
          After scanning selected spans, do NOT read-scan remainder of disk.
        If Selective self-test is pending on power-up, resume after 0 minute delay.
        
        Si j'ai bien compris c'est quand VALUE passe en dessous de THRESH que c'est mauvais signe et là ça a l'air bon (mais il y a pas mal de valeurs avec THRESH à 0). Par contre je me pose des questions sur la valeur WORST de Seek_Error_Rate mais j'ai les même valeurs sur l'autre disque (même marque même gamme) qui n'a jamais eu un problème. Je ferais un test ce soir avec l'outil de western digital.
        • [^] # Re: C'est grave docteur

          Posté par  . Évalué à 3.

          5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
          7 Seek_Error_Rate 0x002e 100 253 000 Old_age Always - 0
          196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
          197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
          198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
          200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0

          Donc il n'y a que
          199 UDMA_CRC_Error_Count 0x0032 200 197 000 Old_age Always - 37
          qui présente des erreurs... Curieux, ca ne ressemble a aucun erreurs que j'ai déja pu voir.

          Si le problème ne se pose après un petit temps de repos, je regarderais du coté de l'éléctronique, moins du coté des plateaux...
          Change de nappe et de port, essaye une alim plus puissante si tu peux, et le test ultime se fait dans un autre PC avec un controleur différend.
          • [^] # Re: C'est grave docteur

            Posté par  . Évalué à 1.

            Les tests de western digital (que je soupçonne d'être les mêmes que ceux qu'on peut faire avec smartctl) n'ont trouvé aucune erreur.

            Ce matin, j'ai débranché mon ancien disque et j'ai branché seulement le nouveau avec les câbles qui étaient branchés sur l'ancien. Et il a l'air de tenir, mais en même temps il avait tenu deux semaines dans la configuration précédente...

            Pour l'alimentation, la mienne fait 550W je suppose que c'est assez pour deux disques sata + un lecteur ide + un core2quad + une ati HD4870 ?
        • [^] # Re: C'est grave docteur

          Posté par  . Évalué à 2.

          après un peu de repos il remarche pendant un petit moment
          Ca ressemble donc bien à un problème de disque. Probablement un problème de température.

          Soit l'électronique de ton disque est limite (pas en panne mais presque), soit il fait vraiment trop chaud sur cette face de ta futur brique.
          • [^] # Re: C'est grave docteur

            Posté par  . Évalué à 1.

            Pour ce qui est de la température maintenant:
            $ sensors                                                                                                                                                                            <[11:34]>
            coretemp-isa-0000
            Adapter: ISA adapter
            Core 0:      +46.0°C  (high = +74.0°C, crit = +100.0°C)  
            
            coretemp-isa-0001
            Adapter: ISA adapter
            Core 1:      +45.0°C  (high = +74.0°C, crit = +100.0°C)  
            
            coretemp-isa-0002
            Adapter: ISA adapter
            Core 2:      +41.0°C  (high = +74.0°C, crit = +100.0°C)  
            
            coretemp-isa-0003
            Adapter: ISA adapter
            Core 3:      +46.0°C  (high = +74.0°C, crit = +100.0°C)  
            
            f71882fg-isa-0a00
            Adapter: ISA adapter
            +3.3V:       +3.38 V
            in1:         +1.14 V  (max =  +2.04 V)   
            in2:         +1.40 V
            in3:         +0.98 V
            in4:         +1.08 V
            in5:         +0.07 V
            in6:         +0.10 V
            3VSB:        +3.36 V
            Vbat:        +3.23 V
            fan1:       1413 RPM
            fan2:          0 RPM  ALARM
            fan3:          0 RPM  ALARM
            fan4:          0 RPM  ALARM
            temp1:       +35.0°C  (high = +85.0°C, hyst = +81.0°C)  
                                  (crit = +100.0°C, hyst = +96.0°C)  sensor = transistor
            temp2:       +41.0°C  (high = +85.0°C, hyst = +81.0°C)  
                                  (crit = +100.0°C, hyst = +96.0°C)  sensor = transistor
            temp3:         FAULT  (high = +70.0°C, hyst = +68.0°C)  
                                  (crit = +85.0°C, hyst = +83.0°C)  sensor = transistor
            
            Et les températures juste avant et pendant les erreurs de lectures étaient à peu-près pareilles.
  • # Si les deux disques durs sont identiques

    Posté par  (site web personnel) . Évalué à 3.

    Bonjour,

    si les deux disques durs sont identiques, alors quand l'un sera bien HS, tu pourras transférer les cartes électroniques, si c'est la carte électronique qui à lâché.

    Je trouve que la température (au dessus de 45°c) est excessive, le mien est à 25°c en ce moment, et il ne dépasse pas les 38°c l'été, et atteint rarement les 35°c.

    Les hautes températures, c'est pas bon pour l'électronique.
    Pareil, en dessous de 10°c pour le matos qui n'est pas prévu pour.

    Profites-en pour faire des sauvegardes.

    A bientôt
    G

    Pourquoi bloquer la publicité et les traqueurs : https://greboca.com/Pourquoi-bloquer-la-publicite-et-les-traqueurs.html

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.