J'ai donc créé un array avec seulement une partition du nouveau disque, je l'ai découpé avec lvm et j'ai partitionné les volumes logiques en ext4 (ça devrait être stable maintenant et j'en avait marre des fsck trop longs).
Ensuite j'ai copié mon système sur ce nouveau disque, j'ai booté dessus et tout a bien marché. Le lendemain il a pas fallu plus de 10 minutes avant d'avoir des erreurs de lecture dans dmesg et un système complètement inutilisable (tout accès disque échoue, impossible de faire un su par exemple). Après quelques essai, j'ai déplacé le disque dans la tour et contre toute attente tout à bien marché pendant deux semaine.
Et hier soir ça a recommencé avec des messages comme ceci:
[ 719.665719] ata5.01: exception Emask 0x10 SAct 0x0 SErr 0x280100 action 0x0
[ 719.665724] ata5.01: SError: { UnrecovData 10B8B BadCRC }
[ 719.665727] ata5.01: failed command: READ DMA
[ 719.665733] ata5.01: cmd c8/00:a0:8f:45:9d/00:00:00:00:00/f2 tag 0 dma 81920 in
[ 719.665734] res 51/84:1f:10:46:9d/00:00:00:00:00/f2 Emask 0x30 (host bus error)
[ 719.665737] ata5.01: status: { DRDY ERR }
[ 719.665739] ata5.01: error: { ICRC ABRT }
[ 719.665748] ata5.00: hard resetting link
[ 719.984013] ata5.01: hard resetting link
[ 720.460071] ata5.00: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[ 720.460084] ata5.01: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[ 720.493549] ata5.00: configured for UDMA/133
[ 720.502235] ata5.01: configured for UDMA/133
[ 720.502276] ata5: EH complete
[...]
[ 760.665375] sd 4:0:1:0: [sdb] Unhandled error code
[ 760.665379] sd 4:0:1:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
[ 760.665383] sd 4:0:1:0: [sdb] CDB: Read(10): 28 00 02 a0 f3 4f 00 00 80 00
[ 760.665391] end_request: I/O error, dev sdb, sector 44102479
[...]
[ 760.665936] Buffer I/O error on device dm-1, logical block 68400354
[ 760.665938] lost page write due to I/O error on dm-1
[ 760.665943] Buffer I/O error on device dm-1, logical block 68400355
[ 760.665945] lost page write due to I/O error on dm-1
[...]
[ 760.666519] Aborting journal on device dm-1-8.
[ 760.666541] JBD2: Detected IO errors while flushing file data on dm-0-8
[ 760.666558] Aborting journal on device dm-0-8.
[ 760.666571] EXT4-fs (dm-0): delayed block allocation failed for inode 1705290 at logical offset 139 with max blocks 5 with error -30
[ 760.666575]
[ 760.666576] This should not happen!! Data will be lost
[ 760.666586] EXT4-fs error (device dm-0) in ext4_da_writepages: Journal has aborted
[ 760.666588] EXT4-fs (dm-0): Remounting filesystem read-only
[...]
[ 760.666855] JBD2: I/O error detected when updating journal superblock for dm-0-8.
[ 760.666900] EXT4-fs (dm-1): ext4_da_writepages: jbd2_start: 1018 pages, ino 9738622; err -30
[ 760.666904]
[ 760.666908] EXT4-fs error (device dm-1): ext4_journal_start_sb: Detected aborted journal
[ 760.666911] EXT4-fs (dm-1): Remounting filesystem read-only
[ 760.666914] EXT4-fs (dm-1): ext4_da_writepages: jbd2_start: 8144 pages, ino 9738623; err -30
[ 760.666917]
[ 760.667303] EXT4-fs (dm-0): ext4_da_writepages: jbd2_start: 993 pages, ino 1705290; err -30
[ 760.667307]
[...]
[ 760.667453] sd 4:0:1:0: [sdb] Unhandled error code
[ 760.667455] sd 4:0:1:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
[ 760.667458] sd 4:0:1:0: [sdb] CDB: Write(10): 2a 00 00 04 24 17 00 00 08 00
[ 760.667465] end_request: I/O error, dev sdb, sector 271383
[...]
Après que ces erreurs aient commencé, j'ai essayé smartctl mais il ne m'a pas dit grand chose:
$ smartctl -a /dev/sdb
smartctl 5.39 2009-12-09 r2995 [x86_64-unknown-linux-gnu] (local build)
Copyright (C) 2002-9 by Bruce Allen, http://smartmontools.sourceforge.net
Device: /4:0:1:0 Version:
scsiModePageOffset: response length too short, resp_len=47 offset=50 bd_len=46
>> Terminate command early due to bad response to IEC mode page
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.
$smartctl -T permissive -a /dev/sdb
smartctl 5.39 2009-12-09 r2995 [x86_64-unknown-linux-gnu] (local build)
Copyright (C) 2002-9 by Bruce Allen, http://smartmontools.sourceforge.net
Device: /4:0:1:0 Version:
scsiModePageOffset: response length too short, resp_len=47 offset=50 bd_len=46
>> Terminate command early due to bad response to IEC mode page
Log Sense failed, IE page [scsi response fails sanity test]
Error Counter logging not supported
scsiModePageOffset: response length too short, resp_len=47 offset=50 bd_len=46
Device does not support Self Test logging
J'ai bien l'impression qu'il est en train de mourir mais je ne comprend pas pourquoi il a marché pendant deux semaine après que je l'ai déplacé dans ma tour.
La température dans la tour est entre 30 et 40°C d'après les valeurs retournées par sensors.
Est-ce qu'il est en train de mourir? Ou peut-il y avoir une autre cause?
Merci de votre aide.
# C'est grave docteur
Posté par Kerro . Évalué à 3.
il y a plusieurs cause possibles. Pour valider l'hypothèse de la panne disque, il te faut lancer l'utilitaire du constructeur qui indique si et combien il y a de secteurs défectueux relogés, et d'autres choses comme ça.
Le problème vient éventuellement de la carte-mère (chipset) ou de la mémoire. C'est difficile à déterminer si la panne n'est pas flagrante. Un petit coup de memtest+ pendant une nuit aide à lever le doute, mais cela ne prouve rien concernant le chipset qui s'occupe des accès disques.
La "vraie" solution est de mettre le disque douteux dans une autre machine et d'attendre que la panne se reproduise. Si la panne se reproduit sur l'autre machine, c'est le disque. Si la panne se reproduit sur ta machine, c'est la carte-mère ou la mémoire.
Et parfois la panne ne se reproduit jamais, bien embêtant :-)
[^] # Re: C'est grave docteur
Posté par lom (site web personnel) . Évalué à 4.
Ou alors smartmontools, ou l'interface graphique gsmartcontrol (c'est le nom des paquets debian) peut te dire ça sans problème. Ça m'a en effet déja permis de diagnostiquer un disque qui mourrait a grande vitesse.
[^] # Re: C'est grave docteur
Posté par PoFMaN . Évalué à 1.
[^] # Re: C'est grave docteur
Posté par maxix . Évalué à 3.
7 Seek_Error_Rate 0x002e 100 253 000 Old_age Always - 0
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0
Donc il n'y a que
199 UDMA_CRC_Error_Count 0x0032 200 197 000 Old_age Always - 37
qui présente des erreurs... Curieux, ca ne ressemble a aucun erreurs que j'ai déja pu voir.
Si le problème ne se pose après un petit temps de repos, je regarderais du coté de l'éléctronique, moins du coté des plateaux...
Change de nappe et de port, essaye une alim plus puissante si tu peux, et le test ultime se fait dans un autre PC avec un controleur différend.
[^] # Re: C'est grave docteur
Posté par PoFMaN . Évalué à 1.
Ce matin, j'ai débranché mon ancien disque et j'ai branché seulement le nouveau avec les câbles qui étaient branchés sur l'ancien. Et il a l'air de tenir, mais en même temps il avait tenu deux semaines dans la configuration précédente...
Pour l'alimentation, la mienne fait 550W je suppose que c'est assez pour deux disques sata + un lecteur ide + un core2quad + une ati HD4870 ?
[^] # Re: C'est grave docteur
Posté par Kerro . Évalué à 2.
Ca ressemble donc bien à un problème de disque. Probablement un problème de température.
Soit l'électronique de ton disque est limite (pas en panne mais presque), soit il fait vraiment trop chaud sur cette face de ta futur brique.
[^] # Re: C'est grave docteur
Posté par PoFMaN . Évalué à 1.
# Si les deux disques durs sont identiques
Posté par GG (site web personnel) . Évalué à 3.
si les deux disques durs sont identiques, alors quand l'un sera bien HS, tu pourras transférer les cartes électroniques, si c'est la carte électronique qui à lâché.
Je trouve que la température (au dessus de 45°c) est excessive, le mien est à 25°c en ce moment, et il ne dépasse pas les 38°c l'été, et atteint rarement les 35°c.
Les hautes températures, c'est pas bon pour l'électronique.
Pareil, en dessous de 10°c pour le matos qui n'est pas prévu pour.
Profites-en pour faire des sauvegardes.
A bientôt
G
Pourquoi bloquer la publicité et les traqueurs : https://greboca.com/Pourquoi-bloquer-la-publicite-et-les-traqueurs.html
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.