Forum Linux.noyau software raid 10 avec failed event répétitif sur /dev/sda

Posté par pralines le 15 janvier 2013 à 11:55. Licence CC By‑SA.

Étiquettes : aucune

-1

jan.

2013

Bonjour,
Cela fait quelque mois que mon raid 10 me fait des misères : des failed events à répétition sur le même disque, j'ai remplacé le disque mais ça continue sur le nouveau disque.

Les 2 disques ont été testé avec les outils smart, aucun défaut signalé, je sais que ça n'est pas une preuve infaillible.

La plupart du temps je peux réintégrer le disque dans le raid après qu'il ait été déclaré fautif, je fais un mdadm -remove suivi d'un mdadm --add et au bout de 30 à 60 minutes (selon la taille de la partition concernée) le disque fonctionne, pendant un temps variable (quelques heures à quelques jours).

Je trouve très étrange que j'arrive à reconstruire le raid sans remplacer le disque et surtout que ça soit toujours le disque en /dev/sda qui défaille chaque fois !

Ce que j'ai fait jusqu'à maintenant :
- test smart
- remplacement du disque
- remplacement du cable SATA
- remplacement du cable d'alimentation

Le raid continue à se dégrader, avez vous des idées de piste pour diagnostiquer ce problème ?

Ma config soft/hard :
- noyal 3.6.11-1 (Archlinux à jour)
- CPU AMD Phenom II X6 1090T 3,2 Ghz
- 16 Go de mémoire
- Alimentation Thermaltake 575 W
- Nvidia G210
- 4 disques dur 500 Go SataII

Config Raid :
Personalities : [raid1] [raid10]
md2 : active raid10 sdb4[0] sda44 sdc4[3] sdd4[1]
767922816 blocks 32K chunks 2 near-copies [4/3] [UU_U]

md1 : active raid10 sdb3[0] sdc3[3] sdd3[1]
206916992 blocks 32K chunks 2 near-copies [4/3] [UU_U]

md0 : active raid1 sdb1[0] sdc1[3] sda1[2] sdd1[1]
481792 blocks [4/4] [UUUU]

aujourd'hui c'est un mauvais jour, le disque /dev/sda a disparu de 2 des 3 volumes raid…

# soyons joueurs ou pas

Posté par NeoX le 15 janvier 2013 à 13:47. Évalué à 2.

chez moi j'ai eu un probleme similaire,
et c'etait l'alimentation du PC qui etait en defaut.

en gros je pouvais avoir 3 disques, mais pas 4 en meme temps.

pour cela j'ai joué.

tu debranches le disque sda, ca marchera pas pire qu'actuellement.
puis tu arretes le PC, tu rebranches sda, tu debranches sdb

si ca marche et que sda est là sur les 3 raids, etc, c'est bien que que ton pc n'arrive pas à demarrer avec les 4 disques en meme temps.

evidemment tu peux essayer en rebranchant sdb et en debranchant sdc, etc

sinon tu peux permuter les prises sata de la carte mere entre sda et sdb
si c'est sdb qui devient "invisible" c'est que le port de ta carte mere a un probleme.
- [^] # Re: soyons joueurs ou pas
  
  Posté par pralines le 15 janvier 2013 à 16:47. Évalué à 1.
  
  je viens à nouveau de faire une rotation de disque (remplacement d'un disque et changement d'emplacement),
  j'ai eu de la chance, 2 disques à reconstruire en même temps, c'est bien tombé, merci le raid 10 (en raid 0+1 j'étais mort)
  
  les jeux de hasard c'est rigolo un moment mais maintenant je voudrai bien savoir ce qui est à l'origine de la dégradation du raid,
  
  au prochain incident je noterai l'heure et j'irai à la pêche aux infos dans les logs, c'est ce que j'aurai du faire avant de poster, alors ne vous étonner pas de me voir revenir dans quelques heures/jours :-)
  
  je devrai peut-être aussi faire un memtest non ?
  
  Envoyé depuis mon Archlinux
  - [^] # Re: soyons joueurs ou pas
    
    Posté par NeoX le 15 janvier 2013 à 17:04. Évalué à 2.
    
    c'est du raid mdadm, donc deplacer les disques ne forcent pas la reconstruction (merci les UUID)
    seul le disque marqué "removed" puis "added" est reconstruit
    
    tu n'as donc pas eu 2 disques defecteux mais un seul.
    
    mais une fois remis en place, joue à mon jeu des echanges, tu verras bien si le disque manquant est toujours le meme ou pas :
    ex : toujours le meme tiroir, quelque soit le disque, tu pourras alors condamner ce slot.
    si ca se deplace avec le disque, c'est le disque
    
    et essaie la meme chose avec 3 disques seulements, voir si c'est pas l'alimentation de ton chassis qui est affaiblit et qui ne supporte plus d'avoir 4 disques, comme dit precedemment, c'etait mon cas,
    j'ai racheté une alim, et mon tour avec un raid5 de 4 disques est repartie.
    - [^] # Re: soyons joueurs ou pas
      
      Posté par pralines le 15 janvier 2013 à 18:38. Évalué à 1.
      
      les infos raid postées étaient celle de l'incident précédent,
      lorsque j'ai échangé les disques, j'avais déjà un disque failed, et un second l'a été du fait du changement de tiroir (là j'ai fortement déconné)
      
      pour ce qui est de la faiblesse de l'alim, je doute un peu, il m'arrive de tourner avec 4 disques comme avec 5 ou 6 (dock + eSata) sans que le raid tombe, mais je suppose qu'il n'est pas exclu qu'une charge cpu plus forte ne fasse déborder le vase à un moment
      
      pour le moment j'ai remplacé les cables sata anciens, tout raccordé aux ports sata interne, ça ne mange pas de pain
      
      lorsque j'aurai fait une sauvegarde complète de mon système sur un disque d'1 to je me remettrai à jouer avec ta méthode
      
      dernière info : lors du dernier incident, je suis allé voir dans errors.log :
      
      Jan 15 17:20:41 zorg kernel: [19261.391636] ata1.00: exception Emask 0x50 SAct 0x1 SErr 0x680801 action 0x6 frozen
      Jan 15 17:20:41 zorg kernel: [19261.391640] ata1.00: irq_stat 0x0c000000, interface fatal error
      Jan 15 17:20:41 zorg kernel: [19261.391642] ata1: SError: { RecovData HostInt 10B8B BadCRC Handshk }
      Jan 15 17:20:41 zorg kernel: [19261.391644] ata1.00: failed command: WRITE FPDMA QUEUED
      Jan 15 17:20:41 zorg kernel: [19261.391647] ata1.00: cmd 61/08:00:f8:b7:72/00:00:0c:00:00/40 tag 0 ncq 4096 out
      Jan 15 17:20:41 zorg kernel: [19261.391647] res 40/00:00:f8:b7:72/00:00:0c:00:00/40 Emask 0x50 (ATA bus error)
      Jan 15 17:20:41 zorg kernel: [19261.391649] ata1.00: status: { DRDY }
      Jan 15 17:20:42 zorg kernel: [19261.876434] ata1: softreset failed (device not ready)
      Jan 15 17:20:42 zorg kernel: [19262.055945] end_request: I/O error, dev sda, sector 208844792
      Jan 15 17:20:42 zorg kernel: [19262.055949] end_request: I/O error, dev sda, sector 208844792
      
      et dans kernel.log :
      
      Jan 15 17:20:41 zorg kernel: [19261.391636] ata1.00: exception Emask 0x50 SAct 0x1 SErr 0x680801 action 0x6 frozen
      Jan 15 17:20:41 zorg kernel: [19261.391640] ata1.00: irq_stat 0x0c000000, interface fatal error
      Jan 15 17:20:41 zorg kernel: [19261.391642] ata1: SError: { RecovData HostInt 10B8B BadCRC Handshk }
      Jan 15 17:20:41 zorg kernel: [19261.391644] ata1.00: failed command: WRITE FPDMA QUEUED
      Jan 15 17:20:41 zorg kernel: [19261.391647] ata1.00: cmd 61/08:00:f8:b7:72/00:00:0c:00:00/40 tag 0 ncq 4096 out
      Jan 15 17:20:41 zorg kernel: [19261.391647] res 40/00:00:f8:b7:72/00:00:0c:00:00/40 Emask 0x50 (ATA bus error)
      Jan 15 17:20:41 zorg kernel: [19261.391649] ata1.00: status: { DRDY }
      Jan 15 17:20:41 zorg kernel: [19261.391652] ata1: hard resetting link
      Jan 15 17:20:42 zorg kernel: [19261.876434] ata1: softreset failed (device not ready)
      Jan 15 17:20:42 zorg kernel: [19261.876439] ata1: applying PMP SRST workaround and retrying
      Jan 15 17:20:42 zorg kernel: [19262.042635] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
      Jan 15 17:20:42 zorg kernel: [19262.045120] ata1.00: configured for UDMA/133
      Jan 15 17:20:42 zorg kernel: [19262.055922] sd 0:0:0:0: [sda]..
      Jan 15 17:20:42 zorg kernel: [19262.055925] Result: hostbyte=0x00 driverbyte=0x08
      Jan 15 17:20:42 zorg kernel: [19262.055926] sd 0:0:0:0: [sda]..
      Jan 15 17:20:42 zorg kernel: [19262.055928] Sense Key : 0xb [current] [descriptor]
      Jan 15 17:20:42 zorg kernel: [19262.055930] Descriptor sense data with sense descriptors (in hex):
      Jan 15 17:20:42 zorg kernel: [19262.055931] 72 0b 00 00 00 00 00 0c 00 0a 80 00 00 00 00 00.
      Jan 15 17:20:42 zorg kernel: [19262.055935] 0c 72 b7 f8.
      Jan 15 17:20:42 zorg kernel: [19262.055937] sd 0:0:0:0: [sda]..
      Jan 15 17:20:42 zorg kernel: [19262.055938] ASC=0x0 ASCQ=0x0
      Jan 15 17:20:42 zorg kernel: [19262.055940] sd 0:0:0:0: [sda] CDB:.
      Jan 15 17:20:42 zorg kernel: [19262.055941] cdb[0]=0x2a: 2a 00 0c 72 b7 f8 00 00 08 00
      Jan 15 17:20:42 zorg kernel: [19262.055945] end_request: I/O error, dev sda, sector 208844792
      Jan 15 17:20:42 zorg kernel: [19262.055949] end_request: I/O error, dev sda, sector 208844792
      Jan 15 17:20:42 zorg kernel: [19262.055950] md: super_written gets error=-5, uptodate=0
      Jan 15 17:20:42 zorg kernel: [19262.055953] md/raid10:md1: Disk failure on sda3, disabling device.
      Jan 15 17:20:42 zorg kernel: [19262.055953] md/raid10:md1: Operation continuing on 3 devices.
      Jan 15 17:20:42 zorg kernel: [19262.055982] ata1: EH complete
      Jan 15 17:20:42 zorg kernel: [19262.072335] RAID10 conf printout:
      Jan 15 17:20:42 zorg kernel: [19262.072338] --- wd:3 rd:4
      Jan 15 17:20:42 zorg kernel: [19262.072340] disk 0, wo:0, o:1, dev:sdc3
      Jan 15 17:20:42 zorg kernel: [19262.072341] disk 1, wo:0, o:1, dev:sdd3
      Jan 15 17:20:42 zorg kernel: [19262.072342] disk 2, wo:1, o:0, dev:sda3
      Jan 15 17:20:42 zorg kernel: [19262.072343] disk 3, wo:0, o:1, dev:sdb3
      Jan 15 17:20:42 zorg kernel: [19262.075855] RAID10 conf printout:
      Jan 15 17:20:42 zorg kernel: [19262.075857] --- wd:3 rd:4
      Jan 15 17:20:42 zorg kernel: [19262.075859] disk 0, wo:0, o:1, dev:sdc3
      Jan 15 17:20:42 zorg kernel: [19262.075860] disk 1, wo:0, o:1, dev:sdd3
      Jan 15 17:20:42 zorg kernel: [19262.075861] disk 3, wo:0, o:1, dev:sdb3
      
      je n'ai pas encore trouvé à quoi correspondait ce super_written qui se prend un error=-5
      
      Envoyé depuis mon Archlinux
      - [^] # Re: soyons joueurs ou pas
        
        Posté par NeoX le 15 janvier 2013 à 21:02. Évalué à 2.
        
        Jan 15 17:20:41 zorg kernel: [19261.391636] ata1.00: exception Emask 0x50 SAct 0x1 SErr 0x680801 action 0x6 frozen
        Jan 15 17:20:41 zorg kernel: [19261.391640] ata1.00: irq_stat 0x0c000000, interface fatal error
        
        si c'est toujours le ata1 quelque soit le disque branché dessus, c'est vraiment un probleme lié à la carte mere
- [^] # Re: soyons joueurs ou pas
  
  Posté par pralines le 15 janvier 2013 à 18:22. Évalué à 1.
  
  à nouveau dégradé, j'ai remplacé tous les cables sata
  
  j'avais aussi raccordé un disque au port eSata par un cable plus long que les autres, ça n'était pas le disque fautif mais j'ai tout de même remplacé le cable et il est maintenant sur un port sata interne comme les autres
  
  ça fait beaucoup de changements et si ça élimine le problème je ne pourrais pas savoir ce qui a été déterminant (changement soft, ou quel changement hard), mais je suis plus dans une démarche apprenti-sorcier que scientifique…
  
  Envoyé depuis mon Archlinux

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.