Forum Linux.debian/ubuntu un RAID qui se met à foiré d'un coup

Posté par  .
Étiquettes : aucune
0
10
juil.
2007
Bonjour,

Je rencontre aujourd'hui un problème assez embetant; notre serveur d'entreprise est sous debian. Il a trois disques durs: l'un (IDE) sert pour la racine, et tout le système, et les deux autres (SATA) sont montés en RAID 1. Ces deux derniers disques sont là pour accueillir toute notre base de documents, qui est partagée pour tous les postes windows.

Et donc ce matin, à 11h et quelques, je ne sais pas pourquoi, on avait plus accès à cette base de document. Je vais voir sur le serveur, et yavait gavé de lignes de la sorte:

[CODE]raid1: scsi /host1/bus1/target0/lun0/part5: redirecting sector 117392304 to another mirror[/CODE]
(le numéro 117392304 changeait à chaque ligne)

Je me log donc en root, et je vais voir dans /var/log/log.mail, et voici ce que j'y ai trouvé (je sais pas trop si cela à un rapport avec le problème):
[CODE]debian sm-mta [4551]: rejecting connections on deamon MSP-v4: lod average: 31[/CODE]

Après cela, j'ai entrepris de rebooter le serveur, mais les commandes reboot et halt -h ne faisait rien, mis à part dire que le système allait être arreté. init 6 fut un peu plus fonctionnel, mais au final, il a complètement bloqué l'ordi sur la ligne "Desactivating swap...". J'ai donc fait un hard reboot, apres quelques dures minutes d'hésitation.

Au redémarrage, j'ai eu droit à un joli message d'erreur, me confirmant que ca venait du raid:
[CODE]fsck.ext3: Bad magic number in super-bloc while trying to open /dev/hda9
/dev/hda9:
The super-block could not be read or does not describe a correct ext2 filesystem. If the device is valid and it really contains an ext2 filesystem (and not swap or ufs or something else), then the superblock is corrupt, and you might try running e2fsck with an alternate superblock:
e2fsck -b 8193
/home: recovering journal
/home: clean, 175905 / 9535488 files , 1387 2338 / 19043033 blocks
fsck failed. Please repair manually.[/CODE]

en lancant la commande
# e2fsck -b 8193 /dev/hda9
ca me donne exactement le meme message d'erreur que le gros message ci-dessus.


Pour l'instant, j'ai essayé quelques autres trucs:
- eteindre le serveur, débrancher un des deux disques SATA, et relancer l'ordi: l'ordi me signale une erreur au niveau du RAID, et me demande quoi faire: en choisissant de continuer à booter, tout marche bien, sauf que le disque SATA n'est ni monté, ni reconnu si on le monte à la mimine
- avec la meme opération, mais en choisissant de detruire la relation de mirroring, même résultat; le disque n'est toujours pas "lisible".

Donc voilà en gros le topo; j'aurais bien aimé avoir votre avis, et si possible, quelques conseils pour avancer sur ce problème assez handicapant.

Merci d'avance

Muad'Dib
  • # hda

    Posté par  . Évalué à 1.

    les erreurs semblent etre sur hda9 d'apres ce que tu nous dis, donc ce ne serait pas le raid mais le disque systeme...

    les tests que j'aurais fait :

    deconnecter les 2 disques du raid et voir si le systeme demarre sans erreur (sans casser la config du raid)

    si c'est le cas, ce serait bien le raid qui est en cause.
    • [^] # Re: hda

      Posté par  . Évalué à 1.

      J'ai donc rebooter sans les disques SATA, et j'ai eu deux messages d'erreur:
      - le premier, concernant hda9, identique au message écrit au dessus
      - le second, concernant /dev/md0
      fsck.ext3: Invalid argument while trying to open /dev/md0
      ....la suite est identique au message précédent.

      Je me dis que peut etre, cela est du justement au RAID, car celui-ci doit etre monté sur hda9 en tant que LVM.

      Par contre, j'avais entendu parler d'un outil de supervision LVM, mais je ne trouve rien à propos de cela.
      • [^] # Re: hda

        Posté par  . Évalué à 1.

        le premier message sur hd9 doit concernait le premier disque IDE (hda), la 4e partition logique (9) du disque => ton disque system

        qu'il rale ensuite pour /dev/md0 c'est normal, ton raid ne peut pas se lancer vu que les disques ne sont pas connectés, mais là c'est normal et ne devrait pas etre bloquant (en tout cas pour demarrer)

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.