Forum Linux.général RAID logiciel (détection de défaillance)

Posté par  .
Étiquettes : aucune
0
9
nov.
2006
Bonjour,

Je viens de mettre en place une solution Raid1 logiciel sous Linux. Tout marche nickel, même la restauration après remplacement d'un disque.

Lors de mes tests, j'ai simplement débranché l'un des deux disques durs, mais il est rare d'avoir des pannes aussi franches arrivant de surcroît hors tension.

Je me pose donc la question suivante:
Comment dans la vraie vie détecte-t-on une panne d'un des disques redondés ?

Afin d'écrire une doc, je cherche à savoir ce que retourne les commandes "cat /prc/mdstat" et "mdadm --detail" en ces de défaillance à chaud.

Merci beaucoup pour vos éclaircissement.
  • # Re

    Posté par  (site web personnel) . Évalué à 2.

    Ben dans la vraie vie, quand un disque dur lache, pour une raison ou une autre, le système va écrire des trucs plutôt pas commun dans les log. ( genre "kernel: md: write_disk_sb failed for device sdc2" ).

    Le truc c'est de détecter ces "anomalies" et de les faire remonter rapidement.

    Personnellement, j'utilise logcheck, qui est un peu spécifique à debian.

    D'autres systèmes plus ou moins équivalents existent: logwatch, swatch, nagios ...

    Ceci dit, dans le cas d'un raid logiciel, donc géré par mdadm, ce dernier peut être configuré pour t'envoyer un mail en cas de pépin.

    sinon , /proc/mdstat et mdadm --detail te montrerons clairement que tel ou tel périphérique mdX est en mode dégradé, et que tel ou tel disque manque à l'appel.

    Cordialement
  • # mdadm et smartd

    Posté par  . Évalué à 2.

    Le logiciel mdadm propose une possibilité de surveillance des disques. En cas de défaillance, un mai lest envoyé à un utilisateur prédéfini (souvent root). Lire le manuel, mais ça doit être un truc du genre "mdadm --monitor --scan -f --pid-file=/var/run/mdadm/mdadm.pid"...
    Sur une fedora, j'ai un service "mdmonitor" qui est installé avec le package mdadm...

    Le package smartmontools donne aussi des infos très pertinente, et souvent avant la catastrophe finale. Il se configure aussi pour envoyer des mails d'alerte en cas de problème.

    Bonne surveillance !
  • # Merci

    Posté par  . Évalué à 1.

    Merci pour votre aide. Il est vrai qu'une lecture plus approfondie des pages de manuel m'aurait permit de trouver la solution tout seul.

    Ma vie (solution) pour ceux que ça intéresse :

    La notification par mail n'est ici pas envisageable, car il s'agit du serveur d'une application fonctionnant sur un réseau complètement isolé de quelques postes (1 serveur + qqs client).
    J'ai donc utilisé la balise PROGRAM du fichier mdadm.conf pour lancer un petit script qui envoie un message sur toutes les consoles (grâce à wall).
    Ce script est également appelé par crond au cas où le passage en mode dégradé serait survenu lorsque personne n'était connecté sur la machine. Cette vérification périodique permet également de harceler l'utilisateur pour bien lui faire comprendre qu'il faut contacter le support au plus vite.

    Encore merci pour votre aide.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.