Forum Linux.général MegaCli et les Media Error Count

Posté par  (site web personnel) .
Étiquettes : aucune
0
30
mar.
2011

Bonjour,

Il y a quelque jours, j'ai eu une alarme Nagios car MegaCLI a détecté une Media Error sur un de mes disques.
La documentation de MegaCLI étant une chose relativement nébuleuse, je me retourne vers la communauté afin de trouver une explication à ce nom.

Dois-je m'inquiéter (il n'y a qu'une erreur)? Est-ce que cela signale un secteur cassé/invalidé?

Merci.

L'output de la commande:
BRUBLUst01:/usr/local/bin# /opt/MegaRAID/MegaCli/MegaCli64 -PDList -a0

Adapter #0

Enclosure Device ID: 32
Slot Number: 0
Device Id: 0
Sequence Number: 2
Media Error Count: 1
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
Raw Size: 715404MB [0x575466f0 Sectors]
Non Coerced Size: 714892MB [0x574466f0 Sectors]
Coerced Size: 714880MB [0x57440000 Sectors]
Firmware state: Online
SAS Address(0): 0x1221000000000000
Connected Port Number: 0(path0)
Inquiry Data: ATA ST3750640NS 3BKS 5QD3ZT7W

  • # Réalloué ?

    Posté par  . Évalué à 4.

    Ca peut être un secteur réalloué, ou bien que la table de réalloc est pleine et les données endommagés.
    Pour en être sur, faut sortir un log des données smart.

    • [^] # Re: Réalloué ?

      Posté par  (site web personnel) . Évalué à 1.

      Merci pour la réponse.

      Quand j'essaye d'activer SMART, je vois ceci:
      Server:~# smartctl -i -d scsi /dev/sda
      smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen Home page is http://smartmontools.sourceforge.net/

      Device: DELL PERC 6/i Version: 1.11
      Serial number: 00fc5880057514391200cff021f0e401
      Device type: disk Local Time is: Wed Mar 30 11:27:59 2011 UTC Device does not support SMART

      Un lspci retourne (entre autre):
      01:00.0 RAID bus controller: LSI Logic / Symbios Logic MegaRAID SAS 1078 (rev 04)

      Une idée de la raison pour laquelle ce ne serait pas disponible?
      Dois activer quelque chose sur le contrôleur?

  • # "Open"Manage

    Posté par  . Évalué à 2.

    Ce sont les infos de l'adaptateur que tu a consulté, et non les informations liées au disque lui même (media). Tu en saura probablement plus avec cela. Au passage, puisque tu bosse avec du matos Dell et que tu n'a pas envie de te farcir trop de CLI, jette un oeil au logiciel OpenManage (qui n'est pas open, mais qui manage)

    • [^] # Re: "Open"Manage

      Posté par  (site web personnel) . Évalué à 1.

      Je préfère la CLI à un soft comme OpenManage (que je ne veux pas installer sur une Debian clean). J'ai un problème tout particulier avec le software MegaCli (pas de man page, l'output d'aide est pourri).

      Si quelqu'un sait comment obtenir cette info sans OpenManage, ça m'intéresse.

  • # 1 erreur ça va, ...

    Posté par  (site web personnel) . Évalué à 2.

    D'expérience (je gère un petite centaine de serveurs dell avec des cartes lsi) : 1 erreur, ce n'est pas grave, le controleur est capables de gérer.

    Il y a ensuite 2 cas de figure :

    • ça reste comme ça des mois, voire des années : tout va bien

    • le nombre d'erreur augmente vite, voire très vite ... Dans ce cas vérifier/mettre à jour la version de firmware de la carte RAID et des disques sur le site dell ( http://support.euro.dell.com/fr/fr/home.asp) et en final changer le disque avant qu'il ne lache

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.