Forum général.général Indicateurs smartd

Posté par  .
Étiquettes : aucune
1
29
sept.
2009
Je cherche désespérément les bornes acceptables pour les indicateurs smartd pour disques durs, notamment les indicateurs Raw_Read_Error_Rate (id 1) et Hardware_ECC_Recovered (id 195).

J’ai un disque dur (Seagate Momentus 5400.5 SATA 3Gb/s 160-GB Hard Drive) qui présente des valeurs très importantes pour ces 2 indicateurs (Raw_Read_Error_Rate = Hardware_ECC_Recovered = 68394851), mais pour lequel les tests (short ou long) ne rapportent aucune erreur.

Merci d’avance
  • # erreurs corrigées

    Posté par  . Évalué à 1.

    je ne vois pas pourquoi tu aurais des soucis
    le principe du ECC c'est de pouvoir corriger tout seul les erreurs de lecture, de transfert entre 2 elements

    là il te dit qu'il y a des erreurs de lecture (RAW_read_error), mais qu'elles ont été corrigées (Hardware_ECC...) donc tout va bien
    • [^] # Re: erreurs corrigées

      Posté par  . Évalué à 4.

      La partie physique du disque a du mal à lire, mais c'est corrigé niveau soft.
      Je suis bourré mais j'ai un ABS et un ESP.
      Un disque de mon RAID1 est mort mais il reste l'autre.

      Y'a un problème, mais tant que ça marche, tout va bien.

      Sérieusement, non! Avec 68394851 erreurs de lecture y'a un soucis, et qu'elles soient corrigés n'empêche pas que ce disque risque de lâcher! Le jour où trop de données seront corrompues et que l'ECC ne pourra pas rattraper la sauce, ça sera trop tard.

      THIS IS JUST A PLACEHOLDER. YOU SHOULD NEVER SEE THIS STRING.

  • # "type" et "threshold"

    Posté par  . Évalué à 2.

    Si les indicateurs qui posent problème sont de type pre-fail, et que les valeurs sont sous le seuil, c'est qu'il y a un problème. La colonne "when-failed" est faite pour cela.
    Est-ce que tu as des alertes "pending sectors" ou des plaintes du noyau dans /var/log/messages ?
    De toute façon, si ton Raw_Read_Error_Rate continue à augmenter comme ça, sauvegarde vite tes données...
    • [^] # Re: "type" et "threshold"

      Posté par  . Évalué à 1.

      Je me suis intéressé à ce disque, car la machine plante régulièrement et une petite analyse des logs montre que les messages ci-dessous apparaissent de plus en plus fréquemment jusqu’au plantage. Après redémarrage tout fonctionne 1 jour ou 2, puis les messages réapparaissent jusqu’au plantage suivant.

      kernel: ata1.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
      kernel: ata1.01: cmd a0/00:00:00:00:00/00:00:00:00:00/b0 tag 0
      kernel: cdb 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
      kernel: res 51/20:03:00:00:00/00:04:08:00:00/b0 Emask 0x1 (device error)
      kernel: ata1.01: status: { DRDY ERR }
      kernel: ata1.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
      kernel: ata1.01: cmd a0/00:00:00:00:00/00:00:00:00:00/b0 tag 0
      kernel: cdb 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
      kernel: res 51/20:03:00:00:00/00:04:08:00:00/b0 Emask 0x1 (device error)
      kernel: ata1.01: status: { DRDY ERR }
      kernel: ata1.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
      kernel: ata1.01: cmd a0/00:00:00:08:00/00:00:00:00:00/b0 tag 0 pio 16392 in
      kernel: cdb 4a 01 00 00 10 00 00 00 08 00 00 00 00 00 00 00
      kernel: res 40/00:03:00:00:00/00:04:08:00:00/b0 Emask 0x4 (timeout)
      kernel: ata1.01: status: { DRDY }
      kernel: ata1: link is slow to respond, please be patient (ready=0)
      kernel: ata1: device not ready (errno=-16), forcing hardreset
      kernel: ata1: soft resetting link
      kernel: ata1.00: configured for UDMA/100
      kernel: ata1.01: configured for UDMA/33
      kernel: ata1: EH complete
      • [^] # Re: "type" et "threshold"

        Posté par  . Évalué à 3.

        Classique :-)
        Tu peux sauvegarder tes données, et changer ton dique...
      • [^] # Re: "type" et "threshold"

        Posté par  . Évalué à 2.

        T'as de la chance: tu es prévenu que le support actuel de tes données va bientôt rendre l'âme. Réjouis-toi, parfois ça meurt sans prévenir.

        THIS IS JUST A PLACEHOLDER. YOU SHOULD NEVER SEE THIS STRING.

      • [^] # Re: "type" et "threshold"

        Posté par  . Évalué à 1.

        Ce genre d'erreur peut aussi être du à un problème de câble SATA. C'est toujours prudent d'avoir des sauvegardes mais avant de jeter ton disque aux orties, tu peux peut-être essayer avec un autre câble.

        Dans les PC industrielles, les câbles sata sont souvent collés au pistolet à colle car ils se débranchent très facilement (quoi qu'on commence à en trouver avec des ergots de rétention).
        • [^] # Re: "type" et "threshold"

          Posté par  . Évalué à 2.

          D'ailleurs cette saleté de méthode de coller les câbles SATA m'a pourri deux disques.
          En voulant changer la nappe SATA du disque (délicatement pourtant), une partie de la connectique coté disque est restée collé à la nappe (à l'intérieur de la connectique femelle de la nappe, il ne restait plus que les parties métalliques sur le disque).
          On aurait dit que la colle avait fragilisé le plastique coté disque.
          Cette situation m'est arrivée deux fois.
          Bilan, deux disques à la poubelle.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.