Forum général.général Disques-durs HS

Posté par  .
Étiquettes : aucune
0
8
nov.
2008
Bonjour,

J'ai des disques-durs qui ont eu des problèmes indiqués dans les logs d'une machine en RAID1 soft. C'est arrivé plusieurs fois après des utilisations intensives. Après avoir changé les disques durs je les ai testé avec
# dd if=/dev/sdc of=/dev/null bs=1M
et aucune erreur n'a été reportée ni à l'écran ni dans les logs.
J'ai aussi testé avec l'utilitaire du fabricant et rien non plus.

Avez-vous une meilleure idée pour tester un disque dur ?
Savez-vous comment voir si le disque contient des secteurs qu'il a lui-même relogé ailleurs car défectueux ?
  • # smart tools

    Posté par  (site web personnel) . Évalué à 3.

    tout ce que je connais c'est les smarttools qui permettent de lancer des tests sur un disque SMART.

    mais attention je crois que ca marche pas pour un disque monter en RAID. faut le monter en "direct" pour faire les tests.

    et ces tests ne permettent que d'avoir une idée de l'état du disque. pas les secteurs defecteux pour ca y'a badblocks
  • # Utilitaire constructeur

    Posté par  . Évalué à 3.

    A ma connaissance, il n'y a que l'utilitaire du constructeur qui soit capable de donner les informations "internes" tels que les secteurs relogés.

    L'état smart indique des choses qui ne m'ont jamais convaincues. Je n'ai jamais eu d'alerte smart avant qu'un disque lâche. Et à l'inverse j'ai eu des alertes sur des disques qui n'ont jamais lâchés. Bof bof.

    Si l'utilitaire badblock ou dd ou n'importe quoi te retourne des secteurs deffectueux: disque direct à la poubelle car ça veut dire qu'il est trop endommagé pour que les procédures internes au disque puisse corriger.

    Sinon pour tester je fais pareil que toi. dd en lecture. Puis dd en écriture avec md5 puis relecture et vérif du md5. Ce qui arrive souvent chez nous c'est qu'un disque mal ventilé indique des erreurs (température indiquée élevée par rapport aux autres machines). Une fois sur l'établi il passe les tests sans problème. On le remet dans une autre machine et on n'en entends plus parler.

    Attention également au fait que les disques actuels contiennent de plus en plus d'erreurs quoi que tu fasses. Si ce sont des données importantes alors il te faut du SAS obligatoirement. Un SATA tout bête contient "forcément" une erreur au bout d'un certain temps. Et en RAID logiciel ça indique le disque comme étant deffectueux à 100%.
    • [^] # Re: Utilitaire constructeur

      Posté par  (site web personnel) . Évalué à 2.

      En quoi le SAS change quoi que ce soit ?

      "La première sécurité est la liberté"

      • [^] # Re: Utilitaire constructeur

        Posté par  . Évalué à 3.

        Le taux d'erreur est inférieur.

        Exemple avec des disques Hitachi:

        Ultrastar A7K1000
        SAS
        500 Go
        7200 tr/mn
        8,2 ms
        MTBF = 1.200.000 heures
        Taux d'erreur non récupérable = 1/(10exp15)

        Deskstar 7K1000.B
        SATA 2
        500 Go
        7200 tr/mn
        MTBF = 1.000.000 heures
        Taux d'erreur non récupérable = 1/(10exp14)

        Avec un taux d'erreur de 1/(10exp14) ça fait une erreur pour 12,5 To. En gros,si tu écris 12,5 To sur ton disque (650 Mo un jour, 650 Mo par dessus le lendemain, etc) tu auras une "chance" sur deux de ne pas pouvoir relire un des secteurs. C'est vite arrivé lorsqu'on a de grosses bases de données. Ca ne se voit pas avec des DivX par exemple, car le format est fait pour s'accomoder de ce genre de blague. Si il manque 512 octets, une ou deux images seront endomagées, rien de grave. Ca permet de voir le film sans même se rendre compte du problème. Par contre si c'est la base de données de l'ERP de ta boîte, ouille. 512 octets dans la nature, c'est tout de suite moins amusant.

        Avec un taux d'erreur de 1/(10exp14) tu as 10 fois moins de chance d'avoir un problème.

        Le RAID 1 ou 6 ou 1+0 restent les choix qui sauvent la vie. Il est en effet peu probable qu'une erreur survienne au même endroit sur différents disques. Ca nécessite tout de même de surveiller les alertes RAID et d'agir rapidement.
        • [^] # Re: Utilitaire constructeur

          Posté par  (site web personnel) . Évalué à 2.

          Je comprends mieux mais est-ce qu'un raid 1 de sata ne serait pas moins couteux qu'un seul SAS ?

          "La première sécurité est la liberté"

          • [^] # Re: Utilitaire constructeur

            Posté par  . Évalué à 2.

            est-ce qu'un raid 1 de sata ne serait pas moins couteux qu'un seul SAS ?
            Un RAID 1 SATA est moins coûteux qu'un SAS seul, mais également plus rapide la plupart du temps (écritures majoritaires, ce n'est pas toujours le cas mais presque). C'est également plus sûr car il est très peu probable que les erreurs soient au même endroit sur les deux disques.

            Par contre un RAID 1 SATA est moins fiable qu'un RAID 1 SAS.

            En fait ce n'est pas le SATA ou le SAS qui conditionne la fiabilité ; ce sont les constructeurs qui ne mettent pas la même chose dans les disques. Rien n'empêche de mettre la même mécanique et électronique dans dans SATA. Mais le prix sera sensiblement le même qu'un SAS :-)

            Le gros problème actuel est que les pilotes RAID logiciels intégrés dans Linux (et peut-être la plupart des pilotes matériels, je ne sais pas) mettent la totalité du disque en défaut lorsqu'une erreur est détectée.
            Il faudrait agir ainsi:
            - lorsqu'une erreur est détectée en écriture c'est grave, donc mettre le disque en défaut ou marquer le secteur comme étant défectueux au choix.
            - lorsqu'une erreur est détectée en lecture (très courant, chez nous tous nos serveurs sont en SATA et un disque donne plus d'une erreur par an) il faut lire les "bonnes" données sur l'autre disque puis la réécrire à l'endroit défectueux puis relire "matériellement" pour être certain que c'est bien écrit. L'erreur n'apparaîtra plus.
            Mais... si le disque est trop chaud, agir comme ceci va au contraire rendre les données définitivement illisibles. Aïe. Il faudrait que le pilote gère un débit d'erreur et/ou une sonde de température. Rien de simple et immédiat.
  • # badblocks

    Posté par  . Évalué à 1.

    Tester tes disques avec dd c'est une méthode de violent et qui ne sortira que les erreurs évidentes.
    badblocks lui est fait pour ça, fait des tests plus intelligents et peut être utilisé avec e2fsck pour intégrer la liste des mauvais blocks dans le système de fichiers pour les éviter.
  • # raid soft

    Posté par  . Évalué à 2.

    ton probleme ne pourrait-il pas venir de ta solution raid soft ?

    es-tu en raid soft (controleur logiciel uniquement) ou en fake-raid (controleur raid materiel + logiciel) ?

    perso j'ai parfois des erreurs avec mon fake-raid alors que mes disques pris individuellement sont nickels.

    je me dis que ca peut etre le driver de ma carte raid...

    mais je n'ai pas poussé plus loin le raisonnement.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.