Journal Deux analyses précieuses sur la fiabilité et la longévité des disques durs

Posté par herodiade le 21 février 2007 à 14:03.

Étiquettes :

fév.

2007

Lors du 5th USENIX Conference on File and Storage Technologies (FAST '07) qui s'est déroulé du 12 au 16 février 2007 à San Jose (en Californie), deux passionnantes analyses statistiques sur la fiabilité des disques durs ont étés présentées, par une équipe de chercheurs de Google d'un coté, et par une équipe de chercheurs de l'université Carnegie Mellon de l'autre. Ces deux études ont étés élaborées à partir des données recueillies sur de très larges échantillons de disques (plus de 100 000 unités dans les deux cas) en condition d'utilisation réelle (ce ne sont pas des tests de laboratoire). Ce sont les premières analyses publiées qui soient basées sur des échantillon de cette envergure.

Ces nouvelles études mettent à mal quelques idées reçues bien ancrées, par exemple :

* Les températures de fonctionnement auparavant considérées comme trop élevées (40 - 45°C) ne sont pas un facteur de panne déterminant.
* Les (très onéreux) disques SCSI et FC ne sont pas plus fiables que les disques SATA (bons marchés)
* La « mortalité infantile » (le fait que les disques tombent en panne durant les premiers mois) n'est pas un phénomène significatif.
* Les données remontées par S.M.A.R.T. permettent très rarement d'anticiper une panne prochaine.
* La probabilité pour que deux disques d'un même système / lot tombent en panne dans un laps de temps court (par exemple avant que l'array RAID soit reconstruite) est très importante.
* Le taux d'activité des disques n'affecte pas significativement leur longévité

Mais des secrets de polichinelle ont été confirmés :

* La fiabilité des disques varie selon les constructeurs (Google ne cite pas de noms)
* La fiabilité des disques (MTTF/MTBF) indiquées officiellement par les constructeurs (par ex. 1 000 000 heures) est très largement sur-évaluée.

Ainsi l'étude de Bianca Schroeder conduit à décrédibiliser le RAID5 dans son rôle d'agent critique pour la fiabilité du stockage, et à préconiser, en lieu et place du RAID5, et lorsque la fiabilité est cruciale, une double réplication des données. Google, dont l'infrastructure de stockage s'appuie sur le système de fichier distribué GFS et sur des disques SATA et PATA (plutôt que SCSI) semble confirmer par la pratique cette recommandation inédite.

Je saisi l'occasion pour faire une remarque militante. Nous savons maintenant qu'un jeux de replicats sur 3 disques durs SATA est plus fiable qu'un système RAID5 matériel en SCSI. Nous savions déjà que cette première option était bien meilleur marché. En outre, le contrôleur RAID physique est lui-même un point individuel de défaillance. Et surtout, les logiciels nécessaires (firmware (micro-code) de la carte, pilotes, outils de gestion à chaud (online management)) ajoutent leurs lots de bugs, d'autant plus critiques que les constructeurs se montrent réticent à rendre les spécifications et les listes de bugs des firmwares publiques. Ces informations faciliteraient l'écriture, l'amélioration, l'audit, et la maintenance des pilotes pour les OS libres (par exemple : connaître en détail les bugs des diverses versions des firmwares permettrait aux pilotes de les contourner) ; elles permettraient l'écriture d'outils libres de gestion à chaud du contrôleur RAID matériel (outils qui nous font généralement cruellement défaut (pensez à Adaptec, par exemple)). L'attractivité des contrôleurs RAID matériels en environnement serveur est donc fortement remise en cause (du moins lorsque la fiabilité prime sur les performances), mais les fabriquants de chipsets ont les cartes en main pour améliorer la situation pour l'ensemble des Unix libres (comme Linux, *BSD et OpenSolaris).

Notons que le 2007 Linux Storage & Filesystem Workshop s'est déroulé conjointement au FAST '07. Nous aurons certainement prochainement des informations sur les nouveaux enjeux et perspectives concernant l'évolution des systèmes de fichiers de Linux.

* FAST '07 : http://db.usenix.org/events/fast07/
* Failure Trends in a Large Disk Drive Population, Eduardo Pinheiro, Wolf-Dietrich Weber and Luiz Andr´ Barroso (Google Inc.) : http://labs.google.com/papers/disk_failures.pdf
* Disk failures in the real world: What does an MTTF of 1,000,000 hours mean to you?, Bianca Schroeder, Garth A. Gibson (Computer Science Department Carnegie Mellon University) : http://www.usenix.org/events/fast07/tech/schroeder/schroeder(...)
* Spécifications matérielles: Theo de Raadt appelle de nouveau au lobbying : http://linuxfr.org/2005/03/19/18549.html
* S.M.A.R.T. (Self-Monitoring, Analysis, and Reporting Technology) : http://fr.wikipedia.org/wiki/Self-Monitoring%2C_Analysis_and(...)
* MTTF (Mean Time To Failure) et MTBF, (Mean Time Between Failures): http://fr.wikipedia.org/wiki/Moyenne_des_Temps_de_Bon_Foncti(...)
* RAID (Redundant Array of Inexpensive Disks) : http://fr.wikipedia.org/wiki/RAID_%28informatique%29
* SCSI (Small Computer System Interface) : http://fr.wikipedia.org/wiki/Small_Computer_System_Interface
* SATA (Serial ATA) : http://fr.wikipedia.org/wiki/Serial_ATA
* FC (Fibre Channel) : http://fr.wikipedia.org/wiki/Fibre_Channel

# Par pitié...

Posté par Grégory SCHMITT le 21 février 2007 à 14:22. Évalué à 10.

En première page ! Ce journal est tellement intéressant, concerne tellement de monde (pour ne pas dire tous), si bien construit avec une orthographe impeccable.... J'espère que ce n'est pas un copier-coller !

Si je pouvais voter pour les articles du mois, celui-ci arriverait en bonne position.
- [^] # Re: Par pitié...
  
  Posté par herodiade le 21 février 2007 à 14:37. Évalué à 10.
  
  Ce n'est pas un copié-collé.
  Je n'avais pas le temps de faire la dizaine de cycle relectures + retouches nécessaire à un article, donc un doute sur la qualité de la forme (justifié : je viens de m'apercevoir qu'il aurait fallut utiliser de vraies listes à puces au lieu des astérisques, certaines phrases sont maladroites, s/ont étés présentées/ont été présentées/ (ou mieux : furent), ...), donc journal. Safe mode ;)
  Mais si un modérateur veut le vérifier et le déplacer, pas de problème.
  Un lien oublié : GFS (Google File System) : http://fr.wikipedia.org/wiki/Google_File_System
  - [^] # Re: Par pitié...
    
    Posté par herodiade le 21 février 2007 à 14:50. Évalué à 4.
    
    ... et aussi :
    
    - s/des échantillon/des échantillons/
    - s/array/grappe/
    - s/indiquées officiellement/telle qu'indiquée officiellement/
    - s/chipsets/circuits intégrés/
    - s/ Failures): / Failures) : / (typo)
    - [^] # Re: Par pitié...
      
      Posté par herodiade le 21 février 2007 à 14:59. Évalué à 4.
      
      ... mais encore :
      
      - s/se montrent réticent/se montrent réticents/
      - s/de la carte/du contrôleur/
- [^] # Re: Par pitié...
  
  Posté par Zenitram (site web personnel) le 21 février 2007 à 16:21. Évalué à 1.
  
  Non, pas une journal de première page.
  Une dépêche plutôt.
# Merci

Posté par chl (site web personnel) le 21 février 2007 à 14:25. Évalué à 7.

Oui, merci pour ce journal vraiment très intéressant. J'aurais tendence a dire qu'un journal de cette qualité aurait pu faire l'objet d'une news mais j'aurais l'impression de me répeter :)
- [^] # Re: Merci
  
  Posté par Pierre Tramonson le 21 février 2007 à 14:31. Évalué à 5.
  
  Je vote pour la news aussi :p
  A moins qu'il ne s'agisse déjà d'une news refusée ?
  - [^] # Re: Merci
    
    Posté par BAud (site web personnel) le 21 février 2007 à 14:40. Évalué à 3.
    
    A moins qu'il ne s'agisse déjà d'une news refusée ?
    non.
    elle est en train d'être mise en dépêche / wikipédifiée toussa
    
    c'est le moment d'ajouter vos commentaires pertinents :)
# Seagate

Posté par Alex le 21 février 2007 à 14:54. Évalué à 1.

Dommage que le constructeur / modèle le plus fiable ne soit pas renseigné, mais cela se comprend plus ou moins...

Pensez-vous que les 5 ans de garantie de l'ensemble de la gamme de disques dur internes Seagate soit réellement un gage de qualité ?
Rien ne vaut une étude à grande échelle, mais avez-vous eu des problèmes avec ces HDDs ?

Apal, serial hdd killer.
- [^] # Re: Seagate
  
  Posté par herodiade le 21 février 2007 à 15:13. Évalué à 2.
  
  Un grand distributeur russe a publié ses statistiques de retours pour le premier semestre 2005.
  
  Article en Russe : http://pro.sunrise.ru/articletext.asp?reg=30&id=283
  Traduit à l'emporte pièce par Google : http://translate.google.com/translate?u=http%3A%2F%2Fpro.sun(...)
  
  Segate s'en sort assez bien, tandis que les produits Maxtor semblent peu fiables.
  - [^] # Re: Seagate
    
    Posté par rictus (site web personnel) le 21 février 2007 à 17:00. Évalué à 1.
    
    Mon expérience personnelle confirme largement ta dernière remarque...
    Et je trouve les 7200.10 assez silencieux (et ceux pas seulement pendant 6 mois comme d'autres marques...)
    - [^] # Re: Seagate
      
      Posté par Romuald Delavergne le 22 février 2007 à 21:31. Évalué à 2.
      
      Je confirme aussi de mon côté. Les disques Seagate ne m'ont jamais déçus au niveau fiabilité. La seule raison qui a fait que je m'en suis séparé est qu'au bout de plus de 7 ans, leur taille devenait négligeable avec le dernier disque acheté (un Seagate bien sûr).
- [^] # Re: Seagate
  
  Posté par regdub le 23 février 2007 à 01:45. Évalué à 1.
  
  De temps en temps, une boutique donne ses taux de retour en SAV.
  Les derniers chiffres sont de janvier 2006, malheureusement.
  
  http://www.hardware.fr/html/news/?date=05-01-2006#7931
# EB< ?

Posté par Nicolas Schoonbroodt le 21 février 2007 à 19:54. Évalué à 5.

La « mortalité infantile » (le fait que les disques tombent en panne durant les premiers mois)

Et l'avortement de disque dur, c'est légal ?
- [^] # Re: EB< ?
  
  Posté par zebra3 le 22 février 2007 à 11:50. Évalué à 2.
  
  On ne dit plus un avortement, mais une interruption volontaire de grossesse, ceci afin de ménager l’amour-propre du f½tus.
  (Desproges)
  Article Quarante-Deux : Toute personne dépassant un kilomètre de haut doit quitter le Tribunal. -- Le Roi de Cœur
# GFS, OCFS2 et compagnie

Posté par Fabien Engels le 22 février 2007 à 10:03. Évalué à 2.

Quelqu'un a des retours sur l'utilisation de ces systèmes de fichiers ?

OCFS2 semblait pas mal par sa facilité d'installation mais encore jeune tandis que GFS (de RedHat) semble etre plus contraignant à l'usage ...
# ...

Posté par Anonyme le 23 février 2007 à 11:39. Évalué à 0.

Bah en même temps, ya pas grand chose de nouveau tout cours:

Les températures de fonctionnement auparavant considérées comme trop élevées (40 - 45°C) ne sont pas un facteur de panne déterminant.

L'électronique, ce n'est pas le corps humain, c'est un poil moins fragile. En réalité, comme un moteur, le plus important et que toutes les parties soient à une température uniforme, ce qui réduit les contraintes (différence de propriétés selon la température).

Les (très onéreux) disques SCSI et FC ne sont pas plus fiables que les disques SATA (bons marchés)

C'est vrai pour le SATA, pas pour l'IDE qui est quand même plus fragile en utilisation intensive.

La « mortalité infantile » (le fait que les disques tombent en panne durant les premiers mois) n'est pas un phénomène significatif.

Pas nouveau, à moins de faire le kéké (et hop, 5 disques SCSI 15k tours dans un boitier fermé non-ventilé), les disques durs sont des produits issus d'une industrie assez performante (contrôles réguliers du produit, toussa). Le syndrôme "mon <pièce d'ordinateur> crâme 2 semaines après achat, je n'ai vu ça que sur du matos de merde (ram noname).

La probabilité pour que deux disques d'un même système / lot tombent en panne dans un laps de temps court (par exemple avant que l'array RAID soit reconstruite) est très importante.

Deux disques de même marques ont globalement le même état à la sortie de l'usine; ils sont soumis à une usure identique, dans les mêmes conditions pendant toute leur utilisation, donc forcément, il y a des chances qu'ils arrivent en mauvais état plus ou moins en même temps.

Le taux d'activité des disques n'affecte pas significativement leur longévité

Encore une fois, normal. Peu de gens sont au courant que faire tourner un système mécanique évolué (valable pour un ventilateur, également) l'use moins que le lancer et le stopper régulièrement.
Un disque dur de qualité qui tourne H24 durera plus longtemps qu'un disque éteint le soir et rallumé le matin.
Une fois les pièces à température uniforme, ça tourne bien, plus de problèmes. Idem pour l'électronique, d'ailleurs.

Pour la différence de fiabilité selon le constructeur, c'est un faux problème. Tous les constructeurs ont des technologies équivalentes, et dans des gammes de même niveau, on a à peu près la même fiabilité. Mais forcément, ceux qui utilisent plus de seagate on plus de chance d'avoir plus de pannes que ceux qui utilisent plus de maxtor.

Enfin personnellement, et d'après mes connaissances, seagate tourne super bien, maxtor est daubesque en marché grand public, mais très costaud en matos haut de gamme, hitachi et western digital dépotent, samsung est excellent.

Le problème, c'est que dès fois, on tombe sur des séries foireuses, et hop, tout le monde en conclut que la marque pue.

Le RAID 5, d'après une connaissance bossant parmi de vrais servers vraiment importants, c'est pas terrible, et ils ont tendance à préférer le RAID 6, qui bouffent bien plus, mais est bien moins gênant en cas de panne.

Gros problème également, une vraie carte RAID avec suffisament de NVRAM coûte TRES cher (plus de 1000e), et en cas de panne, pas sur que la suivante arrive à reprendre les volumes, donc il en faut deux identiques.

Traduction, dans l'ensemble, les solutions de stockage actuelles sucks.
- [^] # Re: ...
  
  Posté par regdub le 23 février 2007 à 18:46. Évalué à 2.
  
  >Un disque dur de qualité qui tourne H24 durera plus longtemps qu'un disque éteint le soir et rallumé le matin.
  
  J'aimerais bien voir une étude sur cette idée répandue.
  Je n'ai rien vu de tel dans ces études.
  
  > Pour la différence de fiabilité selon le constructeur, c'est un faux problème. Tous les constructeurs ont des technologies équivalentes, et dans des gammes de même niveau, on a à peu près la même fiabilité.
  
  Tu arrives à savoir la fiabilité d'un disque d'après la technologie employée ?

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.