Lors du 5th USENIX Conference on File and Storage Technologies (FAST '07) qui s'est déroulé du 12 au 16 février 2007 à San Jose (en Californie), deux passionnantes analyses statistiques sur la fiabilité des disques durs ont étés présentées, par une équipe de chercheurs de Google d'un coté, et par une équipe de chercheurs de l'université Carnegie Mellon de l'autre. Ces deux études ont étés élaborées à partir des données recueillies sur de très larges échantillons de disques (plus de 100 000 unités dans les deux cas) en condition d'utilisation réelle (ce ne sont pas des tests de laboratoire). Ce sont les premières analyses publiées qui soient basées sur des échantillon de cette envergure.
Ces nouvelles études mettent à mal quelques idées reçues bien ancrées, par exemple :
* Les températures de fonctionnement auparavant considérées comme trop élevées (40 - 45°C) ne sont pas un facteur de panne déterminant.
* Les (très onéreux) disques SCSI et FC ne sont pas plus fiables que les disques SATA (bons marchés)
* La « mortalité infantile » (le fait que les disques tombent en panne durant les premiers mois) n'est pas un phénomène significatif.
* Les données remontées par S.M.A.R.T. permettent très rarement d'anticiper une panne prochaine.
* La probabilité pour que deux disques d'un même système / lot tombent en panne dans un laps de temps court (par exemple avant que l'array RAID soit reconstruite) est très importante.
* Le taux d'activité des disques n'affecte pas significativement leur longévité
Mais des secrets de polichinelle ont été confirmés :
* La fiabilité des disques varie selon les constructeurs (Google ne cite pas de noms)
* La fiabilité des disques (MTTF/MTBF) indiquées officiellement par les constructeurs (par ex. 1 000 000 heures) est très largement sur-évaluée.
Ainsi l'étude de Bianca Schroeder conduit à décrédibiliser le RAID5 dans son rôle d'agent critique pour la fiabilité du stockage, et à préconiser, en lieu et place du RAID5, et lorsque la fiabilité est cruciale, une double réplication des données. Google, dont l'infrastructure de stockage s'appuie sur le système de fichier distribué GFS et sur des disques SATA et PATA (plutôt que SCSI) semble confirmer par la pratique cette recommandation inédite.
Je saisi l'occasion pour faire une remarque militante. Nous savons maintenant qu'un jeux de replicats sur 3 disques durs SATA est plus fiable qu'un système RAID5 matériel en SCSI. Nous savions déjà que cette première option était bien meilleur marché. En outre, le contrôleur RAID physique est lui-même un point individuel de défaillance. Et surtout, les logiciels nécessaires (firmware (micro-code) de la carte, pilotes, outils de gestion à chaud (online management)) ajoutent leurs lots de bugs, d'autant plus critiques que les constructeurs se montrent réticent à rendre les spécifications et les listes de bugs des firmwares publiques. Ces informations faciliteraient l'écriture, l'amélioration, l'audit, et la maintenance des pilotes pour les OS libres (par exemple : connaître en détail les bugs des diverses versions des firmwares permettrait aux pilotes de les contourner) ; elles permettraient l'écriture d'outils libres de gestion à chaud du contrôleur RAID matériel (outils qui nous font généralement cruellement défaut (pensez à Adaptec, par exemple)). L'attractivité des contrôleurs RAID matériels en environnement serveur est donc fortement remise en cause (du moins lorsque la fiabilité prime sur les performances), mais les fabriquants de chipsets ont les cartes en main pour améliorer la situation pour l'ensemble des Unix libres (comme Linux, *BSD et OpenSolaris).
Notons que le 2007 Linux Storage & Filesystem Workshop s'est déroulé conjointement au FAST '07. Nous aurons certainement prochainement des informations sur les nouveaux enjeux et perspectives concernant l'évolution des systèmes de fichiers de Linux.
* FAST '07 : http://db.usenix.org/events/fast07/
* Failure Trends in a Large Disk Drive Population, Eduardo Pinheiro, Wolf-Dietrich Weber and Luiz Andr´ Barroso (Google Inc.) : http://labs.google.com/papers/disk_failures.pdf
* Disk failures in the real world: What does an MTTF of 1,000,000 hours mean to you?, Bianca Schroeder, Garth A. Gibson (Computer Science Department Carnegie Mellon University) : http://www.usenix.org/events/fast07/tech/schroeder/schroeder(...)
* Spécifications matérielles: Theo de Raadt appelle de nouveau au lobbying : http://linuxfr.org/2005/03/19/18549.html
* S.M.A.R.T. (Self-Monitoring, Analysis, and Reporting Technology) : http://fr.wikipedia.org/wiki/Self-Monitoring%2C_Analysis_and(...)
* MTTF (Mean Time To Failure) et MTBF, (Mean Time Between Failures): http://fr.wikipedia.org/wiki/Moyenne_des_Temps_de_Bon_Foncti(...)
* RAID (Redundant Array of Inexpensive Disks) : http://fr.wikipedia.org/wiki/RAID_%28informatique%29
* SCSI (Small Computer System Interface) : http://fr.wikipedia.org/wiki/Small_Computer_System_Interface
* SATA (Serial ATA) : http://fr.wikipedia.org/wiki/Serial_ATA
* FC (Fibre Channel) : http://fr.wikipedia.org/wiki/Fibre_Channel
# Par pitié...
Posté par Grégory SCHMITT . Évalué à 10.
Si je pouvais voter pour les articles du mois, celui-ci arriverait en bonne position.
[^] # Re: Par pitié...
Posté par herodiade . Évalué à 10.
Je n'avais pas le temps de faire la dizaine de cycle relectures + retouches nécessaire à un article, donc un doute sur la qualité de la forme (justifié : je viens de m'apercevoir qu'il aurait fallut utiliser de vraies listes à puces au lieu des astérisques, certaines phrases sont maladroites, s/ont étés présentées/ont été présentées/ (ou mieux : furent), ...), donc journal. Safe mode ;)
Mais si un modérateur veut le vérifier et le déplacer, pas de problème.
Un lien oublié : GFS (Google File System) : http://fr.wikipedia.org/wiki/Google_File_System
[^] # Re: Par pitié...
Posté par herodiade . Évalué à 4.
- s/des échantillon/des échantillons/
- s/array/grappe/
- s/indiquées officiellement/telle qu'indiquée officiellement/
- s/chipsets/circuits intégrés/
- s/ Failures): / Failures) : / (typo)
[^] # Re: Par pitié...
Posté par herodiade . Évalué à 4.
- s/se montrent réticent/se montrent réticents/
- s/de la carte/du contrôleur/
[^] # Re: Par pitié...
Posté par Zenitram (site web personnel) . Évalué à 1.
Une dépêche plutôt.
# Merci
Posté par chl (site web personnel) . Évalué à 7.
[^] # Re: Merci
Posté par Pierre Tramonson . Évalué à 5.
A moins qu'il ne s'agisse déjà d'une news refusée ?
[^] # Re: Merci
Posté par BAud (site web personnel) . Évalué à 3.
non.
elle est en train d'être mise en dépêche / wikipédifiée toussa
c'est le moment d'ajouter vos commentaires pertinents :)
# Seagate
Posté par Alex . Évalué à 1.
Pensez-vous que les 5 ans de garantie de l'ensemble de la gamme de disques dur internes Seagate soit réellement un gage de qualité ?
Rien ne vaut une étude à grande échelle, mais avez-vous eu des problèmes avec ces HDDs ?
Apal, serial hdd killer.
[^] # Re: Seagate
Posté par herodiade . Évalué à 2.
Article en Russe : http://pro.sunrise.ru/articletext.asp?reg=30&id=283
Traduit à l'emporte pièce par Google : http://translate.google.com/translate?u=http%3A%2F%2Fpro.sun(...)
Segate s'en sort assez bien, tandis que les produits Maxtor semblent peu fiables.
[^] # Re: Seagate
Posté par rictus (site web personnel) . Évalué à 1.
Et je trouve les 7200.10 assez silencieux (et ceux pas seulement pendant 6 mois comme d'autres marques...)
[^] # Re: Seagate
Posté par Romuald Delavergne . Évalué à 2.
[^] # Re: Seagate
Posté par regdub . Évalué à 1.
Les derniers chiffres sont de janvier 2006, malheureusement.
http://www.hardware.fr/html/news/?date=05-01-2006#7931
# EB< ?
Posté par Nicolas Schoonbroodt . Évalué à 5.
Et l'avortement de disque dur, c'est légal ?
[^] # Re: EB< ?
Posté par zebra3 . Évalué à 2.
(Desproges)
Article Quarante-Deux : Toute personne dépassant un kilomètre de haut doit quitter le Tribunal. -- Le Roi de Cœur
# GFS, OCFS2 et compagnie
Posté par Fabien Engels . Évalué à 2.
OCFS2 semblait pas mal par sa facilité d'installation mais encore jeune tandis que GFS (de RedHat) semble etre plus contraignant à l'usage ...
# ...
Posté par Anonyme . Évalué à 0.
L'électronique, ce n'est pas le corps humain, c'est un poil moins fragile. En réalité, comme un moteur, le plus important et que toutes les parties soient à une température uniforme, ce qui réduit les contraintes (différence de propriétés selon la température).
C'est vrai pour le SATA, pas pour l'IDE qui est quand même plus fragile en utilisation intensive.
Pas nouveau, à moins de faire le kéké (et hop, 5 disques SCSI 15k tours dans un boitier fermé non-ventilé), les disques durs sont des produits issus d'une industrie assez performante (contrôles réguliers du produit, toussa). Le syndrôme "mon <pièce d'ordinateur> crâme 2 semaines après achat, je n'ai vu ça que sur du matos de merde (ram noname).
Deux disques de même marques ont globalement le même état à la sortie de l'usine; ils sont soumis à une usure identique, dans les mêmes conditions pendant toute leur utilisation, donc forcément, il y a des chances qu'ils arrivent en mauvais état plus ou moins en même temps.
Encore une fois, normal. Peu de gens sont au courant que faire tourner un système mécanique évolué (valable pour un ventilateur, également) l'use moins que le lancer et le stopper régulièrement.
Un disque dur de qualité qui tourne H24 durera plus longtemps qu'un disque éteint le soir et rallumé le matin.
Une fois les pièces à température uniforme, ça tourne bien, plus de problèmes. Idem pour l'électronique, d'ailleurs.
Pour la différence de fiabilité selon le constructeur, c'est un faux problème. Tous les constructeurs ont des technologies équivalentes, et dans des gammes de même niveau, on a à peu près la même fiabilité. Mais forcément, ceux qui utilisent plus de seagate on plus de chance d'avoir plus de pannes que ceux qui utilisent plus de maxtor.
Enfin personnellement, et d'après mes connaissances, seagate tourne super bien, maxtor est daubesque en marché grand public, mais très costaud en matos haut de gamme, hitachi et western digital dépotent, samsung est excellent.
Le problème, c'est que dès fois, on tombe sur des séries foireuses, et hop, tout le monde en conclut que la marque pue.
Le RAID 5, d'après une connaissance bossant parmi de vrais servers vraiment importants, c'est pas terrible, et ils ont tendance à préférer le RAID 6, qui bouffent bien plus, mais est bien moins gênant en cas de panne.
Gros problème également, une vraie carte RAID avec suffisament de NVRAM coûte TRES cher (plus de 1000e), et en cas de panne, pas sur que la suivante arrive à reprendre les volumes, donc il en faut deux identiques.
Traduction, dans l'ensemble, les solutions de stockage actuelles sucks.
[^] # Re: ...
Posté par regdub . Évalué à 2.
J'aimerais bien voir une étude sur cette idée répandue.
Je n'ai rien vu de tel dans ces études.
> Pour la différence de fiabilité selon le constructeur, c'est un faux problème. Tous les constructeurs ont des technologies équivalentes, et dans des gammes de même niveau, on a à peu près la même fiabilité.
Tu arrives à savoir la fiabilité d'un disque d'après la technologie employée ?
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.