Journal : Deux analyses précieuses sur la fiabilité et la longévité des disques durs
Posté par herodiade () le 21 février 2007
Lors du 5th USENIX Conference on File and Storage Technologies (FAST '07) qui s'est déroulé du 12 au 16 février 2007 à San Jose (en Californie), deux passionnantes analyses statistiques sur la fiabilité des disques durs ont étés présentées, par une équipe de chercheurs de Google d'un coté, et par une équipe de chercheurs de l'université Carnegie Mellon de l'autre. Ces deux études ont étés élaborées à partir des données recueillies sur de très larges échantillons de disques (plus de 100 000 unités dans les deux cas) en condition d'utilisation réelle (ce ne sont pas des tests de laboratoire). Ce sont les premières analyses publiées qui soient basées sur des échantillon de cette envergure.
Ces nouvelles études mettent à mal quelques idées reçues bien ancrées, par exemple :
* Les températures de fonctionnement auparavant considérées comme trop élevées (40 - 45°C) ne sont pas un facteur de panne déterminant.
* Les (très onéreux) disques SCSI et FC ne sont pas plus fiables que les disques SATA (bons marchés)
* La « mortalité infantile » (le fait que les disques tombent en panne durant les premiers mois) n'est pas un phénomène significatif.
* Les données remontées par S.M.A.R.T. permettent très rarement d'anticiper une panne prochaine.
* La probabilité pour que deux disques d'un même système / lot tombent en panne dans un laps de temps court (par exemple avant que l'array RAID soit reconstruite) est très importante.
* Le taux d'activité des disques n'affecte pas significativement leur longévité
Mais des secrets de polichinelle ont été confirmés :
* La fiabilité des disques varie selon les constructeurs (Google ne cite pas de noms)
* La fiabilité des disques (MTTF/MTBF) indiquées officiellement par les constructeurs (par ex. 1 000 000 heures) est très largement sur-évaluée.
Ainsi l'étude de Bianca Schroeder conduit à décrédibiliser le RAID5 dans son rôle d'agent critique pour la fiabilité du stockage, et à préconiser, en lieu et place du RAID5, et lorsque la fiabilité est cruciale, une double réplication des données. Google, dont l'infrastructure de stockage s'appuie sur le système de fichier distribué GFS et sur des disques SATA et PATA (plutôt que SCSI) semble confirmer par la pratique cette recommandation inédite.
Je saisi l'occasion pour faire une remarque militante. Nous savons maintenant qu'un jeux de replicats sur 3 disques durs SATA est plus fiable qu'un système RAID5 matériel en SCSI. Nous savions déjà que cette première option était bien meilleur marché. En outre, le contrôleur RAID physique est lui-même un point individuel de défaillance. Et surtout, les logiciels nécessaires (firmware (micro-code) de la carte, pilotes, outils de gestion à chaud (online management)) ajoutent leurs lots de bugs, d'autant plus critiques que les constructeurs se montrent réticent à rendre les spécifications et les listes de bugs des firmwares publiques. Ces informations faciliteraient l'écriture, l'amélioration, l'audit, et la maintenance des pilotes pour les OS libres (par exemple : connaître en détail les bugs des diverses versions des firmwares permettrait aux pilotes de les contourner) ; elles permettraient l'écriture d'outils libres de gestion à chaud du contrôleur RAID matériel (outils qui nous font généralement cruellement défaut (pensez à Adaptec, par exemple)). L'attractivité des contrôleurs RAID matériels en environnement serveur est donc fortement remise en cause (du moins lorsque la fiabilité prime sur les performances), mais les fabriquants de chipsets ont les cartes en main pour améliorer la situation pour l'ensemble des Unix libres (comme Linux, *BSD et OpenSolaris).
Notons que le 2007 Linux Storage & Filesystem Workshop s'est déroulé conjointement au FAST '07. Nous aurons certainement prochainement des informations sur les nouveaux enjeux et perspectives concernant l'évolution des systèmes de fichiers de Linux.
* FAST '07 : http://db.usenix.org/events/fast07/
* Failure Trends in a Large Disk Drive Population, Eduardo Pinheiro, Wolf-Dietrich Weber and Luiz Andr´ Barroso (Google Inc.) : http://labs.google.com/papers/disk_failures.pdf
* Disk failures in the real world: What does an MTTF of 1,000,000 hours mean to you?, Bianca Schroeder, Garth A. Gibson (Computer Science Department Carnegie Mellon University) : http://www.usenix.org/events/fast07/tech/schroeder/schroeder(...)
* Spécifications matérielles: Theo de Raadt appelle de nouveau au lobbying : http://linuxfr.org/2005/03/19/18549.html
* S.M.A.R.T. (Self-Monitoring, Analysis, and Reporting Technology) : http://fr.wikipedia.org/wiki/Self-Monitoring%2C_Analysis_and(...)
* MTTF (Mean Time To Failure) et MTBF, (Mean Time Between Failures): http://fr.wikipedia.org/wiki/Moyenne_des_Temps_de_Bon_Foncti(...)
* RAID (Redundant Array of Inexpensive Disks) : http://fr.wikipedia.org/wiki/RAID_%28informatique%29
* SCSI (Small Computer System Interface) : http://fr.wikipedia.org/wiki/Small_Computer_System_Interface
* SATA (Serial ATA) : http://fr.wikipedia.org/wiki/Serial_ATA
* FC (Fibre Channel) : http://fr.wikipedia.org/wiki/Fibre_Channel
Ces nouvelles études mettent à mal quelques idées reçues bien ancrées, par exemple :
* Les températures de fonctionnement auparavant considérées comme trop élevées (40 - 45°C) ne sont pas un facteur de panne déterminant.
* Les (très onéreux) disques SCSI et FC ne sont pas plus fiables que les disques SATA (bons marchés)
* La « mortalité infantile » (le fait que les disques tombent en panne durant les premiers mois) n'est pas un phénomène significatif.
* Les données remontées par S.M.A.R.T. permettent très rarement d'anticiper une panne prochaine.
* La probabilité pour que deux disques d'un même système / lot tombent en panne dans un laps de temps court (par exemple avant que l'array RAID soit reconstruite) est très importante.
* Le taux d'activité des disques n'affecte pas significativement leur longévité
Mais des secrets de polichinelle ont été confirmés :
* La fiabilité des disques varie selon les constructeurs (Google ne cite pas de noms)
* La fiabilité des disques (MTTF/MTBF) indiquées officiellement par les constructeurs (par ex. 1 000 000 heures) est très largement sur-évaluée.
Ainsi l'étude de Bianca Schroeder conduit à décrédibiliser le RAID5 dans son rôle d'agent critique pour la fiabilité du stockage, et à préconiser, en lieu et place du RAID5, et lorsque la fiabilité est cruciale, une double réplication des données. Google, dont l'infrastructure de stockage s'appuie sur le système de fichier distribué GFS et sur des disques SATA et PATA (plutôt que SCSI) semble confirmer par la pratique cette recommandation inédite.
Je saisi l'occasion pour faire une remarque militante. Nous savons maintenant qu'un jeux de replicats sur 3 disques durs SATA est plus fiable qu'un système RAID5 matériel en SCSI. Nous savions déjà que cette première option était bien meilleur marché. En outre, le contrôleur RAID physique est lui-même un point individuel de défaillance. Et surtout, les logiciels nécessaires (firmware (micro-code) de la carte, pilotes, outils de gestion à chaud (online management)) ajoutent leurs lots de bugs, d'autant plus critiques que les constructeurs se montrent réticent à rendre les spécifications et les listes de bugs des firmwares publiques. Ces informations faciliteraient l'écriture, l'amélioration, l'audit, et la maintenance des pilotes pour les OS libres (par exemple : connaître en détail les bugs des diverses versions des firmwares permettrait aux pilotes de les contourner) ; elles permettraient l'écriture d'outils libres de gestion à chaud du contrôleur RAID matériel (outils qui nous font généralement cruellement défaut (pensez à Adaptec, par exemple)). L'attractivité des contrôleurs RAID matériels en environnement serveur est donc fortement remise en cause (du moins lorsque la fiabilité prime sur les performances), mais les fabriquants de chipsets ont les cartes en main pour améliorer la situation pour l'ensemble des Unix libres (comme Linux, *BSD et OpenSolaris).
Notons que le 2007 Linux Storage & Filesystem Workshop s'est déroulé conjointement au FAST '07. Nous aurons certainement prochainement des informations sur les nouveaux enjeux et perspectives concernant l'évolution des systèmes de fichiers de Linux.
* FAST '07 : http://db.usenix.org/events/fast07/
* Failure Trends in a Large Disk Drive Population, Eduardo Pinheiro, Wolf-Dietrich Weber and Luiz Andr´ Barroso (Google Inc.) : http://labs.google.com/papers/disk_failures.pdf
* Disk failures in the real world: What does an MTTF of 1,000,000 hours mean to you?, Bianca Schroeder, Garth A. Gibson (Computer Science Department Carnegie Mellon University) : http://www.usenix.org/events/fast07/tech/schroeder/schroeder(...)
* Spécifications matérielles: Theo de Raadt appelle de nouveau au lobbying : http://linuxfr.org/2005/03/19/18549.html
* S.M.A.R.T. (Self-Monitoring, Analysis, and Reporting Technology) : http://fr.wikipedia.org/wiki/Self-Monitoring%2C_Analysis_and(...)
* MTTF (Mean Time To Failure) et MTBF, (Mean Time Between Failures): http://fr.wikipedia.org/wiki/Moyenne_des_Temps_de_Bon_Foncti(...)
* RAID (Redundant Array of Inexpensive Disks) : http://fr.wikipedia.org/wiki/RAID_%28informatique%29
* SCSI (Small Computer System Interface) : http://fr.wikipedia.org/wiki/Small_Computer_System_Interface
* SATA (Serial ATA) : http://fr.wikipedia.org/wiki/Serial_ATA
* FC (Fibre Channel) : http://fr.wikipedia.org/wiki/Fibre_Channel
> Lire le journal (18 commentaires, moyenne: 3,4).
Vous avez demandé le commentaire #806722.



GFS, OCFS2 et compagnie
Quelqu'un a des retours sur l'utilisation de ces systèmes de fichiers ?
OCFS2 semblait pas mal par sa facilité d'installation mais encore jeune tandis que GFS (de RedHat) semble etre plus contraignant à l'usage ...