Forum général.général Disque dur défaillant ?

Posté par Thibaut le 21 avril 2008 à 10:50.

Étiquettes :

avr.

2008

Bonjour,
Pour commencer, il y a quelques semaines déjà, un fichier de dpkg était corrompu : juste un petit octet qui s'était transformé en quelque chose d'autre. L'ayant corrigé à la main, je me suis pas plus inquiété que ça.

Et là, hier, c'était la catastrophe...
J'ai décidé de télécharger les 5 DVDs de debian testing pour une installation offline dans un coin reculé, pendant les vacances...
J'ai téléchargé le premier et le second DVD par HTTP, et le 3ème via jigdo.
Pour les trois, même verdict : les sommes MD5 ne correspondaient pas.
J'ai re-téléchargé le premier DVD et... somme MD5 inédite...
J'ai copié le deuxième DVD vers un autre fichier et... somme MD5 inédite.
Dans le doute, j'ai copié un petit fichier, les sommes MD5 correspondent.
J'ai re-vérifié la somme MD5 du deuxième DVD, la somme était celle d'avant.
Déduction : md5sum ne se trompe pas, et moi, j'ai un sérieux problème pour écrire sur mon DD.

De plus, j'ai eu à nouveau une corruption d'un fichier de dpkg : un « 2 » a remplacé un « : » dans je ne sais plus quel fichier.

Donc, comment être sûr que ça viens du DD ? Qu'il foire en écriture mais pas en lecture n'est-il pas étrange ? De quoi ça viendrait d'autre ? Que faire ( mis à part un backup sur un autre disque, ce que je viens de faire ) ?

Voici ce que SMART me dit ( j'ai pas lancé de test faut que je cherche comment faire ) :



smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen

Home page is http://smartmontools.sourceforge.net/



=== START OF READ SMART DATA SECTION ===

SMART Attributes Data Structure revision number: 16

Vendor Specific SMART Attributes with Thresholds:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE

  1 Raw_Read_Error_Rate     0x000f   100   100   046    Pre-fail  Always       -       214740

  2 Throughput_Performance  0x0005   100   100   030    Pre-fail  Offline      -       40370176

  3 Spin_Up_Time            0x0003   100   100   025    Pre-fail  Always       -       1

  4 Start_Stop_Count        0x0032   099   099   000    Old_age   Always       -       1744

  5 Reallocated_Sector_Ct   0x0033   100   100   024    Pre-fail  Always       -       8589934592000

  7 Seek_Error_Rate         0x000f   100   100   047    Pre-fail  Always       -       1045

  8 Seek_Time_Performance   0x0005   100   100   019    Pre-fail  Offline      -       0

  9 Power_On_Seconds        0x0032   087   087   000    Old_age   Always       -       6855h+41m+56s

 10 Spin_Retry_Count        0x0013   100   100   020    Pre-fail  Always       -       0

 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       1540

192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       107

193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       7471

194 Temperature_Celsius     0x0022   100   100   000    Old_age   Always       -       39 (Lifetime Min/Max 15/49)

195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       25266

196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       447741952

197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0

198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0

199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0

200 Multi_Zone_Error_Rate   0x000f   100   100   060    Pre-fail  Always       -       32078

203 Run_Out_Cancel          0x0002   100   100   000    Old_age   Always       -       2628526078328

Mon système d'exploitation : Debian GNU/Linux, à cheval entre testing, unstable et experimental, avec surtout du testing en fait.
Version du noyau : 2.6.24-1-686
Options de montage de la partition /home ( ext3 ) qui merde : defaults,relatime.
Le /, qui contient les fichiers de dpkg qui ont été par deux fois corrompus, est sur le même disque dur, et a les mêmes options de montage, avec un errors=remount-ro en plus.

# bjr

Posté par abofrp31 le 21 avril 2008 à 11:16. Évalué à -4.

bjr

tenter d'installer avec des iso dont le md5 est invalide est une erreur,
si ta ligne est pourrie, tu peux tenter de forcer le débit à être faible pour le téléchargement, avec certains softs de téléchargements ou/et de FTP), et surtout à le faire avec le moins d'activité machine possible, (init 3 et tous services fermés à part les services réseaux).
# Problème de mémoire ?

Posté par Kerro le 21 avril 2008 à 11:22. Évalué à 3.

Bonjour,

je ne sais pas trop lire la sortie de smartctl, mais selon la description de ton problème, c'est plutôt la mémoire qui pose problème. Eventuellement la carte-mère, et très peu probablement le processeur.

Le disque-dur est quasiment hors de cause (cela dit, ce n'est pas 100% exclus).

A tout hasard fait tourner memtest pendant une nuit.
- [^] # Re: Problème de mémoire ?
  
  Posté par Thibaut le 21 avril 2008 à 11:28. Évalué à 1.
  
  Je ne vois pas pourquoi ce serait plus la mémoire que le disque dur ( utiliser cp ou wget ne devrait pas beaucoup utiliser la RAM, si ? Enfin, pas plus que md5sum ? ).
  Ceci dit, j'essaierai memtest quand SMART aura fini son test long.
  - [^] # tu as des outils bien étonnants
    
    Posté par Kerro le 21 avril 2008 à 11:44. Évalué à 3.
    
    cp et wget n'utilisent pas la mémoire ? Ah...
    
    Si tu ne vois pas pourquoi ce n'est pas le disque-dur, c'est que tu ne sais pas comment ça fonctionne. Ce n'est pas grave en soit, mais ça fait deux problèmes de connaissance dans la même phrase :-)
    
    Comment dire sans être trop méchant... Hum... Disons que tu vas d'abord faire ton memtest et ensuite tu reviendras dire que j'avais tort.
    - [^] # Re: tu as des outils bien étonnants
      
      Posté par Thibaut le 21 avril 2008 à 11:51. Évalué à 2.
      
      J'ai pas dit que tu avais tort, mais que je pensais pas que ce soit la RAM... Mais je vais quand même tester, quand SMART aura fini ( d'ici une heure ).
      Et j'espère que tu as raison, parce que ce serait quand même moins chiant, une barette de RAM qui foire, qu'un disque dur ;)
      - [^] # Re: tu as des outils bien étonnants
        
        Posté par Kerro le 21 avril 2008 à 12:04. Évalué à 3.
        
        Il n'empêche que dans tous les cas, tu ne peux plus faire confiance aux données de ton disque.
        
        Soit le disque a un problème (très peu probable à mon avis) donc poubelle après récupération des données, soit il est bon mais ce qui est dessus est douteux. Dans tous les cas tu es bon pour une sauvegarde sur un autre support, réinstallation de l'OS et recopie des données en sachant qu'elles peuvent être corrompue.
        
        Si memtest te donnes des erreurs, ça peut venir de la mémoire ou de la carte-mère (éventuellement du processeur, mais je n'ai pour le moment jamais vu cela). Pour savoir si c'est l'un ou l'autre qui pose problème, c'est plus délicat :-)
        Si tu as 2 barettes de mémoire, refait le test avec une seule, puis avec l'autre. Si l'erreur disparaît alors c'est la carte-mère (ou les réglages dans le BIOS). Si l'erreur est toujours là ça ne prouve rien, la bonne blague. Il te faut alors faire le test avec d'autres mémoires.
        
        [^] # Re: tu as des outils bien étonnants
        
        Posté par Thibaut le 21 avril 2008 à 12:12. Évalué à 1.
        
        Le backup est déjà fait et a l'air de correspondre à ce qu'il ya sur mon disque au moment présent.
        Je suis pas très chaud pour une réinstallation, mais si c'est à faire, je le ferait.
        
        Pour memtest, je ne pourrait faire qu'un test sans casser la garantie ( laptop, pas le droit d'ouvrir là où y a la RAM ).
        
        Ah, aussi, niveau températures : le DD est autour de 40°C à peu près tout le temps ( en dessous de 50°C dans le pire des cas il me semble ), par contre, le CPU chauffe très vite. J'ai eu des pointes à plus de 90°C ( mais c'est quand les deux cœurs sont à 100% ). Maintenant, donc plus ou moins au repos, le CPU est à 57°C ).
        
        [^] # Re: tu as des outils bien étonnants
        
        Posté par Thibaut le 21 avril 2008 à 13:12. Évalué à 2.
        
        Bravo, tu as bien trouvé... 10 minutes de memtest, et 3 erreurs différentes :
        Tst : 4 ; Failing : 00000accd14 - 10.7MB ; Err-Bits : 00080000 ; Count : 43
        Tst : 5 ; Failing : 00000accd10 - 10.7MB ; Err-Bits : 00080000 ; Count : 1
        Tst : 6 ; Failing : 00000accd14 - 10.7MB ; Err-Bits : 00080000 ; Count : 36
        Là, mon PC étant très chaud ( 5 minutes de ventilo après, gkrellm m'affiche 65°C pour le CPU ), j'ai arrêté le memtest, pour éviter de flinguer autre chose...
        
        SMART n'a trouvé aucune erreur sur le disque.
        
        [^] # Re: tu as des outils bien étonnants
        
        Posté par Kerro le 21 avril 2008 à 13:29. Évalué à 2.
        
        Attends que ça refroidisse, refait un memtest pour voir si ça bloque au méme endroit. Puis re-refait un memtest après par exemple 2 minutes de refroidissement. Si l'erreur n'est pas au même endroit, c'est très probablement la carte-mère. Dans ce cas, aïe aïe, il faut faire joujou avec le SAV, pas marrant.
        Si c'est "juste" la mémoire, le plus simple est d'en acheter. Ca te coûtera à peine plus cher que les frais de port et de téléphone pour retourner ton portable au SAV.
        
        [^] # Re: tu as des outils bien étonnants
        
        Posté par Thibaut le 21 avril 2008 à 13:55. Évalué à 1.
        
        J'ai fait deux memtest de quelques minutes et je n'ai relevé que Failing Address et Err-Bits : respectivement 00000accd14 et 00080000, soit les même que la première fois.
        J'en déduis que c'est « juste » la mémoire... Mais si je la change moi-même ça fait sauter la garantie ( qui, il me semble, devrait durer encore un an ).
        Donc la première chose que je vais faire c'est d'essayer de retrouver toute cette paperasse...
        Merci encore pour les conseils :)
        
        [^] # Re: tu as des outils bien étonnants
        
        Posté par zx81 le 22 avril 2008 à 12:18. Évalué à 1.
        
        Tu peux exclure des plages de ram défectueuse avec des paramètres passés au kernel.
        Ca en parle par exemple ici:
        http://rick.vanrein.org/linux/badram/index.html
        http://linux.derkeiler.com/Mailing-Lists/Kernel/2008-03/msg0(...)
        Personnellement, je n'ai jamais essayé mais ça peux aider à faire tenir jusqu'à la fin de la garantie...
        
        [^] # Re: tu as des outils bien étonnants
        
        Posté par Thibaut le 23 avril 2008 à 18:35. Évalué à 1.
        
        Ah ouep, ça a l'air sympa ça, ça m'aurait été très utile pour être sûr d'avoir fait un bon backup :P
        
        [^] # Re: tu as des outils bien étonnants
        
        Posté par Thibaut le 21 avril 2008 à 16:57. Évalué à 1.
        
        Bon, ça part en réparations demain...
        Par contre faudra les convaincre de pas formatter parce que vu que la mémoire est corrompue, y a des chances que le backup soit pas identique à l'original...
        Dans tous les cas, je referait probablement une réinstallation du système ( mon /home est à part ), on sait jamais ce qui a pu être corrompu dedans.
      - [^] # Plein de possibilités !
        
        Posté par Nicolas Boulay (site web personnel) le 21 avril 2008 à 12:11. Évalué à 3.
        
        La corruption de donnés peut provenir de la RAM, du disque dure (mais j'aurais tendance à l'exclure vu la quantité de correction possible), le cablage, mais aussi un bug dma ou du contrôleur disque (fake raid?).
        
        Bref, cela peut être plein de choses. Il faut aussi vérifier les messages d'insulte IDE qui pourrait se trouver dans les logs.
        
        Le type de la machine, son age, pourrait aidé. Est-ce que tu viens de faire un upgrade ou pas ? (si elle est ressente, cela peut être un bug d'incompatibilité entre périphérique, essaye dans ce cas de virer l'utilisation des DMA par exemple ). A-t-elle plus de 4Go de RAM? c'est pas courant et cela semble parfois poser problème. En 64 bits ?
        "La première sécurité est la liberté"
        
        [^] # Re: Plein de possibilités !
        
        Posté par Thibaut le 21 avril 2008 à 12:17. Évalué à 1.
        
        Je n'ai pas de RAID ( ni matériel ni logiciel )...
        
        Ma machine est un portable ( ASUS A8Jm ), date d'il y a un peu moins de deux ans...
        Je suis sous debian depuis un moment déjà ( je ne saurai pas dire exactement, mais depuis plusieurs mois ).
        Pour l'upgrade, euh, la dernière MàJ du noyau date déjà d'un moment, mais d'après la première corruption que j'ai constaté je crois...
        Ma machine à 1GO de RAM.
        Mon CPU est un dualcore d'intel, en 32 bits.
        
        [^] # Re: Plein de possibilités !
        
        Posté par Nicolas Boulay (site web personnel) le 21 avril 2008 à 12:57. Évalué à 2.
        
        Tentes avec le dernier kernel de Linus.
        "La première sécurité est la liberté"
  - [^] # Re: Problème de mémoire ?
    
    Posté par Guillaume Savaton (site web personnel) le 21 avril 2008 à 21:00. Évalué à 2.
    
    J'ai eu un problème similaire il y a quelques mois : erreurs de checksum lorsque j'essayais de ripper des CD.
    
    Après diverses manipulations, j'ai découvert que le problème ne survenait que lorsque je manipulais de fichiers de plusieurs dizaines de Mo (copie, téléchargement).
    En effectuant un million de copies d'un même petit fichier, je n'avais pas de problème ; par contre, une simple copie d'un gros fichier échouait systématiquement.
    
    Le disque dur n'était a priori pas fautif, et un memtest a immédiatement révélé la cause du problème.
    En fonctionnement normal, je suppose que les régions défectueuses de la RAM n'étaient pas utilisées.
# Smart rigolo

Posté par Sébastien Koechlin le 21 avril 2008 à 14:43. Évalué à 3.

La sortie de smart est "comique".

Tu as supprimé l'entête qui indique si le disque est connu et sa référence. Tous les indicateurs smart sont au vert, le disque se considère en bonne santé.

Reallocated_Sector_Ct a une valeur brute de 8589934592000; c'est normalement le nombre de secteur réalloué. Les autres valeurs de la ligne (100 et 24) disent que le disque ne considère pas la valeur comme alarmante.

Reallocated_Event_Count a une valeur de 447741952 qui est aussi délirante.

Current_Pending_Sector vaut 0; ce sont les secteurs défectueux en attente de réallocation. Cette valeur est encore plus étonnant. Normalement lorsqu'on a des centaines de secteurs défectueux, il y en a toujours une partie que l'on a essayé de lire et qu'on n'a pas encore écrit, donc qui sont en attente de ré-allocation.

J'ai toujours vu les disques partir de 0 pour Reallocated_Sector_Ct et augmenter doucement, à partir de 3, je change le disque.

Start_Stop_Count, nombre d'allumage du disque, vaut 1744, ce qui n'est pas très élevée, mais le disque est loin d'être neuf.

Power_On_Seconds vaut 6855h+41m+56s, soit 280 jours de fonctionnement.
- [^] # Re: Smart rigolo
  
  Posté par Kerro le 21 avril 2008 à 14:49. Évalué à 3.
  
  J'ai toujours aimé les "normes" qui ne sont pas utilisables. Smart en est un exemple :-(
  
  Chaque disque et/ou constructeur n'a pas les données aux mêmes endroits, c'est la fête. On est obligé d'avoir une base de données recensant les disques et la manière d'interpréter les données.
  
  L'exemple copié/collé ici illustre parfaitement cela.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.