Journal Vendredi 13

Posté par  (site web personnel) .
Étiquettes : aucune
0
13
fév.
2004
Ca devait etre un rayon cosmique, ou un avertissement divin, en tout cas le message etait clair : sauvegarde tes donnees, la fin est proche. Enfin un truc du genre, en tout cas je l'ai senti passer.

Au tout debut, quelque chose d'assez anodin, Mozilla qui plante. Pas tres frequent mais pas inconnu au bataillon non plus, ni une ni deux, je tue ce cher butineur et j'en relance une nouvelle instance. Qui n'arrive pas. Mmm, classique : l'ancienne doit etre dans un recoin de la memoire, refusant de mourir comme ca. Je lance un xterm, et un "ps -e f" me le confirme apres un petit temps d'attente : ca rame... Bon, "killall mozilla", qu'on en finisse. J'avise du coin de l'oeil la diode du disque dur allumee d'un long vert fixe, wow, Mozilla avait du bouffer toute la memoire. Un coup de "w" pour voir la charge de la machine...

"w: Command not found". Alors la, rien ne va plus. Je m'apercois soudain que la fortune affichee en haut du xterm est completement corrompue, ca y est j'ai compris, une seconde barette de RAM m'a lache. Quelques coups de "fortune" bien corrompus confirment cette impression, il est grand temps de quitter le navire avant que le flot de donnees aleatoires n'atteigne des zones sensibles de la machine. J'evacue XFree86, je passe en root, et puis shutdown. "shutdown: Command not found". Ouyaya, ca craint. "ls /sbin | less" segfaulte. Rien ne va plus, je passe aux procedures d'urgence, je benis le createur de la combinaison de touches SysRq. Sync, Umount, PowerOff. Je respire profondement.

Bien, il est maintenant temps de passer a l'autopsie. Je redemarre, j'active tous les tests du BIOS. Apres quelques minutes d'attente, il faut se rendre a l'evidence : la RAM n'a rien, en tout cas le BIOS n'y voit rien de mal, contrairement a sa grande soeur dont le diagnostic avait ete clair et immediat. Un probleme passager peut-etre ? Bon, je relance Linux, verification de la racine. Quelques blocs ont une taille incorrecte, bizarre, le sync+umount aurait du empecher ca. Apres quelques secondes toutefois, la tension monte d'un cran : "illegal block", il faut passer en mode single-user, verifier la partition en manuel. Ca, c'est vachement plus rare, et ca craint car c'est synonyme de perte de donnees. La roulette est lancee, faites vos jeux, sur quelle inode la faucheuse va-t-elle s'arreter ? Ah, e2fsck, quel festival, on a beau se croire blase, on en decouvre sans cesse. Des "block #1 causes symlink to be too big", des "inodes part of a corrupted orphan linked list", des "inode has too many errors, clear? [y/n]", des ecrans sans fin d'erreurs, dont on s'apercoit qu'elles sont concentrees sur une portion precise des inodes, ce qui laisse l'espoir de recuperer les autres. Vient la verification des repertoires, ou je finis par decouvrir l'ampleur du desastre : c'est /usr/bin qui a le plus morfle, avec quelque degats collateraux dans /sbin et /usr/lib. Il faut dire au revoir a AbiWord-2.0, gaim, xchat, xine, metacity, aspell et pas mal d'autres. Miracle quand meme : il ne s'agit que d'applications, le systeme lui-meme n'est pas trop touche, meme si "man" est dans les choux. On est parti pour une bonne reinstallation, une perte de temps certes, mais pas une perte de donnees.

Ah, les donnees ! Que sont devenues mes deux autres partitions, qui hebergent mes si precieux /usr/local et /home ? Verification anxieuse faite, /usr/local se porte comme un charme, ce qui est heureux vu son contenu. /home a subi quelques degats, quelques fichiers archives par ailleurs et helas deux fichiers sur lesquels je travaillais. Quelques heures de travail a la poubelle, ca fait bien mal mais ca aurait pu etre tellement pire.

Il est temps de se remettre de ces emotions, de faire une pause. Bob l'Eponge passe a point (sur Canal J) pour me remettre le moral. Retour sur les lieux du crime. Je me demande ce qui a bien pu se passer ? Disque dur foutu, noyau en folie, controleur IDE completement barjo ? Les logs les designent comme complices de ce crime : a 15:19:27, un timer DMA a expire, et apres un temps d'attente et une enieme reponse "Busy" des disques durs, le pilote IDE a reinitialise ma carte controleur Promise. Une bien mauvaise idee semble-t-il, puisqu'ensuite le log s'est rempli d'"attempt to access beyond end of device, want=1048458294 limit=4192965" (des "want" variables selon les acces disques, manifestement, mais systematiquement bien superieurs a la limite), enfin bref tout s'etait barre en cou1lle.

Est-ce que je peux encore faire confiance a ce disque ? Ca c'est la question a 100 balles, plus precisement et beaucoup plus realistement a 100 euros, 100 euros que je prefererais ne pas depenser juste maintenant, la. Et la, c'est le mystere, puisque de nombreux diagnostics SMART plus tard, tout semble aller pour le mieux dans mon disque dur favori (un Maxtor de 15 Go, 1630 heures de travail, 1013 allumages, aucun secteur defecteux/relocalise, tous les indicateurs dans le vert et de loin). Alors quoi ? Le controleur qui fatigue ? Un bug dans Linux que jamais je ne pourrai reproduire - j'espere bien ! Un rayon cosmique, au mauvais endroit, au mauvais moment, le mauvais jour ?

Qui sait ? Qu'en pensez-vous ? Et que feriez-vous a ma place ?

(Oui, il n'y a aucun caractere accentue dans ce texte. Je m'en excuse, mais c'est comme ca pour aujourd'hui.)
  • # Re: Vendredi 13

    Posté par  . Évalué à 1.

    Bob l'Eponge passe a point (sur Canal J) pour me remettre le moral

    Si ca se trouve c'est lui le coupable ou bien Mr Crabe
    • [^] # Re: Vendredi 13

      Posté par  (site web personnel) . Évalué à 1.

      Mais non, ça ne peut être que Plankton. Pourtant, la recette du pâté de crabe n'est pas stockée sur ce disque dur...
  • # Re: Vendredi 13

    Posté par  . Évalué à 5.

    Ca ressemble terriblement a un des bugs DMA de l'IDE. Manifestement ce qu'il s'est passe c'est que ta carte promise a pas aime une commande et que quand Linux a decide de faire la reinit, ton disque s'est retrouve avec une geometrie qui n'etait pas vraiment sa geometrie initiale. Donc les partitions semblent ne pas finir avec un cylindre et paf le disque. Manifestement cependant la geometrie etait assez proche, j'imagine que tout ce qui se trouve dans la zone des 2 premiers Go a ete epargne et tout ce qui se situe au de la 128eme tete aussi (generalement si ca doit faire mal, ca fait mal dans ces zones la).

    donc trois choses choses a faire :

    1) Backup
    2) Voir dans ta promise si tu n'as pas un moyne de forcer la geometrie, ensuite verifie avec fdisk que la geometrie "vue" par Linux est bien celle forcee par Promise. Si ce n'est aps le cas essaye de forcer dans ta promise la Geometrie telle que vue par linux.
    3) Les rapports de bugs sur les promises, surtout un beau comme ca avec l'historique qui est pas parti en fummee avec le disque ca interresse de le monde.

    Kha
    • [^] # Re: Vendredi 13

      Posté par  (site web personnel) . Évalué à 1.

      1) Ouaip.
      2) Je ne crois pas que ce disque ait un problème de géométrie par rapport à Linux. J'irai vérifier ça. Il est tout aussi possible que des registres ou certaines variables du pilote IDE aient été corrompues.
      3) L'historique, il est pas fameux non plus. On voit que les appels DMA ont foiré, et c'est tout. Et bizarrement, j'ai pas vraiment envie de faire des tests et d'essayer de reproduire le problème.
      • [^] # Re: Vendredi 13

        Posté par  . Évalué à 2.

        Pour le 2) Ce qui me fait penser a un foirage de la geometrie c'est le fait que les pertes de donnees soient tres localisees. Cecie etant je ne sais aps si tu faisais quelque chsoe d'intensif ou non, mais il me parait bizarre que le home et le var (out tou autre endroit ou tu mets le temp) n'aient ete que tres peu affectes par le probleme.

        Une autre chose qui me met sur la psite est le fait que tu es pu syncher sans avoir d'autres messages que des wants qui depassent le device. Avec une corruption des registres/mauvaise init/ DMA non approprie tu aurais une collection de read/write error et de unkwon device.

        Mais il est vrai que ton hypothese est tout a fait valide, c'est juste mon feeling personel qui me fait penser a un probleme de geometrie d'abord.

        Pour le 3) Justement si c'est les appels DMA qui ont foires il y a deja au moins un moyen de resoudre ca : la reinit se fait sans DMA. En ce moment c'est la fait de l'IDE dans le kernel, ton probleme avec un log meme incomplet peut permettre de comprendre ce qui se passe en participant au puzzle.


        Kha
  • # Re: Vendredi 13

    Posté par  . Évalué à 1.

    C'est le raton laveur qui ...
  • # Re: Vendredi 13

    Posté par  (site web personnel) . Évalué à 1.

    Moi j'ai eu un probleme similaire sur la mdk de ma copine ya peu:
    mozilla qui plante ou se lance dans le vide... etrange... je reboote, et paf reiserfsck me gueule dessus... Je backup l'important, je reboote sur cd et fais un --rebuild-tree ... Ca a l'air de marcher... sauf que au reboot, j'ai un joli permission denied, meme en root, sur certains fichiers... Genant... si quelqu'un a solution autre que changer de disque dur ou formater la partition et prier, ca m'interesse...
    • [^] # Re: Vendredi 13

      Posté par  . Évalué à 0.

      j'ai un joli permission denied, meme en root, sur certains fichiers... Genant... si quelqu'un a solution

      Ca au moins, c'est facile:
      chmod +w fichier ; rm fichier
      Même root peut ne pas pouvoir effacer un fichier si les permissions ne le permettent pas ; il faut modifier les permissions au préalable.
      • [^] # Re: Vendredi 13

        Posté par  (site web personnel) . Évalué à 1.

        euh non désolé, le root ca le derange pas si le fichier n'est a priori pas en ecriture pour lui, il l'efface quand meme, par contre si le fichier a été modifié avec chattr (chattr +i fichier par exemple), alors le root ne peut pas l'enlever a coups de rm, ni a coups de chmod, il est alors obligé de faire chattr -i fichier et apres c'est bon, il peut l'enlever
  • # Re: Vendredi 13

    Posté par  . Évalué à 1.

    woaw quand je lis tout ca je me dis "tu es bien peu de chose".

    plein de commandes que je n'aurais jamais eu l'idée d'utiliser. heureusement je ne prétend pas etre admin. mais je crois que la majorité des gens aurait jeté (bob) l'éponge bien avant (et adieu veaux vaches cochons et /home) :-/

    plagiats
  • # Re: Vendredi 13

    Posté par  . Évalué à 2.

    puisqu'ensuite le log s'est rempli
    Ce qu'y est marrant (si je puis dire) c'est que même si tout etait dans les choux (changement de geometrie comme j'ai pu le lire un peu plus haut), et bien ca l'a pas empecher d'ecrire dans les log...
    • [^] # Re: Vendredi 13

      Posté par  (site web personnel) . Évalué à 1.

      Ce qui tend à montrer que tout n'était pas dans les choux, et que c'est plus probablement une corruption de la mémoire/du noyau/du pilote qui s'est produite. Manifestement, ce qui avait été déjà lu (et qui était en cache) n'avait pas de problème, ce qui avait déjà été ouvert (fichiers log) n'avait pas de problème, mais ouvrir de nouveaux trucs jamais chargés en mémoire (less, shutdown, etc.) ça marchait pô.
  • # récemment le même problème

    Posté par  . Évalué à 3.

    un coup de memtest86 sur floppy rame HS.

    conclusion personnelle : quand on suspecte une ram pourrie, ne __jamais__ faire de fsck, la dernirèe fois, pour cause de corruption, fsck me trouvait des kilomètres d'inodes pas intègre résultat, plein de binaires foutus en l'air ...
  • # Re: Vendredi 13

    Posté par  . Évalué à 2.

    J'ai eu exactement le meme probleme il y a quelques mois et je confirme que c'est assez desagreable.
    Surtout qu'apres reinstallation, je n'ai eu aucun problemes. C'est assez frustrant de perdre son systeme sans raison evidente et de devoir rechercher son travail a coup de grep dans lost+found
  • # Re: Vendredi 13

    Posté par  . Évalué à 2.

    > Qui sait ? Qu'en pensez-vous ? Et que feriez-vous a ma place ?

    Dans mes heures de loisir, je me consacre de temps en temps au jardin et surtout a mes arbres.

    Habitant la campagne, j'ai un beua jardin bien fourni en arbres qu'il faut annuellement élaguer ou abattre pour permettre un épanouissement des autres végétaux. je profite aussi de mes loisirs pour couper du bois destiné a mes longues soirées d'hiver. Se chauffer partiellement au bois permet de faire de substantielles économies de chauffage électrique ou de mazout, mine de rien.

    pour tous ces travaux, rien de tel qu'une excellente tronçonneuse. cet outil a réserver aux habitués et aux gens conscients du danger qu'il représente permet d'abattre sur une journée un travail considérable. Le secret est de limer régulièrement sa chaine et de la huiler pour qu'elle reste performante et ne "fatigue " pas.

    Grâce a ma sthil a moteur thermique, j'abats mes stères annuelles chez moi ou dans des propriétés voisines, sans devoir faire trop d'entretien sur la machine. une bougie et un passage annuel chez le mécanicien et elle repart pour une saison complète.

    Evidement pour un usage plus limité une machine de la même marque, mais électrique, suffira, tout est valable dans la marque et on trouve facilement les pièces de rechange ou d'usure comme les lames et les guides lames.

    Evidemment, se chauffer au bois cela se mérite, le bois il faut le couper, le ranger, le stocker, le ramener au poêle, on se réchauffe rien que de penser a toutes ces manipulations, mais cette chaleur là on l'apprécie particluièrement par les frimas actuels.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.