Forum Linux.général Diagnostiquer une panne qui fait geler la machine

Posté par  .
Étiquettes : aucune
0
18
sept.
2006
Bonjour,
Existe-il une technique permettant de diagnostiquer un problème qui fait totalement planter la machine. Car dans ces cas, l'on n'as pas de fichier de log... Bien on peut faire ça empiriquement mais vu la complexcité de nos machines actuellement on peut tester un moment....

Dans mon cas je penche pour un problème d'un disque du RAID qui je pense se déconnecte physiquement (câble) et gèle donc le tout (je viens de le changer et on verras...).

Je doute qu'il existe un moyen, mais je préfère demander que le regretter dans 2 ans...

Merci pour vos réponses.
  • # RAM ?

    Posté par  . Évalué à 2.

    Je n'ai pas de moyen général à te proposer, mais il est également possible que cela provienne d'une barrette mémoire défectueuse (c'était mon cas). Tu devrais effectuer un petit memtest pour vérifier.
    • [^] # Re: RAM ?

      Posté par  (site web personnel) . Évalué à 1.

      Pour ma part, j'ai des gels régulièrement dès que la machine reste en charge (même légèrement) pendant plus de 30 minutes environ. ça vient de mon Athlon qui chauffe beaucoup, si je met mon gros ventilateur devant le PC (qui est de toute manière toujours ouvert), ça arrive moins souvent... ça peut être une autre piste.

      https://damien.pobel.fr

  • # dans mon boulot...

    Posté par  . Évalué à 2.

    quand on cherche la cause de la panne on joue la regle des permutations.

    tu echange le disque dur entre 2 machines, si le probleme se deplace avec le disque alors c'est le disque.

    si ca change rien, alors le probleme vient de la machine, tu remet les disques dans leurs machines

    et tu continue ainsi avec les autres composants (memoires, peripheriques).

    dans la meme idée tu peux aussi alleger ta machine en enlevant tout ce qui n'est pas directement utile et rajouter ensuite les differents elements.
    • [^] # Re: dans mon boulot...

      Posté par  . Évalué à 2.

      dans la meme idée tu peux aussi alleger ta machine en enlevant tout ce qui n'est pas directement utile et rajouter ensuite les differents elements.

      On peut faire la même chose au niveau logiciel : arrêter tous les démons, utiliser un environnement graphique minimaliste (éviter les KDE/Gnome), suprimer des trucs comme l'ACPI.

      C'est ainsi que j'ai réussi à me débarasser d'un gel de machine très aléatoire (hélas, sans comprendre ce qui plantait exactement).
  • # Type de gel

    Posté par  (site web personnel) . Évalué à 2.

    Le gel est-il reproductible ?
    Es-tu sur que c'est un freeze systeme (plus de ping ...) ?
    Arrive-tu à etre en console au moment ou ca arrive (pour voir des messages du noyau) ?
    Les magic-keys sont-elles compilées dans le noyau ?
    Arrive-tu a les utiliser apres le freeze ?
    Que donne un memtest ?

    Puis comme dit plus haut, il reste les test apres avoir tout supprimé et les swap de matériel.
    • [^] # Re: Type de gel

      Posté par  . Évalué à 1.

      C'est pas vraiment reproductible... mais ça se reproduit à des férquence de 1 jour jusqu'à 2 semaines...

      Le truc c'est que quand ça arrive j'ai plus rien, j'allume le moniteur et il n'est même pas détecté, num lock bloqué, led de l'activité des disques constament allumé.

      Le seul moyen est un arret brutale (reset) après le pc démarre mais un des deux disque dur raid (toujours le sdb) n'est plus dans /dev et donc le raide n'est plus entier.

      Pour que sdb soit à nouveau détecté je dois redémarrer plusieurs fois ou l'enlever (physiquement) et le remmettre.

      Après je le remet dans le RAID et tous s'emble refonctionner parfaitement... jusqu'à la prochaine panne...

      Dans le fichier de log j'ai rien de bizare il me s'emble.
      • [^] # Re: Type de gel

        Posté par  (site web personnel) . Évalué à 1.

        Donc il semblerait que c'est un problème de disque ou de chipset (carte mere).

        Pourtant dans ces situations, il arrive souvent que les magic-keys marchent encore :
        alt-sysrq-X , X pouvant prendre les valeurs suivantes :
        [espace] : aide
        u : umount all
        k : kill le programme d'avant plan pour récupérer le clavier
        s : sync
        b : reboot

        Et bien d'autres
  • # modules

    Posté par  . Évalué à 1.

    j'ai eu 2 fois ce problème: sur un alpha et sur un dell. A chaque fois c'était un bug d'un module, tantôt la carte réseau , tantôt le controleur raid.
    j'ai résolu le problème en passant d'un noyau 2.6 vers un 2.4 sur le dell et ajouté une carte éthernet plus récente dans l'alpha...
  • # Merci

    Posté par  . Évalué à 1.

    En tous cas un grand merci pour votre aide... je vais attendre le prochain plantage, ensuite prendre la machine chez moi un week-end pour faire un maximum de test (en production c'est impossible).

    Je vais essayer de faire le test constructeur sur les disques pour voir... et les autres test hardware.

    Switché le matériel etc etc...

    J'ai fait un update du noyau... et quelque mise à jour.

    Autrement j'ai pas d'interface graphique lancé (c'est un serveur) juste X qui tourne (d'ailleur je pourrait démarrer en init3 plutôt qu'en 5)
  • # autre possibilité

    Posté par  . Évalué à 1.

    Salut,

    sur mon SVR, j'ai eu plein de PBs de ce genre; après 2 heures de tests
    et de recherches, je me suis aperçu que les 7 HDs induisaient une
    vibration haute fréquence qui avait pour effet de desserrer les
    connecteurs Molex d'alimentation de certains disques.

    J'ai donc démonté tous mes Y de dédoublement d'alimentation et
    resserré tous les Molex femelles en introduisant un micro tournevis entre
    chaque cosse et le plastique, et en faisant levier pour refermer/resserrer ladite cosse.

    Une fois cela fait, j'ai remis les Y en place en faisant bien attention que les
    cosses mâles rentrent à fond dans les femelles (en saisissant non pas le
    connecteur par le plastique, mais par ses fils, en les poussant au max vers l'extérieur).

    Depuis, plus aucun problème.
    • [^] # Re: autre possibilité

      Posté par  . Évalué à 1.

      Tu peux aussi mettre des rondelles en caoutchouc pour éviter ça non? ou suivant la config de ta tour les décaller ou en mettre certaint à la vertical pour annnuler les vibrations.
      Parce que je me demande si c'est bon pour les disques de vibrer autant... mais bon si ça marche :)

      Sinon j'ai l'impression d'avoir résolu mon problème... c'était un des deux disque qui plantait lamentablement.... heureusement il est encore sous garantie :)

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.