Journal Sig11 à répétition

Posté par .
Tags : aucun
0
9
mai
2005
Depuis un moment, ma machine n'arrête pas de me balancer des sig11, SIGSEGV, Segfault ou Segmentation Fault sur des applications spécifiques.

Par exemple, ffmpeg et tout ce qui est basé dessus (mencoder, mplayer, xine, ...), XFree lui même (logout toutes les 0.0001 secondes), neverwinter nights (le client), sound juicer, rhythmnbox, et gcc (pas une compil', kernel ou autre, sans avoir un "internal compiler error" sur un fichier, mais qui passe si je relance make).

Par contre, certaines applications n'ont aucun problème, et c'est épatant. Ça n'est jamais arrivé avec openoffice, wine (!) ou firefox par exemple.

J'ai testé plein de chose, du changement des pilotes nvidia proprios (sans rapport, mais quand on est désepéré...), changement de libc6 (en version expérimental sur debian).

J'ai vu ça : http://www.bitwizard.nl/sig11/(...) et je me suis dit que j'avais peut-être la solution. Mais j'ai changé ma barette mémoire sans que ça n'y change rien.

Je m'oriente donc à contrecoeur vers un problème de carte mère ou de processeur. Lequel? J'aimerais bien le savoir.
Est-ce qu'il y a un truc pour déterminer d'où vient le problème?
  • # zut

    Posté par . Évalué à 3.

    Merde, ça doit aller dans un forum ça.
    Allons, rebelotte.
  • # Symptomes ....

    Posté par . Évalué à 4.

    Moi j'avais des problèmes dans ce genre quand mon athlon-xp surchauffait (on ne rit pas).
    Essaie de décrasser le ventillo.
    • [^] # Re: Symptomes ....

      Posté par . Évalué à 3.

      Je ne rit pas, je te l'assure.
      Je l'ai fait, ça a fait disparaître les Machine Check Exception.
      Mais apparemment, c'étaient deux problèmes différents, puisque l'un a disparu en nettoyant le ventilo (et le radiateur, et tout et tout) et l'autre reste.
      • [^] # Re: Symptomes ....

        Posté par (page perso) . Évalué à 3.

        Le problème, c'est que tu ne donne aucune information sur l'état de ton système, qui permetrais de trouver ce qui ne vas pas.

        Quels étaient les codes MCE ?
        Quel est la tempèrature du processeur (si t'as réussi à faire surchauffer un athlon-xp respect), le nom de carte mère ? La marque des barettes de RAM ?
        Tu peut aussi essayer memtest86+, mais d'expèrience il a jamais servi à rien. Un autre test, c'est aussi de tenter un burncpu pour vèrifier s'il augmente le nombre de segfaults. Si oui, tu peut accuser le proc (sans exclure la RAM, malheuresement).
        Et puisque ta RAM est neuve, je te prévient d'un problème que j'ai eu : la mienne n'a marché correctement que quand je l'ai overclockée (en diminuant CAS et ses copains).
        • [^] # Re: Symptomes ....

          Posté par (page perso) . Évalué à 2.

          Tu peut aussi essayer memtest86+, mais d'expèrience il a jamais servi à rien


          Pas d'accord, il m'a bien aidé, bien des fois. Par exemple pour expliquer des plantages aléatoires d'un serveur 2003, des erreurs plus ou moins aléatoires à la compilation de kde (quand j'étais gentooiste).
        • [^] # Re: Symptomes ....

          Posté par . Évalué à 1.

          C'est un athlon XP 2400+(socket A) sur une carte mère Gigabyte GA-7DXE, (c'est du VIA686 et du AMD761 pour le north et southbridge, je sais plus dans quel ordre). Il y avait 256 (maintenant 512)Mo de RAM en DDR266. J'ai découvert récemment, justement en cherchant d'où venait le problème, après 2 ans de bon et loyaux services (enfin presque, une nv Geforce4 est partie en garantie).
          Mais je ne sais pas si ça peut être d'uen quelconque utilité

          Les MCE? Je ne les avais pas noté, mais je viens de me rendre compte en regardant dans syslog qu'ils n'avaient pas complètement disparu. Avant j'avais des non-recoverable, il ne reste que les recoverable, qui sont un peu plus discrets (les autres donnaient un kernel panic - assez bizarrement, je pouvais continuer à faire certaines choses, comme fermer des applis, voire en lancer, et surtout faire des shutdown propres).

          kernel: MCE: The hardware reports a non fatal, correctable incident occurred on CPU 0.
          kernel: Bank 1: 9400000000000151

          Sur google, ça donne beaucoup de réponses du type problème hard, mais moi, ce que je voudrais savoir c'est ça : carte-mère ou proc?
          • [^] # Re: Symptomes ....

            Posté par (page perso) . Évalué à 2.

            $ /usr/src/parsemce -e 9400000000000151 -b 1
            Status: (-7782220156096216751) Restart IP valid.

            Si je comprends le truc correctement (peu probable), le processeur doute de la fiabilité de ses propres registres... donc à priori c'est mauvais signe quand à son état de santé.
            T'as pas plus d'infos sur sa température ? Ni sur les voltages ?
            Et tu sais pas si un burnK7 augmente plus les segfaults qu'un burnBX ?

            De toutes manières je pense qu'on arriveras pas à mieux que des présomptions à l'encontre d'un composant...
            • [^] # Re: Symptomes ....

              Posté par . Évalué à 1.

              Ce que je sais c'est que j'avais réglé l'alarme dans le BIOS. Alarme à 65° et arrêt à 75°. Je ne m'en étais même pas rendu compte jusqu'à la Canicule (où j'avais eu droit à un reboot à la hussarde), mais c'est la seule fois.

              Pour obtenir la température, j'avais installé lm_sensors et ajouté le support I2C, mais les développeurs ne connaissent pas les données des composants VIA et ça annonce une température constante à 127° et des ventilateurs à 10000RPM en continu.
            • [^] # Re: Symptomes ....

              Posté par . Évalué à 1.

              Ah! (j'ai eu besoin de chercher et découvrir cpuburn)
              burnK7 segfault une fois sur deux, l'autre fois j'ai un 255 (erreur de FP/MMX)
              burnBX ne segfaulte pas et ne retourne pas d'erreurs.
              burnMMX me donne plein d'erreur 254 (erreur sur calcul entier ou erreur d'accès mémoire).

              Pas bon du tout. Le processeur est bel et bien brûlé, je pense :(
              • [^] # Re: Symptomes ....

                Posté par . Évalué à 1.

                J'ai eu le meme pb sur un athlon XP 1700+,
                Le probléme a disparu en passant la frequence du bus CPU de 133 Mhz à 100, la frequence CPU est passé de 1450 à 1100 et le emerge --update world de 4 cafés à 5

                Ca fait pas longtemp que j'ai fait cette bidouille et pour l'instant ça tient, je croise les doigts.

                Mais c'était quand même un poil different de toi.
                Perso, quand je faisais un emerge ou un burncpu, je voyais la compile planter au bout d'un moment, jamais au même endroit, puis Xmms qui "segfaulter" dans la foulée ensuite X figeait par solidarité et pour finir, c'est la machine qui répondait plus. Jamais rien trouvé dans les logs concernant un plantage du kernel.

                Hope this help

                Faut pas gonfler Gérard Lambert quand il répare sa mobylette.

                • [^] # Re: Symptomes ....

                  Posté par . Évalué à 1.

                  J'ai voulu tester ton truc, mais le bios ne m'atorise que des valeurs de 133 à 355. Pas possible de passer à 100, donc...
        • [^] # Re: Symptomes ....

          Posté par (page perso) . Évalué à 2.

          J'ai fait surchauffer un athlon XP 2400+. Sans overclocking, juste en compressant des MP3 pendant une petite heure. Ce qui est marrant, c'est qu'il a marché jusqu'au bout, même quan d ça sentait le brûlé. D'un coup la machine s'est éteinte, je l'ai rallumée et ... apparemment, seule _une partie_ du processeur est brûlée. L2 ou FPU ou je ne sais : tout fonctionne parfaitement, mais : compilation, jeu 3D, memtest86 => crash dans les deux minutes.

          "Amusant".
          • [^] # Re: Symptomes ....

            Posté par (page perso) . Évalué à 1.

            Vraiment curieux, normalement un processeur ne chauffe jamais jusqu'à brûler.
            Peut être qu'un problème de refroidissement est la cause commune à ton premier problème et aux suivants ? Mon dernier problème de processeur vient de ce que mon ventilateur s'arrêtait quand la température devenait trop haute ! (va savoir ce qui pouvais foirer dans la thermorégulation)
            Aussi, méfie-toi des cartes mères Asus qui overvoltent le processeur sans prévenir, pour faire plaisir aux jackies.
    • [^] # Re: Symptomes ....

      Posté par (page perso) . Évalué à 4.

      Pareil chez moi, j'ai démonté (intégralement) le ventilo, viré les kilogramme 500 de poussière et de moutons qui couchait dedans, et depuis tout va mieux.
      • [^] # Re: Symptomes ....

        Posté par (page perso) . Évalué à 6.

        c'est la SPA qui va pas être contente... tu les as remis en liberté, j'espère...
        • [^] # Re: Symptomes ....

          Posté par . Évalué à 3.

          Tu rigoles ? Des moutons qui font moins que le « kilogramme 500 » ? Effectivement, c'est la SPA qui ne va pas être contente si tu les remets en liberté sans passer chez le véto...
  • # re

    Posté par . Évalué à 3.

    J'ai eu ce genre de problème avec une barrette de RAM defectueuse. A tester donc.

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.