Forum Linux.debian/ubuntu Je n'avais jamais vu une Debian stable planter

Posté par  (site web personnel) .
Étiquettes :
5
9
jan.
2010
Je viens d'avoir un plantage pas banal sur un serveur Debian Lenny: gel instantané et complet de la bécane (aucune traces dans les logs).
Je cherche à savoir d'où ça peut venir. Ça vous dit d'enquêter avec moi, pour finir la semaine ?

Les faits:
--------------
Il s'agit d'un petit serveur LTSP [Terminal Serveur avec KDE voir sur http://www.ltsp.org], qui tourne depuis plusieurs années.
Il y avait un écran branché, sans activité (il affichait kdm).
La veille et l'avant veille il y a eu 3 incidents:
1. un disque raid mort, que j'ai remplacé
2. deuxième reboot: la carte Ethernet Gigabit est passée en 100 Mbps, pas moyen de la repasser en gigabits/s avec ethtool, elle a fait un peu de yoyo par la suite.
3. 3h plus tard le switch (D-Link DES-1228) a planté, c'était rigolo, les rampes de diodes faisaient la hola!

Hier j'ai éteint le serveur quelques instants, au redémarrage la
carte réseau marchait de nouveau en Gigabit. C'est sûr, la carte déconne (elle a du trop chauffer, c'est un processeur Marvell/Yukon qui ne supporte pas plus de 40°).

Quelques heures après c'est le plantage. Un coup de chaud ? il fait - 8°C dehors, et le chauffage est à la ramasse, mais pourquoi pas ? il est vrai que le radiateur du cpu est empoussiéré. Ah et puis quelqu'un a eu la bonne idée de mettre un classeur a côté de la bouche d'aération du ventilo cpu.

A cause des pannes précédentes, je ne sais pas trop quoi penser.
Une carte réseau peut-elle planter une bécane à ce point (dites moi que non) ? Pour moi c'est plutôt une surchauffe du processeur. Le plantage de la carte est une demi-coïncidence: une surchauffe en a entraîné une autre. Et quant au
switch... un problème éléctrique (cf loi de l'emmerdement maximum) ?

Y a-t-il un inspecteur dans la salle ?
  • # je penche pour un problème électrique

    Posté par  . Évalué à 5.

    j'ai déjà eu le cas chez moi, des freezes complet sans aucune explication à première vue ; en fait le problème venait d'une très légère baisse d'alimentation qui faisait planter, par moment, le PC ; j'ai pu m'en rendre compte car par moment la lampe du bureau baisse légèrement d'intensité et quelques minutes après le pc plante...j'ai eu aussi d'autres évènements plus ou moins en rapport comme la perte de l'alimentation du hub usb...ce qui corobore la baisse d'alimentation.

    Pour résoudre mon problème, la solution a été simple, j'ai réparti autrement les branchements électriques des machines/lampes etc...

    L'utilisation d'un onduleur ou autre truc permettrait de vérifier l'état du réseau électrique pour confirmer l'hypothèse ; le seul problème dans ce genre de panne c'est que ce n'est pas toujours reproductible à l'identique...

    En espérant t'avoir aidé....
    • [^] # Re: je penche pour un problème électrique

      Posté par  (site web personnel) . Évalué à 2.

      Oui mais dans ce cas, tout se serait éteint, non ? L'écran est juste freezé. De toute façon il y a un onduleur (c'est un serveur).

      Pas mal quand même, car ça fait 4 ans que je prétend qu'il y a des problème électriques (il y a une pièce où toutes les barettes de Ram grillent!). Il y a quelques mois un nouvel électricien a dit la même chose... dans l'indifférence générale. Nous sommes des incompris.

      "La liberté est à l'homme ce que les ailes sont à l'oiseau" Jean-Pierre Rosnay

      • [^] # Re: je penche pour un problème électrique

        Posté par  (site web personnel) . Évalué à 2.

        Est-ce que l'alim du pc n'est pas sous dimensionné ? J'imagine qu'une carte gigabyte consomme plus qu'à 100 mbits. Cela pourrait expliquer le yoyo.

        "La première sécurité est la liberté"

        • [^] # Re: je penche pour un problème électrique

          Posté par  (site web personnel) . Évalué à 1.

          Généralement, les cartes réseau voient leur débit exprimé en gigabits ...

          Par ailleurs, si on suit ton raisonnement, il devrait avoir eu ce problème même quand le pc était neuf.
          Par contre l'alimentation, sous l'effet de l'encrassement (et/ou du vieillissement), peut chauffer plus que la normale et ne plus délivrer la puissance nécessaire.
          • [^] # Re: je penche pour un problème électrique

            Posté par  . Évalué à 3.

            Par ailleurs, si on suit ton raisonnement, il devrait avoir eu ce problème même quand le pc était neuf.

            Justement, comme tu le dit, les alims donnent moins avec le temps.
            Si l'alim etait juste juste au moment de l'achat, la puissance delivree decline avec le temps et t'arrives a un moment border line ou t'as ce genre de comportement bizarre.

            C'est un truc que j'ai constate sur un certain nombre de machine:
            - plantage plus ou moins aleatoires, mais pas vraiment en fait, generalement corrole au branchement d'un perif usb qui pompe ou a une grosse montee en charge de la machine
            - analyse de l'alim: un vieux tromblon de 250W datant de l'avant guerre
            - changement de l'alim par un truc de 300W
            - Les problemes disparaissent.

            Moralite: faut pas faire le pingre sur les alims, ca finit par se retourner contre soi.
      • [^] # Re: je penche pour un problème électrique

        Posté par  (site web personnel) . Évalué à 4.

        Tu as des petits analyseurs secteur, qui te donnent courant, tension, puissance, fréquence, consommation (voir coût), et qui peuvent mémoriser les mini/maxi atteints - en vente par exemple chez Conrad. Installes-en un pour pouvoir étayer ce que tu dis et défendre avec arguments l'installation d'un filtre ou d'un onduleur.

        Il y a longtemps (du temps du plan IPT, c'est pour dire), dans une école, les MO5 (si si) avaient régulièrement leurs alims qui lâchaient.... qq'un qui bossait chez EdF a installé un appareil de mesure... et ils se sont aperçus que de temps en temps, comme ça, il y avait des sautes à 380V...

        Python 3 - Apprendre à programmer dans l'écosystème Python → https://www.dunod.com/EAN/9782100809141

  • # Memtest

    Posté par  . Évalué à 4.

    Passe un bon coup de memtest86 pour voire dans quel état est ta RAM (ainsi que le bus qui la connecte au CPU).

    Si tu as la possibilité de laisser tourner quelques heures c'est encore mieux, c'est parfois surnois ce genre de crasses.
    • [^] # Re: Memtest

      Posté par  (site web personnel) . Évalué à 1.

      Tss tss tu fous mon week-end par terre :-)

      "La liberté est à l'homme ce que les ailes sont à l'oiseau" Jean-Pierre Rosnay

    • [^] # Re: Memtest

      Posté par  (site web personnel) . Évalué à 1.

      Voire même si c'est un serveur digne de ce nom, regarder si le constructeur ne fournit pas des outils de diagnostic matériel complets.

      Bon après le soucis, c'est que c'est parfois disponible sous la forme d'un gros exécutable win32 permettant de graver le CD correspondant... :-/
      • [^] # Re: Memtest

        Posté par  (site web personnel) . Évalué à 6.

        Pfiou, faire confiance aux constructeurs pour fournir des outils décents…

        Autant installer les bidules fournis avec les imprimantes, les appareils photos et les connexions à Internet…
        • [^] # Re: Memtest

          Posté par  (site web personnel) . Évalué à 2.

          Pfiou, faire confiance aux constructeurs pour fournir des outils décents…

          Confiance ce serait un grand mot, disons que pour certains matériels de type serveur, c'est à peu près les seules choses efficaces pour du diagnostic.

          Autant installer les bidules fournis avec les imprimantes, les appareils photos et les connexions à Internet…

          C'est pour MS Windows ou Mac OS ce genre de chose... Que même dans ce cas je n'installe pas, nous sommes bien d'accord.
    • [^] # Re: Memtest

      Posté par  (site web personnel) . Évalué à 3.

      J'ai souvent eu ce genre de problème, et à chaque fois c'était de la RAM naze.
      • [^] # Re: Memtest

        Posté par  . Évalué à 2.

        les RAM vieillissent avec le temps : faut retester de temps à autre
    • [^] # Re: Memtest

      Posté par  (site web personnel) . Évalué à 1.

      Me revoilà
      (la foudre a eu la gentillesse de griller ma freebox!)
      memtest86+ a tourné tout le week-end: la Ram va bien.

      "La liberté est à l'homme ce que les ailes sont à l'oiseau" Jean-Pierre Rosnay

  • # Carte réseau

    Posté par  (site web personnel) . Évalué à 2.

    J'imagine qu'une carte réseau qui fait un DMA mal placé doit pouvoir planter une bécane comme ca. Genre "Oups, j'ai écrit le paquet sur le scheduler"...
  • # Mister Freeze

    Posté par  . Évalué à 3.

    Y'a quelques années j'ai eu aussi ce problème sur un PC que j'avais recyclé en serveur et stocké dans un endroit frais (donc pas de surchauffe & co)

    Des freezes sans infos logs et sans que le PC ne soit flooder de traitement.
    Vu les coupures intempestives de courants à l'époque, j'avais mis un onduleur: Cela n'a pas résolu le problème;
    J'ai remplacé la barrettes mémoires: plus aucun soucis. (comme dit en haut: memtest toussa)
  • # Problème matériel ou problème de surcharge...

    Posté par  . Évalué à 3.

    La seule fois ou j'ai eu des problème de ce type avec un serveur en prod, ce n'etait pas une Debian mais sur un serveur Mac qui n'était plus mis à jour.
    On s'est rendu compte au bout de deux semaines qu'un petit malin avait exploité une faille dans un service accessible de l'extérieur qui n'aurait plus du l'être pour poser un script Perl permettant de faire du flood UDP, mais le script ne tournant pas régulièrement on ne l'a pas vu dans la liste des processus et il était bien planqué dans le système.

    Les symptômes étaient strictement identiques :

    - Chauffe CPU
    - Comportement bizarre de la carte réseau (passage de connecté à déconnecté 10x en moins d'une seconde)
    - Plantage des switchs.
  • # Alim ?

    Posté par  . Évalué à 3.

    Hors le memtest qui est à passer, essaye en changeant d'alim...
    J'ai un collègue qui vient de résoudre ses plantages mystérieux comme ça !
  • # Machine qui va bientôt mourrir

    Posté par  (site web personnel) . Évalué à 3.

    J'avais un serveur qui était derriere une alimentation stabilisé et qui fonctionnait depuis plus de 2 ans sans problème.
    Et puis à 1 semaine d'intervalle, il a crashé 2 fois sans aucune raison.
    Quelque jour plus tard, j'ai voulu comprendre et j'ai rebooté la bestiole pour faire un memtest.
    La machine n'a pas rebooté, carte mère morte...

    Heureusement que j'avais des backups à jours, j'ai pu lancer une vm en attendant le nouveau serveur :)
  • # Un point de vue comme un autre ...

    Posté par  (site web personnel) . Évalué à 5.

    "Il s'agit d'un petit serveur LTSP [Terminal Serveur avec KDE voir sur http://www.ltsp.org], qui tourne depuis plusieurs années."

    -> combien d'années ? 3, ou 4, ou 10, ou 15 ?

    "Il y avait un écran branché, sans activité (il affichait kdm)."
    Les souris/clavier répondaient?

    Un quart d'heure avant sa mort, le bonhomme était toujours vivant ...

    "La veille et l'avant veille il y a eu 3 incidents:
    1. un disque raid mort, que j'ai remplacé"

    Si ça tourne h24 en étant solicité couramment, même après seulement deux ou trois ans, un disque en raid et en rade n'est pas choquant.

    "2. deuxième reboot: la carte Ethernet Gigabit est passée en 100 Mbps, pas moyen de la repasser en gigabits/s avec ethtool, elle a fait un peu de yoyo par la suite."

    Sur de vielles alimentations, il m'est arrivé d'avoir des composants avec des caractéristiques un peu fantaisistes, un reboot (avec pour les cas les plus récalcitrants déconnection totale du PC du réseau EDF, plusieurs appuis sur le bouton de démarrage de l'ordinateur, légère attente - deux minutes au pire, pour être absolument certain que toute source éphémère de tension soit vide - puis reconnection de l'appareil au réseau électrique) et tout rentre dans l'ordre.

    "3. 3h plus tard le switch (D-Link DES-1228) a planté, c'était rigolo, les rampes de diodes faisaient la hola!"

    Si on corrèle ce fait aux deux précédents, les causes physiques probables peuvent être :
    - Température excessive dans le local
    - alimentation du bâtiment foireuse / problèmes de CEM (http://fr.wikipedia.org/wiki/Compatibilité_électromagnétique) dans le bâtiment

    Si à contrario on prend chacun de ces éléments séparément, tu ne risque pas d'être cocu.


    "Hier j'ai éteint le serveur quelques instants, au redémarrage la
    carte réseau marchait de nouveau en Gigabit."

    cf point 2 ci-dessus.

    "C'est sûr, la carte déconne (elle a du trop chauffer, c'est un processeur Marvell/Yukon qui ne supporte pas plus de 40°)."
    Je trouve (ce n'est que mon avis ...) que ta conclusion est un peu rapide.

    "Quelques heures après c'est le plantage. Un coup de chaud ? il fait - 8°C dehors, et le chauffage est à la ramasse, mais pourquoi pas ? il est vrai que le radiateur du cpu est empoussiéré."

    Vérifie quand même la quantité de poussière dans l'alimentation. Pour en avoir ouvert quelques unes, c'est parfois assez édifiant ... Et la qualité du signal délivré par l'alimentation conditionne le fonctionnement de l'ensemble des composants, certains étant plus ou moins sensibles que d'autres aux perturbations.

    "Ah et puis quelqu'un a eu la bonne idée de mettre un classeur a côté de la bouche d'aération du ventilo cpu."

    -_-

    Y'a des coups de pompes au fesses qui se perdent ...


    Par rapport au côté piratage évoqué dans un post au-dessus, il n'est pas à négliger, des outils comme rkhunter ou autocheckrootkit (ce ne sont que deux débuts de piste) sur un cd vif pourraient t'aider.

    Je suis curieux de connaître les résultats des tes investigations sur ce cas.
    À+
    • [^] # Re: Un point de vue comme un autre ...

      Posté par  (site web personnel) . Évalué à 1.

      Merci pour ta longue réponse.
      La foudre m'a gentiment déconnecté de force pendant qq jours, désolé de mon silence.

      -> combien d'années ? 3, ou 4, ou 10, ou 15 ?

      5 ans

      "Il y avait un écran branché, sans activité (il affichait kdm)."
      Les souris/clavier répondaient?


      non

      "La veille et l'avant veille il y a eu 3 incidents:
      1. un disque raid mort, que j'ai remplacé"

      Si ça tourne h24 en étant solicité couramment, même après seulement deux ou trois ans, un disque en raid et en rade n'est pas choquant.


      Tout à fait. Je pense à une demi-coincidence: la remise en route a provoqué un problème sur la carte réseau qui a entraîné, etc.
      ça fait penser à un problème d'alimentation électrique ou de chauffe...


      deux minutes au pire, pour être absolument certain que toute source éphémère de tension soit vide

      une quinzaine de secondes suffisent pour vider les condensateurs non ?

      "3. 3h plus tard le switch (D-Link DES-1228) a planté, c'était rigolo, les rampes de diodes faisaient la hola!"

      Si on corrèle ce fait aux deux précédents, les causes physiques probables peuvent être :
      - Température excessive dans le local


      non, il faisait froid au contraire

      - alimentation du bâtiment foireuse / problèmes de CEM [http://fr.wikipedia.org/wiki/Compatibilité_électromagnétique] dans le bâtiment

      Eh ben ça m'embête beaucoup:
      j'ai évoqué ce problème en 2006, dans un journal http://linuxfr.org/~andrianarivony/22080.html
      personne n'y a cru au problème chez le client, il n'y a pas eu de vérifications. Or il y a qq mois, un nouvel électricien a dit qu'il y avait des problèmes électriques sur l'installation (je ne sais rien de plus).
      Sur la page wikipedia, je vois que le blindage de la tour ne protège pas vraiment...

      On va déjà changer le bloc d'alimentation.

      Par rapport au côté piratage évoqué dans un post au-dessus, il n'est pas à négliger

      Je crois aussi.

      des outils comme rkhunter ou autocheckrootkit (ce ne sont que deux débuts de piste) sur un cd vif pourraient t'aider.

      un autre week-end foutu en perpective... :-)

      Je suis curieux de connaître les résultats des tes investigations sur ce cas.

      Pas de problème.
      Pour l'instant j'en suis à un dépoussiérage (tout va bien depuis) et un test de Ram négatif (48h de tests).

      En fait je penche un peu pour un problème électrique (alimentation, ECM, peut-être coup de foudre ?).
      Et j'ai oublié de dire que le switch n'est pas sur onduleur
      (grosse erreur au moins pour absorber les coups de foudre).

      "La liberté est à l'homme ce que les ailes sont à l'oiseau" Jean-Pierre Rosnay

  • # et tant qu'à faire...

    Posté par  (site web personnel) . Évalué à 2.

    Bonsoir,

    tu peux aussi essayer de remplacer KDM par XDM, ça fonctionne aussi bien pour l'usage que tu en as.

    Dernièrement j'avais des plantages pendant les mises en veille par KDE, j'ai désactivé la mise en veille, mais une session KDE ouverte finissait par tout planter au bout de quelques heures.

    Avec KDM seul, la machine tennait parfois plus de 12 heures...

    maintenant, j'ai XDM et XFCE4 et ça semble tenir (en tout cas la mise en veille tiens).

    Si ton courant électrique pose problème, sois bien content que le matériel l'ait supporté si longtemps, et en vieillissant il devient plus sensible.

    La chaleur c'est aussi fatal.

    Donc :
    netoyage complet, et place un onduleur, peut être que tout sera réglé.

    A bientôt
    Grégoire

    Pourquoi bloquer la publicité et les traqueurs : https://greboca.com/Pourquoi-bloquer-la-publicite-et-les-traqueurs.html

  • # Moi si

    Posté par  . Évalué à 0.

    Ma Debian plante tout le temps à cause de mon chipset nForce et du driver (libre) qui me freeze la machine chaque fois que le débit réseau fait un à pic à 100%...

    Donc voilà, Debian est ma distribution préféré, mais un logiciel libre est en constante évolution !
    • [^] # Re: Moi si

      Posté par  . Évalué à 1.

      Il est evident que n'importe quel OS puisse planter à un instant T...
      Du Solaris avec du matos x86 sans-marque n'aura sera plus "fragile" qu'avec un SunFire V480 par exemple...
  • # tu confonds journal et forum je pense

    Posté par  (site web personnel) . Évalué à 3.

    > gel instantané et complet de la bécane (aucune traces dans les logs).
    > Je cherche à savoir d'où ça peut venir

    sysrq-t et vmcore, merci.

    pertinent adj. Approprié : qui se rapporte exactement à ce dont il est question.

  • # rayon cosmique...

    Posté par  . Évalué à 1.

    Je ne vois pas d'autre explication.
  • # BIOS

    Posté par  . Évalué à 3.

    J'ai eu, il y a deux ans, un problème de freeze avec un serveur. En fait, au départ, 2 serveurs achetés en même temps, même marque, même série, même config, même distrib. et mêmes logiciels dessus. 3 ans de bons et loyaux services, et un jour un des serveurs c'est mis à planter sans rien dans les logs. Il pouvait fonctionner 3 semaines sans problème puis planter 4 fois dans la journée et repartir pour plusieurs semaines.
    Après avoir incriminé pas mal de choses en vain, j'ai fini par appeler la maintenance du constructeur qui voulait avant tout que je mette à jour le BIOS (carte mère, carte RAID et carte IPMI). N'y croyant pas trop car l'autre serveur avec le même matériel même version de BIOS n'avait pas de problème, je me suis exécuté (car le constructeur refusait de diagnostiquer le serveur s'il n'était pas à jour) et tout est rentré dans l'ordre.
    Voila, une piste de plus à étudier.
  • # onduleur / climatisation / poussière

    Posté par  (site web personnel) . Évalué à 1.

    Malheureusement , le matériel n'est pas éternel.
    Un onduleur "on-line" corrige les éventuels défauts ( sous tension, sur tension,..) souvent préjudiciable pour le matériel.
    Une bonne climatisation entretenur régulièrement est une bonne option.
    Un dépoussierage bi annuel évite les encrassements et surchauffes.

    Système - Réseau - Sécurité Open Source

  • # Carte réseau + nettoyage

    Posté par  (site web personnel) . Évalué à 2.

    Bonjour,

    il y a un an, j'ai eu une machine Debian qui s'est mise à avoir des comportement incohérent : De temps en temps, freeze du clavier + souris, mais le graphisme continuait à fonctionner. Si je pouvais prendre la main via SSH dans les moins de 2 minutes, je pouvais l'arrêter proprement. Sinon la carte réseau tombait elle aussi, et la machine avait droit à un bon hard reset.

    J'ai fini par trouver(*) que le problème venait du module de la carte réseau double 3COM. C'était du bon matos qui avait marché sans problème durant un paquet d'années (5 ans), avec un module tout ce qu'il y a de GPL et stable, intégré depuis longtemps dans le kernel Linux. Mais un composant a finit par devenir instable, ce qui fait que le kernel recevait des trucs pas cohérent, et plantait.

    Le changement de la carte réseau a corrigé le problème, et la machine fonctionne de nouveau sans soucis.

    (*): Un "tail -f /var/log/kern.log", lancé par hasard peu de temps avant un plantage a montré le crash du module réseau. A partir de là, c'était plus facile d'identifier le problème

    Autre chose : Un bon dépoussiérage de tout les composants de la machine, alimentation, ventilateurs, CPU, disques durs, ne fait pas de mal, et permet à tout les condensateurs, puces, etc... de moins chauffer (la poussière agit comme un isolant), rendant le hardware de la machine plus stable.
  • # Carte maîtresse partiellement abimée

    Posté par  . Évalué à 1.

    Bon, je cherche à aider sans prétention. Je parle en fonction de mon expérience sur un serveur. (entre autres bécanes)

    Sans entrer dans le détail, j'ai tourné en rond pendant des mois avec des plantages n'ayant rien de commun.
    Au final, je me suis rendu compte que mes ports USB et Ethernet ne se comportaient pas toujours comme il faut. je ne voulais pas croire à un problème électrique, et pourtant...Je n'ai jamais pu mettre le doigt sur la soudure sèche qui était responsable de ça, et j'ai dû changer de CM.
    Une fois le changement fait, plus de plantages...

    Mais ça peut être n'importe quoi d'autre. Le pire étant un fil en mauvais contact quelque part. J'ai vu des plantages avec un simple floppy mal luné.;-)

    Quand on ne trouve pas de solution avec une expérience en informatique comme la tienne, il faut mettre les mains dans le cambouis. Si on ne trouve pas, il faut continuer à chercher...dans le hardware pièce par pièce. C'est bête, mais parfois la solution est si simple qu'on a envie de se taper la tête sur un mur...;-))

    Je te souhaite bonne chance!!
    JP

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.