Je viens d'avoir un plantage pas banal sur un serveur Debian Lenny: gel instantané et complet de la bécane (aucune traces dans les logs).
Je cherche à savoir d'où ça peut venir. Ça vous dit d'enquêter avec moi, pour finir la semaine ?
Les faits:
--------------
Il s'agit d'un petit serveur LTSP [Terminal Serveur avec KDE voir sur http://www.ltsp.org], qui tourne depuis plusieurs années.
Il y avait un écran branché, sans activité (il affichait kdm).
La veille et l'avant veille il y a eu 3 incidents:
1. un disque raid mort, que j'ai remplacé
2. deuxième reboot: la carte Ethernet Gigabit est passée en 100 Mbps, pas moyen de la repasser en gigabits/s avec ethtool, elle a fait un peu de yoyo par la suite.
3. 3h plus tard le switch (D-Link DES-1228) a planté, c'était rigolo, les rampes de diodes faisaient la hola!
Hier j'ai éteint le serveur quelques instants, au redémarrage la
carte réseau marchait de nouveau en Gigabit. C'est sûr, la carte déconne (elle a du trop chauffer, c'est un processeur Marvell/Yukon qui ne supporte pas plus de 40°).
Quelques heures après c'est le plantage. Un coup de chaud ? il fait - 8°C dehors, et le chauffage est à la ramasse, mais pourquoi pas ? il est vrai que le radiateur du cpu est empoussiéré. Ah et puis quelqu'un a eu la bonne idée de mettre un classeur a côté de la bouche d'aération du ventilo cpu.
A cause des pannes précédentes, je ne sais pas trop quoi penser.
Une carte réseau peut-elle planter une bécane à ce point (dites moi que non) ? Pour moi c'est plutôt une surchauffe du processeur. Le plantage de la carte est une demi-coïncidence: une surchauffe en a entraîné une autre. Et quant au
switch... un problème éléctrique (cf loi de l'emmerdement maximum) ?
Y a-t-il un inspecteur dans la salle ?
# je penche pour un problème électrique
Posté par Dabowl_75 . Évalué à 5.
Pour résoudre mon problème, la solution a été simple, j'ai réparti autrement les branchements électriques des machines/lampes etc...
L'utilisation d'un onduleur ou autre truc permettrait de vérifier l'état du réseau électrique pour confirmer l'hypothèse ; le seul problème dans ce genre de panne c'est que ce n'est pas toujours reproductible à l'identique...
En espérant t'avoir aidé....
[^] # Re: je penche pour un problème électrique
Posté par ZeroHeure . Évalué à 2.
Pas mal quand même, car ça fait 4 ans que je prétend qu'il y a des problème électriques (il y a une pièce où toutes les barettes de Ram grillent!). Il y a quelques mois un nouvel électricien a dit la même chose... dans l'indifférence générale. Nous sommes des incompris.
"La liberté est à l'homme ce que les ailes sont à l'oiseau" Jean-Pierre Rosnay
[^] # Re: je penche pour un problème électrique
Posté par Nicolas Boulay (site web personnel) . Évalué à 2.
"La première sécurité est la liberté"
[^] # Re: je penche pour un problème électrique
Posté par legranblon (site web personnel) . Évalué à 1.
Par ailleurs, si on suit ton raisonnement, il devrait avoir eu ce problème même quand le pc était neuf.
Par contre l'alimentation, sous l'effet de l'encrassement (et/ou du vieillissement), peut chauffer plus que la normale et ne plus délivrer la puissance nécessaire.
[^] # Re: je penche pour un problème électrique
Posté par thedude . Évalué à 3.
Justement, comme tu le dit, les alims donnent moins avec le temps.
Si l'alim etait juste juste au moment de l'achat, la puissance delivree decline avec le temps et t'arrives a un moment border line ou t'as ce genre de comportement bizarre.
C'est un truc que j'ai constate sur un certain nombre de machine:
- plantage plus ou moins aleatoires, mais pas vraiment en fait, generalement corrole au branchement d'un perif usb qui pompe ou a une grosse montee en charge de la machine
- analyse de l'alim: un vieux tromblon de 250W datant de l'avant guerre
- changement de l'alim par un truc de 300W
- Les problemes disparaissent.
Moralite: faut pas faire le pingre sur les alims, ca finit par se retourner contre soi.
[^] # Re: je penche pour un problème électrique
Posté par legranblon (site web personnel) . Évalué à 2.
[^] # Re: je penche pour un problème électrique
Posté par lolop (site web personnel) . Évalué à 4.
Il y a longtemps (du temps du plan IPT, c'est pour dire), dans une école, les MO5 (si si) avaient régulièrement leurs alims qui lâchaient.... qq'un qui bossait chez EdF a installé un appareil de mesure... et ils se sont aperçus que de temps en temps, comme ça, il y avait des sautes à 380V...
Votez les 30 juin et 7 juillet, en connaissance de cause. http://www.pointal.net/VotesDeputesRN
# Memtest
Posté par niconoe . Évalué à 4.
Si tu as la possibilité de laisser tourner quelques heures c'est encore mieux, c'est parfois surnois ce genre de crasses.
[^] # Re: Memtest
Posté par ZeroHeure . Évalué à 1.
"La liberté est à l'homme ce que les ailes sont à l'oiseau" Jean-Pierre Rosnay
[^] # Re: Memtest
Posté par Ellendhel (site web personnel) . Évalué à 1.
Bon après le soucis, c'est que c'est parfois disponible sous la forme d'un gros exécutable win32 permettant de graver le CD correspondant... :-/
[^] # Re: Memtest
Posté par 🚲 Tanguy Ortolo (site web personnel) . Évalué à 6.
Autant installer les bidules fournis avec les imprimantes, les appareils photos et les connexions à Internet…
[^] # Re: Memtest
Posté par Ellendhel (site web personnel) . Évalué à 2.
Confiance ce serait un grand mot, disons que pour certains matériels de type serveur, c'est à peu près les seules choses efficaces pour du diagnostic.
Autant installer les bidules fournis avec les imprimantes, les appareils photos et les connexions à Internet…
C'est pour MS Windows ou Mac OS ce genre de chose... Que même dans ce cas je n'installe pas, nous sommes bien d'accord.
[^] # Re: Memtest
Posté par Dr BG . Évalué à 3.
[^] # Re: Memtest
Posté par Gniarf . Évalué à 2.
[^] # Re: Memtest
Posté par ZeroHeure . Évalué à 1.
(la foudre a eu la gentillesse de griller ma freebox!)
memtest86+ a tourné tout le week-end: la Ram va bien.
"La liberté est à l'homme ce que les ailes sont à l'oiseau" Jean-Pierre Rosnay
# Carte réseau
Posté par Nicolas Bernard (site web personnel) . Évalué à 2.
# Mister Freeze
Posté par Prae . Évalué à 3.
Des freezes sans infos logs et sans que le PC ne soit flooder de traitement.
Vu les coupures intempestives de courants à l'époque, j'avais mis un onduleur: Cela n'a pas résolu le problème;
J'ai remplacé la barrettes mémoires: plus aucun soucis. (comme dit en haut: memtest toussa)
# Problème matériel ou problème de surcharge...
Posté par Chris K. . Évalué à 3.
On s'est rendu compte au bout de deux semaines qu'un petit malin avait exploité une faille dans un service accessible de l'extérieur qui n'aurait plus du l'être pour poser un script Perl permettant de faire du flood UDP, mais le script ne tournant pas régulièrement on ne l'a pas vu dans la liste des processus et il était bien planqué dans le système.
Les symptômes étaient strictement identiques :
- Chauffe CPU
- Comportement bizarre de la carte réseau (passage de connecté à déconnecté 10x en moins d'une seconde)
- Plantage des switchs.
[^] # Re: Problème matériel ou problème de surcharge...
Posté par Chris K. . Évalué à 1.
# Alim ?
Posté par -mat . Évalué à 3.
J'ai un collègue qui vient de résoudre ses plantages mystérieux comme ça !
# Machine qui va bientôt mourrir
Posté par inico (site web personnel) . Évalué à 3.
Et puis à 1 semaine d'intervalle, il a crashé 2 fois sans aucune raison.
Quelque jour plus tard, j'ai voulu comprendre et j'ai rebooté la bestiole pour faire un memtest.
La machine n'a pas rebooté, carte mère morte...
Heureusement que j'avais des backups à jours, j'ai pu lancer une vm en attendant le nouveau serveur :)
# Un point de vue comme un autre ...
Posté par legranblon (site web personnel) . Évalué à 5.
-> combien d'années ? 3, ou 4, ou 10, ou 15 ?
"Il y avait un écran branché, sans activité (il affichait kdm)."
Les souris/clavier répondaient?
Un quart d'heure avant sa mort, le bonhomme était toujours vivant ...
"La veille et l'avant veille il y a eu 3 incidents:
1. un disque raid mort, que j'ai remplacé"
Si ça tourne h24 en étant solicité couramment, même après seulement deux ou trois ans, un disque en raid et en rade n'est pas choquant.
"2. deuxième reboot: la carte Ethernet Gigabit est passée en 100 Mbps, pas moyen de la repasser en gigabits/s avec ethtool, elle a fait un peu de yoyo par la suite."
Sur de vielles alimentations, il m'est arrivé d'avoir des composants avec des caractéristiques un peu fantaisistes, un reboot (avec pour les cas les plus récalcitrants déconnection totale du PC du réseau EDF, plusieurs appuis sur le bouton de démarrage de l'ordinateur, légère attente - deux minutes au pire, pour être absolument certain que toute source éphémère de tension soit vide - puis reconnection de l'appareil au réseau électrique) et tout rentre dans l'ordre.
"3. 3h plus tard le switch (D-Link DES-1228) a planté, c'était rigolo, les rampes de diodes faisaient la hola!"
Si on corrèle ce fait aux deux précédents, les causes physiques probables peuvent être :
- Température excessive dans le local
- alimentation du bâtiment foireuse / problèmes de CEM (http://fr.wikipedia.org/wiki/Compatibilité_électromagnétique) dans le bâtiment
Si à contrario on prend chacun de ces éléments séparément, tu ne risque pas d'être cocu.
"Hier j'ai éteint le serveur quelques instants, au redémarrage la
carte réseau marchait de nouveau en Gigabit."
cf point 2 ci-dessus.
"C'est sûr, la carte déconne (elle a du trop chauffer, c'est un processeur Marvell/Yukon qui ne supporte pas plus de 40°)."
Je trouve (ce n'est que mon avis ...) que ta conclusion est un peu rapide.
"Quelques heures après c'est le plantage. Un coup de chaud ? il fait - 8°C dehors, et le chauffage est à la ramasse, mais pourquoi pas ? il est vrai que le radiateur du cpu est empoussiéré."
Vérifie quand même la quantité de poussière dans l'alimentation. Pour en avoir ouvert quelques unes, c'est parfois assez édifiant ... Et la qualité du signal délivré par l'alimentation conditionne le fonctionnement de l'ensemble des composants, certains étant plus ou moins sensibles que d'autres aux perturbations.
"Ah et puis quelqu'un a eu la bonne idée de mettre un classeur a côté de la bouche d'aération du ventilo cpu."
-_-
Y'a des coups de pompes au fesses qui se perdent ...
Par rapport au côté piratage évoqué dans un post au-dessus, il n'est pas à négliger, des outils comme rkhunter ou autocheckrootkit (ce ne sont que deux débuts de piste) sur un cd vif pourraient t'aider.
Je suis curieux de connaître les résultats des tes investigations sur ce cas.
À+
[^] # Re: Un point de vue comme un autre ...
Posté par ZeroHeure . Évalué à 1.
La foudre m'a gentiment déconnecté de force pendant qq jours, désolé de mon silence.
-> combien d'années ? 3, ou 4, ou 10, ou 15 ?
5 ans
"Il y avait un écran branché, sans activité (il affichait kdm)."
Les souris/clavier répondaient?
non
"La veille et l'avant veille il y a eu 3 incidents:
1. un disque raid mort, que j'ai remplacé"
Si ça tourne h24 en étant solicité couramment, même après seulement deux ou trois ans, un disque en raid et en rade n'est pas choquant.
Tout à fait. Je pense à une demi-coincidence: la remise en route a provoqué un problème sur la carte réseau qui a entraîné, etc.
ça fait penser à un problème d'alimentation électrique ou de chauffe...
deux minutes au pire, pour être absolument certain que toute source éphémère de tension soit vide
une quinzaine de secondes suffisent pour vider les condensateurs non ?
"3. 3h plus tard le switch (D-Link DES-1228) a planté, c'était rigolo, les rampes de diodes faisaient la hola!"
Si on corrèle ce fait aux deux précédents, les causes physiques probables peuvent être :
- Température excessive dans le local
non, il faisait froid au contraire
- alimentation du bâtiment foireuse / problèmes de CEM [http://fr.wikipedia.org/wiki/Compatibilité_électromagnétique] dans le bâtiment
Eh ben ça m'embête beaucoup:
j'ai évoqué ce problème en 2006, dans un journal http://linuxfr.org/~andrianarivony/22080.html
personne n'y a cru au problème chez le client, il n'y a pas eu de vérifications. Or il y a qq mois, un nouvel électricien a dit qu'il y avait des problèmes électriques sur l'installation (je ne sais rien de plus).
Sur la page wikipedia, je vois que le blindage de la tour ne protège pas vraiment...
On va déjà changer le bloc d'alimentation.
Par rapport au côté piratage évoqué dans un post au-dessus, il n'est pas à négliger
Je crois aussi.
des outils comme rkhunter ou autocheckrootkit (ce ne sont que deux débuts de piste) sur un cd vif pourraient t'aider.
un autre week-end foutu en perpective... :-)
Je suis curieux de connaître les résultats des tes investigations sur ce cas.
Pas de problème.
Pour l'instant j'en suis à un dépoussiérage (tout va bien depuis) et un test de Ram négatif (48h de tests).
En fait je penche un peu pour un problème électrique (alimentation, ECM, peut-être coup de foudre ?).
Et j'ai oublié de dire que le switch n'est pas sur onduleur
(grosse erreur au moins pour absorber les coups de foudre).
"La liberté est à l'homme ce que les ailes sont à l'oiseau" Jean-Pierre Rosnay
# et tant qu'à faire...
Posté par GG (site web personnel) . Évalué à 2.
tu peux aussi essayer de remplacer KDM par XDM, ça fonctionne aussi bien pour l'usage que tu en as.
Dernièrement j'avais des plantages pendant les mises en veille par KDE, j'ai désactivé la mise en veille, mais une session KDE ouverte finissait par tout planter au bout de quelques heures.
Avec KDM seul, la machine tennait parfois plus de 12 heures...
maintenant, j'ai XDM et XFCE4 et ça semble tenir (en tout cas la mise en veille tiens).
Si ton courant électrique pose problème, sois bien content que le matériel l'ait supporté si longtemps, et en vieillissant il devient plus sensible.
La chaleur c'est aussi fatal.
Donc :
netoyage complet, et place un onduleur, peut être que tout sera réglé.
A bientôt
Grégoire
Pourquoi bloquer la publicité et les traqueurs : https://greboca.com/Pourquoi-bloquer-la-publicite-et-les-traqueurs.html
# Moi si
Posté par nomorsad . Évalué à 0.
Donc voilà, Debian est ma distribution préféré, mais un logiciel libre est en constante évolution !
[^] # Re: Moi si
Posté par NickNolte . Évalué à 1.
Du Solaris avec du matos x86 sans-marque n'aura sera plus "fragile" qu'avec un SunFire V480 par exemple...
# tu confonds journal et forum je pense
Posté par Krunch (site web personnel) . Évalué à 3.
> Je cherche à savoir d'où ça peut venir
sysrq-t et vmcore, merci.
pertinent adj. Approprié : qui se rapporte exactement à ce dont il est question.
[^] # Re: tu confonds journal et forum je pense
Posté par ZeroHeure . Évalué à 1.
mais effectivement j'aurais pu essayer, merci
"La liberté est à l'homme ce que les ailes sont à l'oiseau" Jean-Pierre Rosnay
# rayon cosmique...
Posté par KiKouN . Évalué à 1.
[^] # Re: rayon cosmique...
Posté par lolop (site web personnel) . Évalué à 2.
Votez les 30 juin et 7 juillet, en connaissance de cause. http://www.pointal.net/VotesDeputesRN
# BIOS
Posté par teoB . Évalué à 3.
Après avoir incriminé pas mal de choses en vain, j'ai fini par appeler la maintenance du constructeur qui voulait avant tout que je mette à jour le BIOS (carte mère, carte RAID et carte IPMI). N'y croyant pas trop car l'autre serveur avec le même matériel même version de BIOS n'avait pas de problème, je me suis exécuté (car le constructeur refusait de diagnostiquer le serveur s'il n'était pas à jour) et tout est rentré dans l'ordre.
Voila, une piste de plus à étudier.
# onduleur / climatisation / poussière
Posté par nono14 (site web personnel) . Évalué à 1.
Un onduleur "on-line" corrige les éventuels défauts ( sous tension, sur tension,..) souvent préjudiciable pour le matériel.
Une bonne climatisation entretenur régulièrement est une bonne option.
Un dépoussierage bi annuel évite les encrassements et surchauffes.
Système - Réseau - Sécurité Open Source - Ouvert à de nouvelles opportunités
# Carte réseau + nettoyage
Posté par Olivier (site web personnel) . Évalué à 2.
il y a un an, j'ai eu une machine Debian qui s'est mise à avoir des comportement incohérent : De temps en temps, freeze du clavier + souris, mais le graphisme continuait à fonctionner. Si je pouvais prendre la main via SSH dans les moins de 2 minutes, je pouvais l'arrêter proprement. Sinon la carte réseau tombait elle aussi, et la machine avait droit à un bon hard reset.
J'ai fini par trouver(*) que le problème venait du module de la carte réseau double 3COM. C'était du bon matos qui avait marché sans problème durant un paquet d'années (5 ans), avec un module tout ce qu'il y a de GPL et stable, intégré depuis longtemps dans le kernel Linux. Mais un composant a finit par devenir instable, ce qui fait que le kernel recevait des trucs pas cohérent, et plantait.
Le changement de la carte réseau a corrigé le problème, et la machine fonctionne de nouveau sans soucis.
(*): Un "tail -f /var/log/kern.log", lancé par hasard peu de temps avant un plantage a montré le crash du module réseau. A partir de là, c'était plus facile d'identifier le problème
Autre chose : Un bon dépoussiérage de tout les composants de la machine, alimentation, ventilateurs, CPU, disques durs, ne fait pas de mal, et permet à tout les condensateurs, puces, etc... de moins chauffer (la poussière agit comme un isolant), rendant le hardware de la machine plus stable.
# Carte maîtresse partiellement abimée
Posté par jpg0j . Évalué à 1.
Sans entrer dans le détail, j'ai tourné en rond pendant des mois avec des plantages n'ayant rien de commun.
Au final, je me suis rendu compte que mes ports USB et Ethernet ne se comportaient pas toujours comme il faut. je ne voulais pas croire à un problème électrique, et pourtant...Je n'ai jamais pu mettre le doigt sur la soudure sèche qui était responsable de ça, et j'ai dû changer de CM.
Une fois le changement fait, plus de plantages...
Mais ça peut être n'importe quoi d'autre. Le pire étant un fil en mauvais contact quelque part. J'ai vu des plantages avec un simple floppy mal luné.;-)
Quand on ne trouve pas de solution avec une expérience en informatique comme la tienne, il faut mettre les mains dans le cambouis. Si on ne trouve pas, il faut continuer à chercher...dans le hardware pièce par pièce. C'est bête, mais parfois la solution est si simple qu'on a envie de se taper la tête sur un mur...;-))
Je te souhaite bonne chance!!
JP
Suivre le flux des commentaires
Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.