Forum Linux.général Charge CPU trop importante

Posté par . Licence CC by-sa
Tags :
2
13
déc.
2013

Bonjour,

J'ai un satellite (poller) Nagios, distribution F.A.N (Fully Automated Nagios) en surcharge CPU (une charge moyenne à plus de 12 sur la dernière minute sur un 2x2 cœurs)

J'aimerais bien sûr déterminer la cause de cette surcharge mais je ne sais pas comment m'y prendre.

De manière générale, quelle est la méthode indiquée pour déterminer la cause d'une surcharge CPU sur UNIX ou GNU/Linux ?

  • # top

    Posté par (page perso) . Évalué à 4.

    La première vérification est d'utiliser un outil comme top (ou htop, atop) et de classer les processus par consommation de cpu. Si certains prennent gros pourcentage du cpu, les coupables sont trouvés. Sinon, il faudra chercher si ce n'est pas un problème d'entrée-sorties, avec des outils comme iotop, ftop.

    • [^] # Re: top

      Posté par . Évalué à 4.

      j'ajouterais que top, dans son resumé en haut, indique aussi les %wai, qui indique s'il y a des attentes de peripheriques…

      ca peut venir d'un manque de RAM qui force l'usage du SWAP, donc genere des acces disques, donc des attentes…

  • # atop

    Posté par (page perso) . Évalué à 3.

    Une charge de 12 me fait plus penser à un pb d'Io que de cpu.

    J'ai récemment découvert atop qui permet de visualiser avec un seul outil les différents indicateurs de perf classiques (cpu, ram, io disque, io réseau)

    Ça combine les classiques top, vmstat, iotop etc.

    Mes 2 ¢

  • # Merci

    Posté par . Évalué à 2. Dernière modification le 16/12/13 à 10:39.

    Merci à tous pour vos réponses.

    Ce n'est pas un problème de %wait. Ce sont bien les checks nagios qui arrivent en haut d'un top classé par utilisation CPU.

    Je pense qu'il doit y avoir un souci dans la conf Nagios. J'ai un max_concurrent_checks=200 ça me paraît gros mais je lis que ça dépend d'autres options.

    N'ayant pas la charge de corriger ce dysfonctionnement ni l'envie de ma plonger dans Nagios je vais pas chercher plus loin…

    • [^] # Re: Merci

      Posté par . Évalué à 4. Dernière modification le 16/12/13 à 13:47.

      bah tu sais que c'est un check de nagios,
      peut-etre que tu peux chercher dans la config de FAN pour trouver les intervalles d'interrogation
      si ca se trouve tu as demandé à un agent d'interroger trop souvent et trop vite un appareil
      du coup l'appareil te met en attente.

      il suffirait alors d'augmenter l'intervalle de verification
      par exemple plutot que d'interroger toutes les secondes si le service est UP,
      faire cette interrogation toutes les 2 ou 5 secondes.

      apres ca peut aussi etre un script ecrit avec les pieds, qui boucle pour faire le test et repondre UP/DOWN selon le resultat du test.

  • # il y a aussi sar

    Posté par . Évalué à 1.

    bonjour,

    il peut être intéressant de savoir quand cela se produit et pour cela il existe
    sar (système activity report) qui permet de stocker tout les x minutes/secondes etc… les données de top

    c'est pas installé par défaut, il faut souvent faire appel au paquet "sysstat"

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.