Forum Linux.général Load Average CPU & SNMP

Posté par Ludovic César le 11 juillet 2007 à 14:14.

Étiquettes : aucune

juil.

2007

Bonjour à tous,

J'ai des problèmes avec les infos récoltées par snmp pour la charge CPU et uniquement celle là.

Je monitor la plupart de mon réseau et ses services via nagios et snmp et j'ai donc plusieurs services qui font des requètes snmp pour récolter les informations que je désire.
Ce qui est bizzard c'est que pour la demande d'infos sur le load CPU j'ai des informations totalement fausse, contrairement aux autres résultats qui eux sont corrects (% disk, nb de connection, nb processus,...)

Voici les infos que me retourne un snmpwalk & snmpget:



# snmpwalk -v 2c -c ro_com 10.14.0.1 1.3.6.1.4.1.2021.10.1.5.3

UCD-SNMP-MIB::laLoadInt.3 = INTEGER: 1778



# snmpget -v 2c -c ro_com 10.14.0.1 1.3.6.1.4.1.2021.10.1.5.3

UCD-SNMP-MIB::laLoadInt.3 = INTEGER: 1785

Mais quand je vérifie ces infos avec la commande 'top' voici ce que j'obtiens:



 14:05:34  up 35 days,  2:58,  1 user,  load average: 17.99, 17.33, 17.76

J'ai déja redémarrer le demon snmpd cela n'a rien changer. Et voila 24H que j'ai ce problème sur 1 seul serveur alors que j'en monitor une trenteine et tous de même modèle.

Merci de vos lecture,

Ludo

# x100

Posté par daggett le 11 juillet 2007 à 15:39. Évalué à 2.

Tu as peut-être remarqué que ce qui est renvoyé par SNMP est visiblement exactement 100 fois ce que te renvoie top...
/usr/share/snmp/mibs/UCD-SNMP-MIB.txt:
laLoadInt OBJECT-TYPE
"The 1,5 and 10 minute load averages as an integer.
This is computed by taking the floating point
loadaverage value and multiplying by 100"

Donc apparemment c'est le comportement attendu. Tu n'as plus qu'à gérer tes unités en fonction de cette échelle.

Maintenant pourquoi les autres serveurs ne sont pas pareils ? Peut-être qu'ils utilisent une autre MIB avec une autre sémantique ? Ou juste qu'ils ne sont pas chargés du tout et donc ça ne se voit pas même multiplié par 100 ?
- [^] # Re: x100
  
  Posté par Ludovic César le 11 juillet 2007 à 17:32. Évalué à 1.
  
  La multiplication par 100 était prise en compte (par le monitoring) c'est en fait le cpu qui à une consomation anormalement élevée. Ce qui doit être du à un problème hardware et non du résultat snmp.
  
  Merci pour ta précision cela m'a mit sur la voie.
  
  Pour info voici une comparaison d'un autre serveur:
  
  17:03:30 up 121 days, 5:30, 1 user, load average: 0.00, 0.08, 0.24
  - [^] # Re: x100
    
    Posté par daggett le 11 juillet 2007 à 18:24. Évalué à 1.
    
    C'est vrai qu'une charge de 17, c'est pas mal ;)
    Soit tu as effectivement des processus qui bouffent tout, soit c'est plus subtil: si le serveur reste réactif, regarde s'il y a des processus en état "D" dans la colonne "Status" de top ou de ps. C'est en gros un process bloqué en attente d'un retour d'appel système qui ne rendra jamais la main, mais qui en pratique ne consomme absolument pas de CPU.
    J'ai déja eu ça par exemple pour un ls sur un CD-rom vérolé (bon, là ça peut consommer si le kernel recommence continuellement), ou sur un montage NFS "cassé". Ça peut aussi arriver sur des drivers buggués.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.

# x100

[^] # Re: x100

[^] # Re: x100