Technologie Quelques brèves sur la supervision

32
6
août
2011
Technologie

Depuis quelques mois, le monde libre de la supervision sort de sa léthargie : des projets revivent, de nouveaux projets apparaissent... Dans les dépêches récentes de LinuxFr.org, on a vu le célébrissime Nagios sortir une nouvelle version mineure, histoire d’essayer de montrer que non, ce projet n’est pas encore mort. De même, nous avons régulièrement droit sur LinuxFr.org à des dépêches sur Shinken, le tout nouveau projet de supervision, qui couvre déjà la quasi totalité des fonctionnalités de Nagios, et qui continue à évoluer.

Mais l’actualité du monde de la supervision est bien plus vaste que cela. Voici quelques pointeurs vers certains des évènements de ces derniers mois qui n'ont pas encore été mentionnés sur LinuxFr.org.

Sommaire

Shinken

Pas encore de nouvelle version publiée depuis l’annonce de la version 0.6 sur LinuxFr.org, en revanche, entre-temps s’est déroulé le salon Solutions Linux, pendant lequel Jean Gabes, auteur de Shinken, a fait une présentation de son bébé. Le PDF contenant les transparents est accessible ici : Présentation de Shinken à Solution Linux 2011 (PDF, 1,3Mo). Si nous n’avez pas encore effectué la migration Nagios → Shinken, ces transparents pourraient bien vous convaincre de franchir le pas !

Centreon

Centreon, développé principalement par la société Merethis, est un outil dédié à la supervision s’appuyant sur Nagios et quelques outils supplémentaires, avec une surcouche graphique pour intégrer le tout. Pour une description plus précise, on peut se référer à la dépêche précédente sur LinuxFr.org, à propos de la sortie de la version 2.1. Depuis, Centreon a bien évolué, et une version 2.2 a été publiée en mai dernier. Parmi les nouveautés, on notera que dorénavant, plusieurs moteurs de supervision sont disponibles : en plus de Nagios, Icinga et Shinken sont maintenant utilisables avec Centreon. On notera aussi une gestion plus souple des ACL, une navigation plus aisée dans les graphiques dédiés à la métrologie, avec des possibilités de Zoom ou d’export, etc. Depuis, nous avons d’ailleurs eu droit à une version 2.2.1 et 2.2.2.
À propos de Centreon, Intelli’n TV a profité du salon Solution Linux pour réaliser un entretien avec Romain LE MERLUS (société Merethis), qui nous présente Centreon : http://www.youtube.com/watch?v=4lw6r_0oBRI

Centreon Engine

Encore un fork ! À l’occasion de la sortie de Centreon 2.2.0, la société Merethis en a profité pour annoncer son propre fork de Nagios Core. Centreon Engine est né, basé sur Nagios Core 3.2.x. Ce fork a été provoqué par la quasi inactivité du développement de Nagios Core. L’objectif officiel est d’améliorer les performances et de remotiver la communauté pour relancer la machine à innovation. Les premières versions ont permis de se lancer dans du nettoyage de code, de diminuer les dépendances entre fichiers, d’ajouter des test unitaires (un suivi de la couverture de test est d’ailleurs disponible à l’adresse : http://cdash.centreon.com/), etc. L’avenir nous dira si ce fork est pérenne, et si la cohabitation avec Nagios Core se déroulera bien : Ethan Galstad, “dictateur bienveillant” de Nagios, a annoncé lors d’un entretien trouver le projet intéressant, et il attend de voir si les auteurs de Centreon Engine remonteront leurs patchs à Nagios Core... D’ici là, vous pouvez aller en apprendre un peu plus par là : http://www.centreon.com/Centreon/centreon-engine-overview.html

Ganglia

Ganglia est un outil de surveillance basé sur RRDTools pour des systèmes de type cluster ou grille d’ordinateurs. Pour voir à quoi cela peut ressembler, on peut se reporter du côté de Wikimedia, qui utilise Ganglia pour surveiller son parc de serveurs (http://ganglia.wikimedia.org/). On peut différencier deux projets : Ganglia, le moteur de supervision lui-même, et Ganglia Web, une surcouche graphique améliorée en PHP. Au cours des dernières semaines, nous avons eu droit à la publication de la version 3.2.0 de Ganglia, mais aussi, et surtout, à la publication de la version 2.0.0 de Ganglia Web, alors que ce projet était en sommeil depuis des années. On notera comme évolutions notables la possibilité de zoomer dans les graphiques, une version optimisée pour les mobiles, et quelques autres évolutions montrant que le projet s'est bien relancé.

Zabbix

Zabbix est une autre solution tout-en-un de supervision. Contrairement à la politique suivie aujourd'hui par des produits comme Nagios, il n’y a pas une version libre limitée et une version complète propriétaire. Ici, une seule version complète, en GPLv2, gratuitement accessible. Le principe du tout-en-un est assumé, et même une ligne directrice : pas besoin de récupérer un moteur de supervision d’un côté, une interface web de l’autre, etc. Tout est inclu directement dans le produit. Ici, les données (configuration, historique, etc.) sont toutes conservées dans une base de données. La dernière version de zabbix (1.8.6) vient tout juste de sortir. Elle apporte son lot de corrections de bogues, la compatibilité avec la dernière branche de PostgreSQL (9.x), une plus grande rigueur dans l’analyse des fichiers de configuration, etc.
Puisque l’on parle de Zabbix, mentionnons également une conférence dédiée qui se déroulera fin Septembre à Riga, en Lettonie. Plus d’informations ici : http://www.zabbix.com/conference2011.php

FAN

FAN, Fully Automated Nagios, est une distribution Linux dédiée à Nagios. Elle se présente sous la forme d’une image d’installation, qui installera une CentOS avec un Nagios et tous les outils gravitant autour (Nagios plug-ins, Centreon, Nagvis, NDOUtils, NRPE, etc.). La version 2.2, apportant des versions à jour de chacun des outils inclus, ainsi qu’un support du 64 bits, vient de sortir en RC1. N’hésitez pas à tester et à rapporter les problèmes rencontrés pour stabiliser au mieux cette nouvelle version.

  • # Un point sur les solutions existantes !

    Posté par . Évalué à  7 .

    Super idée, j'étais justement en train de nager parmis les potentielles solutions de supervision afin d'enfin en déployer une au taff. Peut-être un poil trop court, mais je pense que ça résume bien l'existant. Il y'a des chances que je me tourne vers Zabbix, pour les raisons suivantes:
    - C'est du tout en un, ce qui est parfait pour moi, vu que mon temps à consacrer à l'admin est limité.
    - On peut utiliser PostgreSQL plutôt que se trimballer un mysql exprès pour la supervision, et ça tombe bien, on utilise PG :)

    Merci encore pour la news !

    • [^] # Re: Un point sur les solutions existantes !

      Posté par . Évalué à  10 .

      Je signale à toutes fin utiles, qu'il existe un site dédié à la supervision opensource : monitoring-fr.org. Et pour un panorama des solutions existantes, il y à la page panorama du wiki : http://wiki.monitoring-fr.org/supervision/links. Ainsi que des forums dédiés au support de nagios, shinken, zabbix et opennms.

      Concernant nagios, il est loin d'être mort mais continue sa vie sur les forks que sont icinga, centreon engine ou même chez les forks non officiels de op5 et groundworks. Mais ils ne faut pas oublier que ethan a annoncé lui même que le core ne bougerais plus en dehors des correctifs de bug/sécurité. Ethan se concentre sur son outil privateur Nagios XI et le marketing associé.

      Pour Zabbix c'est une des solutions les plus dynamiques tout en restant strictement sur le modèle libre (et pas opencore à la nagios). La roadmap est vraiment intéressante.

      Je vais éviter de m'appesantir sur Shinken, car je ne suis pas objectif sur ce point étant personnellement impliqué dans le projet. Tout ce que j'ai a dire c'est que Shinken m'a permis de me sortir de grosses problématiques de performances (polling de 1 minutes sur +1000 hôtes) dans une architecture Centreon. Le poller Nagios est remplacé par un Shinken qui lui réussis à tenir la ou Nagios engendre des latences monstrueuses.

  • # Observium

    Posté par (page perso) . Évalué à  7 .

    Il y'a ausi observium (http://observium.org) qui est bien sympa. Bon niveau alertes c'est pas vraiment fait pour, mais ça permet de jeter un coups d'oeil rapide à l'état de ses machines.
    Observium utilise principalement snmp pour récupérer l'état des machines et sa grande force est de ne nécessiter aucune configuration autre que "comment se connecter à la machine x en snmp".

    • [^] # Re: Observium

      Posté par (page perso) . Évalué à  5 .

      Je ne connaissais absolument pas, et je suis donc bien content de découvrir Observium, que je testerais dès que je trouverais un peu de temps.
      Ceci dit, Observium n'avait pas sa place dans cette news : pour ce que j'en vois, c'est bien plus un outil de métrologie que de supervision.

      Qui se dévoue pour nous écrire un petit article sur l'actualité des outils de métrologie ?

      • [^] # Re: Observium

        Posté par (page perso) . Évalué à  5 .

        Observium peut surveiller quelques services (http, ssh etc..) et envoyer des alertes dans certains cas (température, host down ou reboot, etc...). C'est assez limité, mais ça reste bien utile.

  • # Centreon

    Posté par (page perso) . Évalué à  6 .

    Depuis, nous avons d’ailleurs eu droit à une version 2.2.1 et 2.2.1.

    Au moins on est sur de ne pas hésiter au moment de choisir :o)

  • # Et pour un petit serveur ?

    Posté par . Évalué à  5 .

    Est-ce que ces solutions sont adaptées à un seul serveur à usage personnel ou vous avez un outil à me conseiller ?
    J'ai l'impression que les nagios & co ont tous un focus gros parc de machine et ça reviendrait un peu à tuer des mouches au bazooka dans mon cas.

    • [^] # Re: Et pour un petit serveur ?

      Posté par . Évalué à  4 .

      Pour surveiller une poignée de machines, j'aime bien monit. L'outil de surveillance est intégré dans plusieurs distributions linux, et suffit à mon usage - c'est à dire m'envoyer un email si un démon ou un serveur n'est plus accessible, et relancer le démon si possible.

      Sur le site de monit, on trouve aussi un outil propriétaire M/Monit pour résumer les résultats, mais je n'ai pas testé, et je ne pense pas en avoir besoin.

    • [^] # Re: Et pour un petit serveur ?

      Posté par . Évalué à  7 .

      Perso j'utilise munin, qui permet de tracer des jolis graphique, ça me suffit amplement pour mon serveur perso.

      • [^] # Re: Et pour un petit serveur ?

        Posté par . Évalué à  1 .

        Merci j'essayerai les deux

        • [^] # Re: Et pour un petit serveur ?

          Posté par (page perso) . Évalué à  1 .

          Pour mon réseau interne j'utilise Cacti + WeatherMap + 2 ou 3 plugins. Ca fonctionne pas trop mal mais faut patcher pour pouvoir installer des plugins.

          D'ailleurs, si quelqu'un a une meilleur solution pour du monitoring léger (vraiment, pcq pour le moment le cacti a l'avantage de tourner sur une BeagleBoard-XM).

  • # D'autres outils

    Posté par . Évalué à  6 .

  • # Gbrrdgraphix

    Posté par (page perso) . Évalué à  3 .

    Dommage, on n'a plus de nouvelles de ce Produit. Est-ce qu'il a cessé d'évoluer depuis juillet 2010 ? Il semblait vraiment intéressant...

    • [^] # Re: Gbrrdgraphix

      Posté par (page perso) . Évalué à  4 .

      Bonjour,

      Je tiens a dementir cette nouvelle, étant le développeur de cette solution, je tiens a préciser que ce projet n'est pas mort.

      Il est vrai que je n'ai pas sorti de nouvelle version car j'ai beaucoup travaillé sur le code et l'amélioration de la solution.

      Une nouvelle version va donc sortir trés bientot car j'ai presque fini.
      Il est tres dur de développer quand on a peu de retour des utilisateurs. Les critiques sont souvent un axe d'améliration pour un projet.

      Je reste disponible si il y a des questions

  • # Quoi de neuf pour Shinken

    Posté par (page perso) . Évalué à  9 .

    Salut,

    J'en profite pour compléter la partie sur Shinken : la nouvelle version (0.8) devrait être sur les rails vers mi-septebmbre je pense.

    Le core a quelques nouveautés intéressantes, mais c'est surtout sur "tout le reste" que ça évolue avec un outil CLI pour l'administrer et une première version d'une interface graphique dédiée à Shinken qui devrait plaire à beaucoup de monde ;)

    Pour en revenir à la news, on voit une activité en forte hausse en ce qui concerne Zabbix sur les forums, avec une version 20 qui semble fort intéressante. On avait prédis une année 2011 riche du côté de la supervision avec la stagnation du core Nagios, je pense qu'on ne s'est pas trompé, surtout que le sujet est de plus en plus important pour les administrateurs :p

  • # Open Monitoring Distribution

    Posté par (page perso) . Évalué à  4 .

    Comme alternative à FAN, OMD (http://omdistro.org/) est à regarder. Il permet de conserver les outils de supervisions à jour sans utiliser les paquets de la distribution. Tout est intégré, il supporte Shinken. Mais surtout ce qui me semble intéressant, c'est qu'il suffit de 2 commande pour créer un environnement vierge pour tester de nouvelles stratégies de supervision, ou copier un environnement existant pour valider la maj des outils. Très prometteur en tout cas.
    Sinon, j'attends avec impatience de pouvoir tester la nouvelle version de NConf http://www.nconf.org/dokuwiki/doku.php (qui gère les services sur les groupes d'hosts) pour voir si on peut faire évoluer les classes de configuration pour gérer Shinken. Vu la conception du produit, je pense que c'est possible sans trop de difficultés…

    • [^] # Re: Open Monitoring Distribution

      Posté par (page perso) . Évalué à  3 .

      Je confirme, j'ai testé omdistro il y a quelques semaines en voulant tester check_mk.
      Après quelques tâtonnements pour découvrir le tout, j'ai retenu la solution suivante:
      - debian
      - omdistro
      - core: nagios (encore quelques petits pb avec shinken)
      - activation de wato qui permet de configurer graphiquement check_mk
      - installation de l'agent check_mk sur les windows et linux
      - paramétrage des hôtes via l'interface web mk_livestatus + wato, très rapide
      - et hop : en 1h30 maxi je peux superviser un petit parc, avec en prime pnp4nagios qui fonctionne tout seul !
      A tester absolument pour ceux qui comme moi cherchent une solution basique et rapide à déployer, tout en restant compatible nagios.

    • [^] # Re: Open Monitoring Distribution

      Posté par . Évalué à  2 .

      Je trouve aussi que OMD est vraiment pratique.
      Je pense qu'il faut toutefois bien connaitre Nagios avant, pour ne pas être perdu lorsque l'on cherche ses "petits" dans l'arborescence spécifique où quand on veut y connecter d'autres outils.

  • # Et les autres ? (enfin un surtout)

    Posté par . Évalué à  3 .

    Sans vouloir faire mon vendeur de logiciel gratuit, y'a une solution super complète, hautement scalable, et de grande qualité appelée Xymon (anciennement Hobbit Monitor), plus d'infos sur
    http://www.xymon.com/xymon/help/about.html
    Une page de démo ici :
    http://www.xymon.com

    • [^] # Re: Et les autres ? (enfin un surtout)

      Posté par . Évalué à  1 .

      Je plussoie concernant Xymon (anciennement Hobbit, qui lui, est issu de Big Brother) pour l'avoir déjà utilisé! Même si son esthétique est assez "rustique", il s'agit vraiment d'un outil puissant et qui est moins gourmand que les autres logiciels que j'ai pu tester. On l'oublie souvent dans les comparatifs concernant la supervision et pourtant, il n'a pas à rougir face à la concurrence.
      Dommage cependant qu'il faille utiliser en complément Devmon pour la supervision via snmp.

    • [^] # Re: Et les autres ? (enfin un surtout)

      Posté par (page perso) . Évalué à  5 .

      Au risque de passer pour un ralleur mais j'ai essayé xymon justement il y a pas longtemps.
      Il a enchainé les segfault et j'ai voulu voir ce qui se passait.
      Pour cela j'ai regardé le code et horreur....
      Un logiciel qui test pas le retour de ces malloc peux il être qualifié de grand qualité ?
      Et je parle pas des autres fonctions critiques qui sont a moitié testée (write etc...)
      De même que le makefile qui supporte même pas la compilation parallele.

  • # Distinction entre agent et agentless

    Posté par . Évalué à  3 .

    Merci pour cet article.
    J'utilise actuellement une FAN avec tout en SNMP mais je suis moyennement satisfait en agentless
    Je pense qu'il faut aussi distinguer le fonctionnement en agentless ou avec agent. Nagios avec le NRPE, j'ai toujours adoré. Simple, rapide et très flexible, alors que je ne retrouve pas tout en SNMP si rapidement :)
    En tout cas, comme j'ai envie de revoir completement la conf actuelle, je vais regarder Shinken et consort :)

  • # Petites informations concernant la supervision:

    Posté par (page perso) . Évalué à  4 .

    Les outils disponibles en Opensource sont divers et variés et ne servent pas a surveiller les mêmes choses ou plutôt les mêmes information.

    • La Supervision informative:

      • Surveillance d'équipement (en ligne/pas en ligne)
      • Surveillance de service (démarré/pas démarré)
      • Surveillance de compteur/capacité (seuil d'espace disque/seuil mémoire/seuil mail/etc...)

      Le but étant d'être informé lors d'un dysfonctionnement/seuil quelconque par mail, visuellement, sms, etc... afin d'intervenir le plus rapidement possible.
      * Enregistrement des changements d'état des équipements/services/seuils que l'on surveille pour aider a comprendre la récurrence d'un phénomène, l'heure d'un événement afin de faire une corrélation avec les journaux d’événement des différents logiciels, services, machines, etc, en causes.

      Ex: Nagios, Shinken, et bien d'autres...

    • La métrologie:

      Le métrologie est un complément aux outils de supervision et peuvent soit être des outils dédiés soit des outils intégrés à des logiciels de supervision.

      • Le principal interet de la métrologie est de constituer un historique de valeurs ou de données qui evoluent dans le temps afin pouvoir les analyser, en faire des graphiques (un bon graphique vaut bien mieux qu'une longue explication), superposer plusieurs données différentes sur le même graphique, etc ...

      Ex: Cacti, RRDtool, gbRRDGraphix, Munnin, et bien d'autres...

    • La surveillance active:

      La surveillance active peut être considérée comme de la supervision ou des actions précises ont été définies si certain evenements se produisent et ensuite informer l'utilisateur.

      L'outil 'monit' s'incrit dans cette esprit car sont but premier est de surveiller des services, des sites web, des URL, des port réseaux, etc... et en de défaillance de ceux-ci, d'effectuer des actions précises telles que:

      • Arrêter/Démarrer/Redémarrer un service
      • Lancer un programme/script
      • Envoyer un email

      Un des intérets de ce genre d'outil est par exemple de surveiller les services d'un cluster (Heartbeat + drbd + services) et ainsi par exemple, redémarrer le service Apache si l'URL de site n'est pas joignable bien que le process soit toujours actif mais planté.

      Dans cet exemple, il est trés avantageux de pouvoir agir sur les services sans intervention manuelle car cela amène plus de réactivité en cas de défaillance.

      Dans le cas d'un cluster c'est essentiel car heartbeat ne sait pas bien surveiller les services/process qu'il
      lance, 'monit' vient donc bien completer cet aspect de la surveillance

    • [^] # Re: Petites informations concernant la supervision:

      Posté par . Évalué à  1 .

      "Dans le cas d'un cluster c'est essentiel car heartbeat ne sait pas bien surveiller les services/process qu'il
      lance, 'monit' vient donc bien completer cet aspect de la surveillance"

      Bonjour,

      En ce qui concerne le clustering, je suis très satisfait de pacemaker/openais.
      Possibilité de générer des traps snmp pas encore testée.

      Cordialement,

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.