Forum Linux.général Système de notification de problème hardware

Posté par .
1
31
août
2012

Bonjour à tous,

Je suis à la recherche d'un système de notification lors de la détection d'un problème matériel pour mon petit serveur domestique.

C'est principalement pour être avertit d'un problème sur un disque dur ou sur une grappe raid (logiciel), afin de ne pas réagir trop tard, mais aussi pourquoi pas sur le reste des composants de la machine. L'idéal serait d'être avertit par mail.

Existe t-il un daemon qui fait ça out-of-box? Qu'utilisent les admins dans les datacenters?

Je suis surpris du peu de doc sur le net à propos de cette problématique (ou alors je cherches mal :) et je suis preneur du moindre conseil sur ce genre de monitoring.

Merci.

  • # Nagios / XYmon

    Posté par (page perso) . Évalué à 2.

    Nagios et XYmon (Ex-hobbit, ex-bigBrother) peuvent être couplés à des plugins et/ou des scripts home-made qui se servent des outils CLI du fabricant pour surveiller ton RAID, etc.

    La gelée de coings est une chose à ne pas avaler de travers.

  • # tu as le choix

    Posté par . Évalué à 6.

    pour les disques durs physiques :

    smartmontools
    p smartmontools - control and monitor storage systems using S.M.A.R.T.

    fournit quelques outils pour interroger les disques si ceux-ci gerent le S.M.A.R.T et que l'option n'est pas desactivé dans le bios

    pour le raid ca va dependre de la techno ou de la carte raid

    • en raid logiciel
      • mdadm si je ne m'abuse peut surveiller l'etat de la grappe
      • j'imagine que dmraid dispose aussi d'un outil pour tester la grappe et avertir.
    • en raid materiel, je penses qu'il faut chercher les outils des constructeurs
      • chez HP il faut chercher smartarray monitoring linux, on trouve des outils avec les drivers (cciss entre autre)
    • [^] # Re: tu as le choix

      Posté par . Évalué à 1. Dernière modification le 31/08/12 à 22:38.

      Je vais regarder du coté de smartmontools, qui, à moins que je me lances dans l'installation d'une usine à gaz, devrait être un bon début :)

  • # tu peux bien sur ajouter a nagios les plugins

    Posté par . Évalué à 2. Dernière modification le 31/08/12 à 15:16.

    tu peux bien sur ajouter a nagios les plugins qui prennent des outils externes en charge comme mdadm ou autre pour completer sans te prendre le choux…

    nagios et ses plugins c'est chiant à installer parce que c'est long, mais c'est assez simple en fait.

    si tu veux te prendre le choux, tu peux utiliser nagios avec toutes ses fonctions vers rdtools pour logguer les incidents dans une base mysql, faire des graphs, générer des tickets d'incidents et faire mettre ta glpi et ton outils de ticketing pour recevoir des alertes sms etc…

    mais bon là pour 4/5 serveurs perso tu va y passer 1 moi à mi-temps.

    pour un raid materiel la plupart du temps tu peux utiliser snmp via une MIB

  • # le peu de doc

    Posté par . Évalué à -1.

    En fait le monitoring materiel est sencé ne servir à rien, c'est pourquoi il est peu documenté.
    Si ton infra est importante, tu as de la redondance donc monitorer ne sert à rien parce que c'est la redondance elle même qui te dit qu'il y a souci sur la machine principale quand la secondaire prend le relais , idem pour des baies de disques croisées entre serveurs même si les serveurs maitres et secondaires n'ont pas de problème mais que c'est sur une baie qu'il y en a un, comme c'est croisé, il n'y a pas d'interruption est tu es prévenu, parce qu'un lien est coupé…
    et ainsi de suite.

    plus l'infra est importante, moins le monitoring par un nagios ou XYmon sert à rien, parce que d'autres moyens d'alerte rapides sont déjà là.

    typiquement nagios est super adapté pour une infra qui multiplie les machines uniques, (y compris les machines virtuelles en terme de routage/reseau/volumes-disques), plus que pour une infra structurée….où au contraire tu as des baies, ou des cartes internes dans les serveurs avec des firmwares indépendants qui sont capables d'envoyer des SMS ou mails d'elles mêmes.

    • [^] # Re: le peu de doc

      Posté par (page perso) . Évalué à 3.

      Ah d'accord et donc au lieu d'avoir une gestion centralisée de cette information tu configures chaque firmware pour qu'il envoie des notifications à la bonne personne ? Ça doit être pratique à gérer pour une "infra importante" !

  • # supervision ?

    Posté par (page perso) . Évalué à 2.

    Tu devrais chercher avec les mots clef "supervision" et "monitoring".

    Au travail, j'utilise nagios et shinken avec des sondes pour interroger le hardware.

  • # entres autres...

    Posté par . Évalué à 1. Dernière modification le 31/08/12 à 22:05.

    • De suite ça me fait penser à snmp.
    • Si le processeur et le kernel installés sont en 64 bits, tu peux tester mcelog.
    • Il faut savoir ce que tu peux monitorer, pas mal d'outils décrits ici , de quoi acquérir les bases de la supervision.
    • Regardes aussi du cote d'lm-sensors
    • pour smartd, un exemple de config des alertes

    Si tu veux "juste" monitorer ton serveur, il est installé sous quelle distrib linux en fait ?
    Tu ne peux y accéder que depuis ton réseau domestique ou depuis l’extérieur aussi ? C'est la seule machine a être allumée en permanence ?

    il y a des solutions "légères" (interface web) comme
    - zabbix ou
    - munin
    pour suivre l'évolution de l'état de ton système.

    Un peu de lecture avant le dodo : monitoring-fr

    • [^] # Re: entres autres...

      Posté par . Évalué à 1.

      C'est un système qui commence à dater, je devrais le dépoussiérer un peu.

      C'est un hôte gentoo qui fait tourner des vservers eux aussi sous gentoo (le proco n'a pas d'instructions VT…).
      C'était vraiment très fun a l'installation mais un peu lourd à la longue :)

      C'est la seule machine chez moi qui tourne en permanence et c'est un raid 1.
      J'ai aussi un petit dédié chez OVH, et justement cette machine n'a pas de raid (question de budget), d’où ma demande d'un petit outil faisant le travail pour les disques, raids ou autres pièces.

      A voir où il serait le plus judicieux d'installer le système de monitoring.

      • [^] # Re: entres autres...

        Posté par . Évalué à 2.

        Tu peux installer alors PandoraFMS Community Edition, peu connu, mais qui m'a rendu de bons services
        à mon poste précédent pour monitorer des serveurs CentOs, debian, contenants des VServers.
        Son entrée sur Wikipedia (en).
        Il se compose de 3 composants :
        - les agents (les sondes installées sur les serveurs à monitorer)
        - le server
        - la console web (que j'installais sur le server)
        Voici un des "pandoraFMS howto"
        qui je l’espère n'est pas trop "outdated".

        Tu as quels services réseaux qui tournent sur ton dédié OVH ? quelle distrib ?
        D'abord ça peut être bien de le sécuriser le serveur ssh comme expliqué ici.
        Je te conseille d'installer donc denyhosts et fail2ban, après avoir sécurisé les services réseaux faisant appels à l'authentification.

        • [^] # Re: entres autres...

          Posté par . Évalué à 0.

          Alors la machine chez OVH est un peu tricky :)

          Le système hôte est une gentoo à laquelle sont assignées 3 IP, une spécifique à l'admin, une pour l'utilisation perso, et une pour les invités.
          L'hôte fait tourner des VM KVM sous debian, toutes reliées à un bridge réseau virtuel afin de créer un LAN interne, une des VM est spécialisée dans les services réseau du LAN interne tel que DHCP ou DNS en splited horizon. Ensuite en gros il y a une VM par service, tel quel mysql, une qui fait office de NAS qui exporte du nfs, samba, ftp avec pas mal d'espace, une pour tout ce qui est mail. Dans une VM il y a un nginx qui sert de frontal pour tout les sites de la machine, que ce soit pour la VM qui contient un apache pour plusieurs sites mutualisés ou alors pour des VMs invités. Il y en a une qui sert de serveur VPN pour que je puisse me connecter a partir de chez moi sur le LAN virtuel, acceder a samba ou nfs depuis mon poste, et une autre qui sert de passerelle réseau en partance vers un vpn en hollande (en fait chaque VM peut choisir si elle a accès a un internet par OVH ou part le VPN en choisissant la bonne passerelle dans sa conf réseau).
          Pour tout ce qui est firewall et NAT sur l'hôte afin de faire fonctionner tout ça c'est du shorewall.

          Bref ça fait tout un tas de services, c'est surtout pour faire joujou, il n'y a rien de critique qui tourne et en cas de problème seule ma fierté prendrait un coup auprès des invités :D

          Mais en écrivant cela je me rend compte qu'il serait temps que je jettes un œil coté monitoring rien que pour avoir une vision plus claire.

          • [^] # Re: entres autres...

            Posté par . Évalué à 1.

            En effet ! tu t'es bien "amusé" dis donc ! Si ça te permet de te sensibiliser aux problématiques d'admin/supervision alors… ;)
            C'est pour ça peut etre que tu n'avais pas trouvé de solution simple : car la supervision matériel de stockage fait partie de toute une chaine, et ceux qui n'ont eu envie que d'implémenter cette supervision l'ont fait en script+cron.
            Bon courage !

  • # Merci pour l'éclairage

    Posté par . Évalué à 2.

    J'ouvre une nouvelle file afin de vous répondre a tous.

    D'abord merci pour vos réponses, cela me conforte dans le fait qu'il n'existe pas un petit daemon spécialisé capable de faire ça simplement sans déployer une solution de monitoring plus complexe, c'est un peu dommage car c'est utiliser pas mal de temps en déploiement pour un événement qui n'arrivera peut être jamais.

    Il reste smartd qui fait le travail uniquement pour les disques dur.

    Mais cela fait un petit moment que l'installation d'un nagios ou d'un shinken me démange, ce sera l’occasion de sauter le pas.

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.