Forum général.cherche-logiciel Cluster : Equivalent d'xosview en mode console ? OpenMPI et autres questions

Posté par  .
Étiquettes : aucune
0
31
août
2010
Bonjour à tous,

Nous sommes en train de tester le fonctionnement de l'une de nos applications sur un cluster qu'on nous prête, avec pour objectif d'acheter nous même un cluster par la suite.
Le cluster de prêt dispose d'un réseau infiniband et d'un réseau ethernet. Pour une raison que nous ne comprenons pas encore, les calculs sont extrêmement lents dès qu'on cherche à utiliser le réseau ethernet.

Précisément, tout les X unités calculées, le cluster va mettre 5000 (en gros ) fois plus de temps pour calculé l'unité suivante. Un des intervenants de la société qui nous prête le cluster nous a dit qu'il s'agissait d'un appel system ( mémoire, hdd, réseau ... ) mais qu'il n'était pas en mesure de nous dire avec plus de précision ce qu'il se passait.

Le logiciel en question est WRF que nous parallélisons avec OpenMPI. Comme les noeuds de calcul ne disposent pas de couche X, nous ne parvenons pas à utiliser xosview.

Avez vous une idée d'un logiciel qui nous permettrait de tracer ce que fait le cluster pendant ses "ralentissements" ?

Connaissez vous des sociétés/associations dans lesquelles nous pourrions emprunter (voir louer) rapidement un cluster équivalent et réaliser quelques tests ? Il s'agit de seulement 4 ou 8 noeuds de calculs. (oui, je crois encore au père Noel !)

Bonne journée !

Raph
  • # virtualisation ?

    Posté par  . Évalué à 3.

    tu as penser à la virtualisation pour tester tes problemes ?

    pour ca il te faut juste un gros serveur
    dans lequel tu crees 4 machines virtuelles styles KVM par exemple.

    tu n'auras certes pas les performances d'un vrai cluster avec du vrai reseau et des vrais processeurs mais ca peut te permettre de diagnostiquer ton souci
    • [^] # Re: virtualisation ?

      Posté par  . Évalué à 1.

      Je n'avais pas pensé à ça. Ca risque d'être compliqué à mettre en oeuvre avec nos délais et le manque de matos, mais c'est une excellente idée !
      • [^] # Re: virtualisation ?

        Posté par  . Évalué à 3.

        ce n'est pas plus difficile que de trouver une gentille asso qui preterais un cluster sur lequel il faudrait installer vos distribs et produits
        • [^] # Re: virtualisation ?

          Posté par  . Évalué à 1.

          A vrai dire, il est plus facile de se faire prêter un cluster qu'on ne le pense, j'ai été assez surpris. (surtout les constructeurs et les sociétés spécialisés)
          J'ai mal formulé ma question, ça aurait dû donner plutôt : est ce que vous avez une société / asso avec qui vous avez travaillé et que vous recommanderiez.

          Comme tout le monde semble utiliser un peu les même outils ( XXXmpi, un linux neutre), installer notre code sur un cluster est assez rapide.
          Vu qu'on ne connaît strictement rien à la virtualisation, et qu'on a aucun serveur disponible pour faire les tests, ça rend les choses plus compliqués :)
          • [^] # Re: virtualisation ?

            Posté par  . Évalué à 1.

            si tu sais installé un OS, alors tu sais faire de la virtualisation.

            KVM, Virtualbox, VMware, tous ces outils simulent un PC
            que tu configures ensuite comme une machine reelle

            un PC (sans etre un serveur) un peu costaud peut tres bien faire l'affaire
            sachant que ton probleme semble plus etre lié à des appels systemes qu'a vraiment un manque de ressources.
            • [^] # Re: virtualisation ?

              Posté par  . Évalué à 1.

              Et est ce que le pc costaud sera suffisant pour reproduire en conditions proches du réel les communications entre 8 machines virtuelles (on parle de 64 coeurs ici) qui calculent et communiquent sur un réseau gigabit ethernet virtuelle ?

              On va forcement se retrouver avec des conditions très éloignées du réel. Et je vois mal comment trouver quel maillon de la chaîne est saturé de façon chronique si la plateforme de test n'a pas la puissance suffisante pour saturer l'élément en question.

              Encore une fois, on est pas expert, mais ça commence à être vachement capillotracté.
    • [^] # Re: virtualisation ?

      Posté par  . Évalué à -1.

      Je n'avais pas pensé à ça. Ca risque d'être compliqué à mettre en oeuvre avec nos délais et le manque de matos, mais c'est une excellente idée !
  • # lenteurs appels systèmes

    Posté par  . Évalué à 1.

    Afin de trouver quels sont les appels systèmes qui vous ralentissent :

    Au niveau programmation :

    * strace
    * ltrace
    * gprof

    Analyse charge, au niveau système :

    top, "ps xau", sar (paquet sysstat), iostat,

    bon courage ;), je peux vous proposer une aide, mais malheureusement rémunérée ...

    A+

    Nicolas

    PS: xosview peut se lancer en déport X, pas besoin de serveur X, juste des librairies clients sur le serveur, et un serveur X sur le poste client.
    • [^] # Re: lenteurs appels systèmes

      Posté par  . Évalué à 1.

      Remarque, en Infiniband vous avez du 10Gbits ? et en Ethernet également ?.

      Peut être faire un bench du réseau ethernet, avec netperf par exemple.
      • [^] # Re: lenteurs appels systèmes

        Posté par  (site web personnel) . Évalué à 2.

        En général sur ce type de cluster c'est plutôt Infiniband (10 ou 40 Gbit/s) et du GigaEthernet (1Gbit/s), ce qui explique les différences de performances.
        Pour améliorer les performances du réseau ethernet (sur ce type d'appli) on peut utiliser un autre protocole que TCP/IP, par exemple en utilisant Open-MX.
  • # et avec d'autres implementations MPI

    Posté par  (site web personnel) . Évalué à 2.

    Avez vous essayé d'autre implémentations MPI ? Si le cluster est connecté par infiniband et ethernet, vous pouvez tester MVAPICH2.
    • [^] # Re: et avec d'autres implementations MPI

      Posté par  . Évalué à 1.

      Nous sommes en train de tester LamMPI (qui refuse de se compiler au passage) c'est une implémentation qu'un de nos prestataire avait déjà testé avec les logiciels que nous utilisons dans une configuration de machine unique.

      Je crois bien que MVAPICH2 est dispo sur le cluster, à tester !

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.