La France 5ième au dernier TOP 500 des supercalculateurs

Posté par . Modéré par Amaury.
Tags :
0
30
juin
2006
Technologie
La France est 5ième dans le dernier classement du TOP 500 des plus puissants supercalculateurs avec 42.9 TFlop/s.
Il s'agit du Supercalculateur du CEA à Bruyeres-le-Chatel (le Tera-10 construit par BULL). Il comporte 8704 Processeurs 64 bits Itanium 2 à 1.6 Ghz et 26000 Giga de mémoire. Il tourne sous Linux.
Le numéro 1 est toujours le BlueGene/L (IBM) avec 280.6 TFlop/s. Il comporte 131072 processeurs IBM PowerPC. Premier depuis les 3 derniers top 500, il est installé au Lawrence Livermore National Laboratory en Californie.
Le classement par système d'exploitation est assez significatif et montre bien la domination sans faille de Linux qui atteint presque les trois quarts du parc, suivi par les Unix qui font presque tout le restant. On peut aussi remarquer que Windows vient de doubler sa part en passant de une à deux machines.

Le prochain classement aura lieu dans 6 mois.

Aller plus loin

  • # On peut aussi remarquer que

    Posté par . Évalué à 7.

    Windows vient de doubler sa part en passant de une à deux machines.

    Hahahaha mort de rire!
    • [^] # Re: On peut aussi remarquer que

      Posté par . Évalué à 4.

      Microsoft a fait beaucoup d'annonces récemment à propos de son système pour clusters. Mais leur but est plutôt les petits clusters que les gros. En gros ils veulent prendre le marché des grappes jusqu'à 64 ou 128 noeuds en fournissant un système "facile à gérer". Pour les plus grosses grappes, ils semblent savoir qu'ils auront du mal à rivaliser avec les vrais OS.
      Donc il est peu probable que Windows apparaissent beaucoup dans le top500 même si Microsoft réussit à entrer dans le marché du HPC.
  • # 5ieme puis plus rien

    Posté par (page perso) . Évalué à 2.

    Bon, je re-poste ce que j'ai mis dans le journal (ce serait bien de pouvoir dans ce cas, transformer le journal en dépêche et donc faire suvre les commentaires).

    Ce qui m'inquiète plus, c'est que même si la France est 5ieme, ensuite, elle n'apparaît plus ! Or la machine 5ieme appartient au CEA donc est loin d'être ouverte au public. Les machines de l'IDRIS (CNRS) ne sont pas au tableau, ni celles de météo-france... Bref, c'est pas très bon pour la recherche française ce classement.

    Ensuite, j'ai remarqué que d'autres pays européens sont bien mieux représentés :

    Grande Bretagne : 7
    Allemagne : 4
    Suisse : 4

    Pour l'Espagne, même topo que la France : 1

    Bon, faudrait construire l'Europe des super calculateurs ;-)
    • [^] # Re: 5ieme puis plus rien

      Posté par . Évalué à 6.

      En fait, la France n'apparait qu'une fois sur les 100 premières configurations, mais 5 fois entre la 101 et la 200e.

      Si l'on s'en réfère à : http://www.top500.org/stats/27/countries/
      la france apparait 8 fois en tout, soit autant que le Canada. Mais surtout elle a un Rmax sum presque 2 fois suppérieur à ce même Canada, ce qui signifie peu de configurations mais relativements puissantes.

      Par contre, c'et clair que par rapport à l'Allemagne ou le Royaume Uni, nous faisons pale figure. Et je suis d'accord sur le reste : les serveurs publiques comme ceux de l'IDRIS n'apparaissent pas. Mais bon, la France à d'autres préoccupations que de préparer son avenir en finanćant correctement la recherche, alors...
    • [^] # Re: 5ieme puis plus rien

      Posté par (page perso) . Évalué à 4.

      Concernant la répartition des super calculateurs par pays, je me pose une autre question.

      Nous, pays européen, sommes nous en manque de super calculateurs ?
      Eux, les états unis, n'ont t'ils pas trouvé là un moyen de subventionner quelques entreprises américaines en leur achetant à tout va des tonnes et des tonnes de super calculateurs ? Surtout qu'il n'y a aucune concurrence à l'étranger pour leur dire stop à l'inverse de l'aéronautique ou l'automobile.

      Les états unis affichent énormément de super calculateurs au top 500. Mais en réalité, existe t'il beaucoup de code suffisemment optimisé pour tourner sur plusieurs centaines voire dizaine de milliers de processeurs simultanément ? N'est ce pas seulement de la poudre au yeux ? A part Linpack, ont ils déjà lancé un run qui utilise plus de 90% du calculateur ?

      N'est il pas plus judicieux que chaque labo possède son petit cluster local qui répond à 95% des besoins et juste 1 ou 2 centre de calcul national pour les 5% de besoins restants ?
      • [^] # Re: 5ieme puis plus rien

        Posté par (page perso) . Évalué à 1.

        Pour rebondir, les machines de l'IDRIS (CNRS) sont dépassés par rapport à ce que l'on trouve au japon par exemple. En pratique, il y a des chercheurs français qui lancent leurs calculs au japon ! Donc il faut plus de puissance au niveau national et pourquoi pas regrouper le CINES de montpellier avec l'IDRIS.

        Au niveau du calcul en local dans les laboratoires, on essaye... Mais c'est pas toujours facile. Il faut mutualiser l'achat entre les équipes, monter un marché public et aussi avoir un bonhomme pour s'en occuper. Tous les laboratoires ne sont pas come l'IN2P3 sur Lyon et n'ont pas les moyens d'avoir un super cluster. C'est pas aussi facile qu'avoir un serveur apache dans une salle serveur ou un coin de bureau.

        Par ailleurs, avec des idiots à la tête de l'état, il n'est pas possible par exemple de réparer avec des crédits CNRS un PC acheter avec des crédits de l'université...

        Les gros centres de calcul permettent de bien simplifier la tâche des informaticien en local, ainsi que d'avoir une machine toujours à jour. Par ailleurs, cela permet d'avoir pendant peu de temps un énorme puissance de calcul. C'est cela, la mutualisation.
        • [^] # Re: 5ieme puis plus rien

          Posté par (page perso) . Évalué à 3.

          > Par ailleurs, cela permet d'avoir pendant peu de temps un énorme puissance de calcul. C'est cela, la mutualisation.

          Le code est t'il concu pour etre vraiment parallélisable ? car c'est là que ce situe le point faible de la mutualisation de la puissance de calcul et la perte de rendement.

          > les machines de l'IDRIS (CNRS) sont dépassés par rapport à ce que l'on trouve au japon par exemple

          Non, leur nouveau calculateur vectoriel est d'une génération plus récente que le earth simulator japonais. Ils n'ont juste pas suffisemment d'armoires pour rivaliser en puissance brut. Mais est-ce utile ? Comme tu le dis, les chercheurs français peuvent lancer leur code à l'étranger, donc la situation n'est pas catastrophique pour la recherche francaise.

          Regrouper le CINES et l'IDRIS ? Je n'ai pas vraiment d'avis sur la question. Je pense que ce n'est pas un mal d'avoir 2 centres distincts.
          • [^] # Re: 5ieme puis plus rien

            Posté par (page perso) . Évalué à 2.

            Une partie de nos codes sont parallélisés et c'est justement ce qu'il y a de bien avec l'IDRIS, c'est qu'ils ont encore un calculateur vectoriel (qui en plus change NEC SX5 -> NEC SX8 et va monter en puisssance).

            A propos des machines au Japon, je n'ai jamais dis que tous les chercheurs français y avait accès. Pas nous par exemple ;-( Mais une "concurrence" parisienne oui. Evidement, les japonais n'ouvrent leur machine que lorsqu'il y a collaboration, ce qui ne peut être le cas que de quelques laboratoires. Au dela de la qualité intrinsèque des équipes de recherche, ceux qui ont accès à des machines cinq fois plus rapides sont forcément avantagés.

            Quant à avoir deux centres en France, cela veut aussi dire deux formulaires, deux appels d'offre de projets, deux comptes... Au prix des machines, de la maintenance et de la pérénité de celles-ci et de la qualité du réseau GEANT (le Renater européen), je ne suis pas sur qu'il faille autant de sites spécialisés en europe.
      • [^] # Re: 5ieme puis plus rien

        Posté par . Évalué à 3.

        Le top500 n'est pas représentatif de la réelle utilisabilité des machines, ni des besoins réels des gens. Les Blue-gene sont parait-il très difficiles à programmer (leur architecture diffère des supercalculateurs classiques). Linpack y a été extrèmement optimisé (d'où les très bons classements dans le top500), mais pour faifre tourner une autre application, c'est une autre paire de manches.

        Sur des grappes classiques, disons quelques centaines de noeuds, on sait faire tourner pas mal de code différents, que ce soit des simulations pétrolières (pour gérer les stocks), des prévisions météorologiques, des prévisions financiéres, ou des crash test automobiles. Ce sont eux les vrais clients qui font marcher le monde du HPC.

        Toutes les grappes gigantesques sont plutôt là parce que les américains jouent à qui aura la plus grosse (grappe), IBM et Intel notamment. A part Linpack, on ne doit pas faire tourner souvent d'application utilisant 2 milles noeuds. Dans beaucoup de cas, les utilisateurs ne prennent qu'un bout de la grappe et laisse le reste des noeuds à d'autres applications.

        La recherche actuelle ne s'intéresse plus vraiment aux très grosses grappes. Les chercheurs font plutôt de la grille maintenant, donc ils veulent plutôt beaucoup de petites grappes interconnectées.
        • [^] # Re: 5ieme puis plus rien

          Posté par . Évalué à 1.

          Je metterais un bemol a que tu dis Brice. La grille est a la mode en Europe et en Chine (cf. les differents projets Europeens, notamment le projet XtreemOS - oui mon avis n'est pas neutre :-), pas vraiment aux US (en dehors de TeraGrid).

          Pour revenir aux calculateurs de grandes tailles et a l'execution de vraies applications, le principal probleme actuellement, que ce soit avec les BG ou les Cray (XT3 par exemple), est que l'OS des noeuds de calcul n'est pas Linux mais des noyaux "legers" et proprietaires (catamount dans le cas des machines Cray). Les noeuds de service tournent souvent avec le noyau Linux.
          Du coup, les applications developpees pour ces machines (par exemple celles developpees dans les labos DoE aux US) sont peu portables mais passent assez bien a l'echelle et ne necessitent pas Linux actuellement. C'est un petit monde a part mais pour lequel il y a encore pas mal de recherche, mais c'est vrai que ca concerne quasi uniquement les US, meme si les BG semblent se vendre assez bien.

          Au passage, concernant ta remarque sur l'optimisation de Linpack, tu as tout a fait raison, et c'est d'ailleurs un probleme recurrent (comme comparer entre eux les differents resultats provenant d'architectures pour le moins differentes). Je crois qu'ils travaillent sur le probleme dans le cadre de l'effort "HPC Challenge (HPCC)".

          Hop quelques liens :
          Cray XT3 : http://www.cray.com/products/xt3/specifications.html
          IBM BG : http://www-03.ibm.com/servers/deepcomputing/bluegene_glance.(...)
          HPCC : http://icl.cs.utk.edu/hpcc/
          Projets Europeens autour de la grille : http://cordis.europa.eu/ist/grids/index.html
          xtreemOS : https://www.xtreemos.org/
        • [^] # Re: 5ieme puis plus rien

          Posté par . Évalué à 1.

          > Toutes les grappes gigantesques sont plutôt là parce que les américains jouent à qui aura la plus grosse (grappe), IBM et Intel notamment.

          Tu veux plutot dire IBM et Cray, non? L'une des prochaines machines peta-scale sera une machine Cray XT3, fondee sur des processeurs AMD:
          http://www.hpcwire.com/hpc/701937.html
          • [^] # Re: 5ieme puis plus rien

            Posté par . Évalué à 2.

            Intel joue aussi. Par exemple pour la grappe Thunderbird à Sandia, après l'appel d'offre, ça devait être AMD/Myrinet. Mais ca n'a pas plus à Intel que AMD puisse avoir une énorme grappe donc ils ont offert les processeurs (9000 Xeons...) à condition que ce soit l'offre de Dell avec Infiniband qui soit choisie.

            C'est vrai que j'avais oublié Cray... j'ai un peu trop tendance à les considérer comme déjà morts, alors qu'ils sont encore un peu vivants grâce aux perfusions d'argent du gouvernement :)
      • [^] # Re: 5ieme puis plus rien

        Posté par . Évalué à 3.

        Nous, pays européen, sommes nous en manque de super calculateurs ?

        Ça pourrait être pratique pour les gentooiste d'en avoir un peu plus, oui.
      • [^] # Re: 5ieme puis plus rien

        Posté par (page perso) . Évalué à 4.

        > N'est il pas plus judicieux que chaque labo possède son petit cluster local qui répond à 95% des besoins et juste 1 ou 2 centre de calcul national pour les 5% de besoins restants ?

        c'est aussi mon impression. J'ai un compte sur une altix équipée de 128 itaniums 2 , je ne sais pas combien elle a couté mais c'est vraisemblablement une petite fortune pour la maintenir en état. Et quand je lance un "top" dessus, qu'est ce que je vois ?
        - elle est surexploitée , la file d'attente est toujours pleine
        - typiquement c'est pour des jobs qui utilisent entre 1 et 4 procs, le plus gros code parallèle que j'ai vu tourner dessus utilisant 16 procs. Autant dire que tout ça pourrait se faire de façon bien plus efficace sur un cluster d'opterons (qui déchirent n'importe quel itanium), à quoi ça sert de payer le prix fort quand le user lamba ne demande qu'un quadri-processeur ?
        • [^] # Re: 5ieme puis plus rien

          Posté par (page perso) . Évalué à 2.

          Laissez passer l'énorme troll lancé...

          J'ai du mal à comprendre comment tu peux comparer un Itanium avec un Opteron sans préciser son utilisation. Par exemple, si tu travailles en calcul flottant, ton Opteron peut aller se ranger gentillement comparé à l'Itanium qui a une puissance de calcul nettement supérieure. Ensuite, l'Itanium possède une très grosse dépendance envers le compilateur. Et d'un compilateur à l'autre, ton bench peut être complètement faussé.

          Par contre, il est vrai que si la quasi totalité de vos jobs n'exploitent pas plus de 4 procs, c'est un véritable gâchis ! À l'IN2P3 de Nantes, on possède une petite ferme de 30 machines et c'est largement suffisant pour la majorité de ce que l'on en fait (On compte juste augmenter le nombre de machines pour réduire la file d'attente qui est généralement très longue).
          • [^] # Re: 5ieme puis plus rien

            Posté par (page perso) . Évalué à 2.

            > J'ai du mal à comprendre comment tu peux comparer un Itanium avec un Opteron sans préciser son utilisation.

            Les deux sont des processeurs scalaire 64 bits. Leur utilisation est quasi identique. C'est tout a fait comparable.
            Je ne suis pas convaincu qu'un Itanium soit supérieure à un Opteron qui possède des unités vectorielles surtout si on prend en compte le rapport performance/prix.
            SPECfp est un début de comparatif...

            Architecture et historique de l'Itanium
            http://www.cs.virginia.edu/~skadron/cs451/itanium/Itanium.pp(...)
            • [^] # Re: Opteron identique à un Itanium

              Posté par . Évalué à 0.

              Mhhh.... Si les Opterons sont identiques en perf à un Itanium, comment vous expliquez qu'en position 5, on voit un système avec 8704 coeurs Itanium à 1,6Ghz qui fait donc mieux que celui en 7e position qui a 10368 coeurs Opteron à 2,6Ghz ?

              Mais je doit certainement me tromper dans ma logique...
              • [^] # Re: Opteron identique à un Itanium

                Posté par . Évalué à 6.

                Le classement dans le top500 dépend de beaucoup d'autres choses, pas seulement la puissances des processeurs, notamment des communications entre les noeuds de la grappe, mais éventuellement aussi d'autres choses comment le stockage qui peut réduire les performances globales de la machine.

                Le classement est fait selon Rmax (la puissance observée par Linpack), mais la liste détaillée donne aussi Rpeak qui est la puissance théorique de l'ensemble des processeurs. Le Rpeak du 5ème est 55700Gflops (soit 6.4Gflops par Itanium2) contre 49800 pour le 7ème (soit 4.81Gflops par Opteron). Les deux grappes ont une efficacité (Rmax/Rpeak) de l'ordre de 77%. Mais par contre, par exemple, le 6ème a seulement 59% ce qui fait qu'il est 6ème alors que son Rpeak le classerait 4ème (il doit y avoir un composant de la grappe qui "ralentit" les processeurs).

                Pour revenir à Itanium vs Opteron:
                Si je me souviens bien, Tera-10 (5ème) est composé de 544 noeuds de Novascale qui contient 4 QBB de 4 Itanium2 (je compte en processeur, pas en coeurs). Ca nous donne donc les 8704 processeurs indiqués. Mais ils sont censés être des Montecito (dernier cri des Itanium2 je crois), et donc dual-core. Ca voudrait donc dire qu'un Itanium2 Montecito dual-core 1.6GHz calcule 6.4Gflops (soit 2 flop par cycle et par coeur).

                Dans le 7ème, ce sont des Opteron single core 2.4/2.6GHz. Ca donne donc également 2 flop par cycle et par coeur. Mais ces opterons sont beaucoup moins récents que les Itanium2 Montecito. Avec un Opteron récent, disons dual-core 2.4GHz, on aurait le double, soit 9.6Gflops par processeur, soit 50% de plus que le Montecito.

                Tous ces calculs sont faits à la louche, mais en tout cas ils semblent indiquer que l'Itanium2 ne casse pas l'Opteron du tout en puissance flottante pure. Et il faut bien garder à l'esprit que dans le top500, il a beaucoup d'autres facteurs qui sont mis en jeu.
                • [^] # Re: Opteron identique à un Itanium...précisions

                  Posté par . Évalué à 4.

                  Je sais pas où tu t'es trompé dans tes calculs mais je sais que:

                  La perfo crête d'un Itanium est 4 flops / cycle / coeur
                  La perfo crête d'un Opteron est 2 flops / cycle / coeur

                  Donc un opteron 2.6 bi-coeur = 2.6*2*2 = 10.4 Gflop/s
                  Pour un Itanium 1.6 Ghz Montecito (bi-coeur également)= 1.6 * 4 * 2 = 12.8 Gflop/s

                  Voilà pour la théorie....

                  Après y'a la réalité:

                  Aussi magnifique que puisse être l'architecture EPIC, Intel n'a pas encore réussi à pondre un compilo à la hauteur. Non pas qu'Intel soit pas bon dans ce domaine, mais simplement que l'architecture EPIC est un véritable défi pour l'écriture de compilos.

                  Résultat: Avec un Itanium, il faut livrer un ingénieur pour avoir la perfo.
                  Avec un Opteron, sans faire trop d'efforts, on obtiens 60-70-80% de la crête.

                  Et c'est __ça__ qui est fondamental.

                  Pour ceux qui vivent de codes ISV achetés: l'Itanium peut-être très bien, de toute façon c'est l'ISV qui se cogne les difficultés, (les regressions de perfo. à chaque release de compilo..... )

                  Pour ceux qui maintiennent des codes maisons performants sur architecture out-of-order depuis des années, c'est le calvaire. Et ceux là diront que l'opteron enfume l'Itanium.

                  Mais de toute façon ce post est obsolète, ne le lisez-pas....

                  8 Gflop/s/ core sur Woodcrest.... j'ai mal à mon Opteron, j'ai mal à mon Itanium.
                  • [^] # Re: Opteron identique à un Itanium...précisions

                    Posté par . Évalué à 2.

                    > Je sais pas où tu t'es trompé dans tes calculs mais je sais que:
                    > La perfo crête d'un Itanium est 4 flops / cycle / coeur

                    Peut-être que c'est lié au fait que Tera-10 avait initialement des Madison (single core) et doit migrer vers des Montecito (dual-core) au fur et à mesure que Intel les livre. Je ne sais pas si c'était déjà fait au moment où ils ont tourné Linpack, et ça pourrait expliquer un facteur 2 dans mes calculs.

                    Le truc étrange, c'est que cette grappe a toujours été annoncée à 60Teraflops. Si des Madison doivent encore être remplacés par des Montecito, les 50 actuels pourraient devenir 100Teraflops. Y a un truc qui m'échappe aussi...

                    > 8 Gflop/s/ core sur Woodcrest.... j'ai mal à mon Opteron, j'ai mal à mon Itanium.

                    Woodcrest, c'est 4 par core.
                    http://www.theinquirer.net/default.aspx?article=31836
                    D'ailleurs cet article confirme ton 12.8 Gflops pour un dual-core montecito 1.6GHz.

                    Bref, Itanium est un peu mieux qu'un Opteron, et Woodcrest tue tout. Mais la génération actuelle d'Opteron est en fin de vie... attendons de voir...
          • [^] # Re: 5ieme puis plus rien

            Posté par (page perso) . Évalué à 4.

            > si tu travailles en calcul flottant, ton Opteron peut aller se ranger gentillement comparé à l'Itanium qui a une puissance de calcul nettement supérieure.

            c'est pas quelque chose que j'ai constaté, icc ou pas icc. Je veux bien croire que sur des codes hyper-tunés l'itanium prenne un petit avantage sur les opterons mais pour un usage général les perfs de opterons sont aussi bonnes en flottant et bien meilleures pour tout le reste.
            • [^] # Re: 5ieme puis plus rien

              Posté par . Évalué à 1.

              J'aurais tendance à être avec toi. Le seul argument que j'ai entendu en faveur de l'Itanium c'est les gros caches.
          • [^] # Re: 5ieme puis plus rien

            Posté par . Évalué à 3.

            Par exemple, si tu travailles en calcul flottant, ton Opteron peut aller se ranger gentillement comparé à l'Itanium qui a une puissance de calcul nettement supérieure.

            De mémoire, il y a aussi une grosse différence au niveau de la précision du résultat (L'Itanium est plus ou moins dérivé du PA-RISC, PA pour Precision Architecture).

            Ensuite, l'Itanium possède une très grosse dépendance envers le compilateur. Et d'un compilateur à l'autre, ton bench peut être complètement faussé.

            Encore de mémoire, meme en gardant le meme compilo, icc est tres sensibles aux flags utilisés. En particulier a une époque il y avait une option magique qui faisait tripler les perfs sur les calculs flottants (-IPF_fp_speculationfast apparement).

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.