Le Top500 nouveau est arrivé

Posté par patrick_g (site web personnel) le 14 novembre 2007 à 08:00. Modéré par Florent Zara.

Étiquettes :

nov.

2007

Le 30ème top 500 des supercalculateurs mondiaux est sorti hier à l'occasion de la conférence internationale sur le calcul haute performance qui a eu lieu à Reno dans le Nevada.

On constate que la vitesse continue d'augmenter à un rythme très rapide puisque l'agrégation des puissances individuelle des 500 machines totalise 6970 teraflops alors qu'elle n'était que de 4920 teraflops il y a six mois et 3540 teraflops il y a à peine un an. Depuis six mois de nombreux changements sont intervenus dans la liste mais la première place est toujours occupée par l'architecture BlueGene/L d'IBM. La puissance du numéro un du top500 est passée de 280 à 478 teraflops (plus de 70% d'augmentation en six mois). En seconde place, on trouve encore un BlueGene mais de nouvelle génération puisqu'il s'agit de la variante /P. Cette machine, surnommée Jugene et installée à Juelich en Allemagne, culmine à 167 teraflops. Elle améliore ainsi le classement du calculateur européen le plus puissant puisque, lors du dernier Top500, on devait attendre la neuvième place pour trouver une machine espagnole. La grande nouveauté est l'arrivée de l'Inde pour la première fois dans le haut du classement (quatrième place) avec une machine HP de 118 teraflops.
La France quant à elle dégringole à la dix-neuvième place avec sa machine Tera-10 du CEA.

En ce qui concerne les systèmes d'exploitation Linux continue à augmenter sa part avec 426 machines sur 500 (389 il y a six mois) soit plus de 85% du top 500. Corollaire de cette archi-domination de Linux les différents unix propriétaires disparaissent progressivement de la liste et voient leur nombre divisé par deux en à peine six mois (60 à 30). Windows quant à lui réalise une remarquable percée puisqu'il équipe 6 machines au lieu de 2 il y a six mois ;-)

En ce qui concerne les statistiques continentales l'Europe progresse fortement et passe de 18% à 30% des machines en un an et ce au détriment de l'Amérique et de l'Asie. Si on s'intéresse au classement parmi les pays on constate que les USA voient leur domination se réduire peu à peu. Cependant ils continuent d'abriter plus de la moitié des 500 machine les plus puissantes du monde (283 exactement). Le deuxième pays est le Royaume-uni qui abrite 48 machine (9,6%) puis l'Allemagne avec 31 machines (6,2%), le Japon avec 20 (4%) et la France avec 17 (3,4%).

Un résumé analytique de toutes les nouveautés de ce top500 est disponible ici.

Aller plus loin

Le classement du top500 (19 clics)
Le graphique des performances (4 clics)
Statistiques selon le système d'exploitation (4 clics)
Statistiques selon le continent (2 clics)
Statistiques selon le pays (4 clics)

# <mode humour/>

Posté par JereMe le 14 novembre 2007 à 08:27. Évalué à 1.

Oui, mais nous, on a Grid 5000.
- [^] # Re: <mode humour/>
  
  Posté par Lucas le 14 novembre 2007 à 18:22. Évalué à 4.
  
  Pourquoi humour?
  
  Grid'5000 est unique, comme plateforme pour des expériences en informatique. Il faut bien voir que la très grande majorité des machines du top500 sont utilisées pour des simulations en physique, biologie, etc, et que les informaticiens n'y ont en général pas accès, ou alors d'une manière extrèmement limitée, car leurs labos n'ont pas assez de sous pour leur payer les droits d'accès.
  
  Ensuite, Grid'5000 est un ensemble de clusters, pas un cluster unique. Si on fait la somme de la puissance des clusters de Grid'5000 (ie: on prend tous les clusters de grid5000, et on les met dans la meme piece), on arrive à une machine qui rentrerait dans le top500: la derniere machine est un cluster de 1344 processeurs, alors que Grid'5000 a au total plus de 3000 processeurs.
  
  Après, l'un des paramètres importants pour bien figurer avec le benchmark utilisé (LINPACK) est la latence. Or, avec une grosse dizaine de millisecondes entre Lille et Sophia-Antipolis, on est assez loin des perfs d'un réseau Infiniband. :)
  - [^] # Re: <mode humour/>
    
    Posté par Sytoka Modon (site web personnel) le 14 novembre 2007 à 18:47. Évalué à 4.
    
    > car leurs labos n'ont pas assez de sous pour leur payer les droits
    > d'accès.
    
    FAUX.
    
    Mon labo a accès à l'IDRIS et à ma connaissance, cela ne coute RIEN. Enfin, pas vraiment... Il faut faire un dossier scientifique pour obtenir des heures qui tiennent la route et que celui-ci soit jugé correct par le comité de sélection.
    
    Il ne vous reste donc qu'a construire un dossier bien ficelé.
    - [^] # Re: <mode humour/>
      
      Posté par Lucas le 14 novembre 2007 à 18:59. Évalué à 1.
      
      Et à l'IDRIS, tu peux faire tourner ton job sur 3000 processeurs pendant deux jours, parce qu'il te faut des résultats sur 3000 processeurs, sans que personne ne râle?
      
      D'autre part, ce n'est pas parce que dans ton cas, tu as accès à l'IDRIS, que ce que je raconte est faux. D'abord, l'IDRIS n'a pas de machines dans le top500, à ma connaissance (mais je n'ai pas vérifié en détail). Ensuite, je parlais "en général". Tu as accès à l'IDRIS, cool pour toi, mais ça ne change rien à la situation des japonais ou américains.
      
      Tu fais tourner quel type de jobs à l'IDRIS ? Il s'agit bien de recherche en informatique ?
      - [^] # Re: <mode humour/>
        
        Posté par JereMe le 14 novembre 2007 à 20:11. Évalué à 2.
        
        Pourquoi humour?
        Parce que comme tu le fais remarquer, c'est effectivement pas la même chose, et qu'il manque à mon avis une vrai machine de calculs "publique" en France.
        
        Tu fais tourner quel type de jobs à l'IDRIS ? Il s'agit bien de recherche en informatique ?
        Il suffit de répondre à la campagne (en octobre) pour avoir du temps à l'IDRIS. Mais c'est une machine de prod, donc pour tes tests d'émulation de machines pour faire du P2P etc, laisse tomber à mon avis :)
        
        <Il faut bien voir que la très grande majorité des machines du top500 sont utilisées pour des simulations en physique, biologie, etc, et que les informaticiens n'y ont en général pas accès, ou alors d'une manière extrèmement limitée, car leurs labos n'ont pas assez de sous pour leur payer les droits d'accès.
        Pour infos, en général, pour avoir accès à ces machines, il suffit d'avoir des applications qui vont bien et des partenariats. Pas de payer ;) Et bien sûr, les informaticiens y ont accès, c'est eux qui développent les programmes.
        
        [^] # Re: <mode humour/>
        
        Posté par Lucas le 14 novembre 2007 à 21:27. Évalué à 1.
        
        > Mais c'est une machine de prod
        
        Oui, c'est aussi une grosse différence entre Grid'5000 et les machines de prod type IDRIS: sur Grid'5000, les utilisateurs ont le root sur les noeuds, peuvent réinstaller leur propre distrib avec leurs propres outils, etc. Sur les machines en prod, en général, quand tu sors des applis classiques, tu galères bien pour faire tourner ton appli.
        
        > bien sûr, les informaticiens y ont accès
        
        par "informaticiens", je voulais dire "chercheurs en informatique", pas "ingénieurs informaticiens des labos de physique&autres"
        
        Si on prend l'utilisation de Teragrid (cf http://en.wikipedia.org/wiki/TeraGrid#TeraGrid_Usage), on voit que maths & info représentent moins de 5% de l'utilisation.
        
        [^] # Re: <mode humour/>
        
        Posté par JereMe le 14 novembre 2007 à 22:00. Évalué à 2.
        
        par "informaticiens", je voulais dire "chercheurs en informatique", pas "ingénieurs informaticiens des labos de physique&autres"
        
        moi aussi
        
        [^] # Re: <mode humour/>
        
        Posté par aboot le 15 novembre 2007 à 21:01. Évalué à 1.
        
        Tu penses vraiment que ce sont des chercheurs en informatique qui développent, par exemple, les codes de climatologie ?
        
        [^] # Re: <mode humour/>
        
        Posté par lasher le 15 novembre 2007 à 22:24. Évalué à 4.
        
        En pratique, ce sont évidemment des gens qui savent de quoi ils parlent qui font les programmes. Mais quand il s'agit d'optimiser les codes, les numériciens ne sont pas nécessairement les plus à même de le faire, et là, les informaticiens (chercheurs et ingénieurs), qui eux maîtrisent la plate-forme sur laquelle s'exécute le code, entrent en scène.
      - [^] # Re: <mode humour/>
        
        Posté par Sytoka Modon (site web personnel) le 14 novembre 2007 à 20:37. Évalué à 2.
        
        > Et à l'IDRIS, tu peux faire tourner ton job sur 3000 processeurs
        > pendant deux jours, parce qu'il te faut des résultats sur 3000
        > processeurs, sans que personne ne râle?
        
        Tu obtient a peu près ce que tu demandes, dans la limite de ce qui est possible de donner. Si tu ne demande rien, tu n'as rien... Avoir 100% de la machine pendant deux jours me semble tout à fait réaliste si ton projet et cohérent.
        
        > D'abord, l'IDRIS n'a pas de machines dans le top500, à ma
        > connaissance
        
        Exact car la recherche publique française n'est pas la priorité de nos gouvernements actuels. Cela n'empêche que ce sont quand même des bonnes machines.
        
        Je parlais de l'IDRIS mais il y a aussi les machines du CEA qui sont accessibles même si cela est plus difficile... Je connais moins ce que propose l'INRIA.
        
        Dans les grosses fac, il y a aussi parfois des moyens communs qui sont loin d'être nul.
        
        Sauf à travailler sur les performances d'un code utilisant plus de 1000 coeurs et ou MPI donne des signes de faiblesse, il y a de quoi jouer en recherche.
        
        > Tu as accès à l'IDRIS, cool pour toi, mais ça ne change rien à la
        > situation des japonais ou américains.
        
        On parle ici de recherche publique. Mon tord a été de donner un exemple un peu franco francais. A ma connaissance, les exemples que tu prends sont parmi les plus mauvais car ce sont les pays ou les chercheurs ont accès à des machines bien plus puissantes qu'en France.
        
        Il serait temps de faire quelques centres Europpéens de calcul sur le modèle de l'IDRIS afin que tout chercheur européen ait ses chances. Je ne pense pas que les politiques puissent prendre sur ce point une quelconque décision mondiale, donc restons à l'échelle européenne.
        
        > Tu fais tourner quel type de jobs à l'IDRIS ? Il s'agit bien de
        > recherche en informatique ?
        
        Moi rien car il y a des administrateurs système à l'IDRIS qui font très bien leur boulot et qui n'ont pas besoin de moi. Les chercheurs de mon labo, oui ;-)
        
        Encore une fois et comme le dis le post ci-dessus. Ercit ton projet de recherche et soumet le à l'évaluation. Tu n'auras aucune heure sur une quelconque machine de calcul tant que tu n'auras pas présenté le moindre dossier. Et c'est normal vu le cout de des machines et des ingénieurs qui passent pas mal d'énergie à essayer de les faire tourner au mieux.
  - [^] # Re: <mode humour/>
    
    Posté par lasher le 14 novembre 2007 à 18:50. Évalué à 2.
    
    Par définition, Grid 5000 est une ... grille. Donc un ensemble de clusters distribués. Donc une « machine » pas du tout faite pour le même genre de résolution de problèmes que pour un supercalculateur. Les deux façons de fonctionner ont leur intérêt, mais ils ne jouent pas du tout sur les mêmes paramètres (comme tu l'as si bien fait remarquer, la latence change beaucoup la donne, et dans certains cas, si tu veux que ton programme ne passe que 2 semaines à calculer et pas 2 et demi, ... :-) ).
# Amusant

Posté par Sytoka Modon (site web personnel) le 14 novembre 2007 à 09:42. Évalué à 10.

Le rapport de puissance crête entre le premier et le 500ième est constant depuis des années et est quasiment égale à 100.

Au chose constante, en moyenne, la machine numéro 1 se retrouve 500ième 7 ans après.
- [^] # Re: Amusant
  
  Posté par peck (site web personnel) le 14 novembre 2007 à 10:12. Évalué à 10.
  
  On en déduit que la puissance est multipliée par 100 en 7 ans environ, ce qui nous donne une multiplication par 1.93 tous les ans.
  - [^] # Re: Amusant
    
    Posté par GeneralZod le 14 novembre 2007 à 11:05. Évalué à 10.
    
    Ce qui est cohérent avec la multiplication par 1.9 de la somme des puissances individuelles des machines en un an comme indiqué dans l'article.
    - [^] # Re: Amusant
      
      Posté par Jeanuel (site web personnel) le 14 novembre 2007 à 21:30. Évalué à 2.
      
      De plus c'est une évolution bien plus rapide que la loi de Moore. Les supers calculateurs sont donc de plus en plus puissants, y compris en puissance "relative".
      - [^] # Re: Amusant
        
        Posté par lasher le 14 novembre 2007 à 21:55. Évalué à 6.
        
        La loi de Moore ne parle que du doublement du nombre de transistors sur une même surface, pas de la puissance intrinsèque d'un processeur.
# Les belles machines

Posté par Sytoka Modon (site web personnel) le 14 novembre 2007 à 11:10. Évalué à 10.

Les clusters, c'est bien mais au niveau des 'belles' machines de type vectoriel ou SMP (Un OS pour toute la machine et de la mémoire partagé), il n'y a quasiment plus de machine. J'ai trouvé en début de liste

15 - HLRB-II - Altix 4700 1.6 GHz - SGI

30 - Earth-Simulator - NEC

En effet, en général, ces 'belles' machines ont une architecture mieux intégrée et donc les programmes parallèles ou vectoriels sont plus performant dessus.

Je me demande en pratique quel est l'efficacité des machines du TOP 500 car je doute qu'il y ai beaucoup de programes qui puissent tirer de la capacité totale d'une seule machine.

Il faudrait en parallèle du TOP 500 des machines faire un TOP 500 des programmes en terme de consommation de GFlops, voire rapporter cela à la capacité de la machine.

En effet, c'est très différent de faire tourner un programme sur 5000 coeurs que de faire tourner 100 programmes sur 50 coeurs. J'ai comme l'impression que ces grosses bécanes du TOP 500 sont surtout positionné sur le second cas d'utilisation.

Pour finir, j'espère que la nouvelle SX9 de NEC va bien marcher car sur le papier, elle semble impressionnante

http://www.geekzone.co.nz/content.asp?contentid=7458
# limite théorique...

Posté par NickNolte le 14 novembre 2007 à 11:53. Évalué à 2.

Quelle serait-elle?
- [^] # Re: limite théorique...
  
  Posté par IsNotGood le 14 novembre 2007 à 12:00. Évalué à 5.
  
  ±∞
  - [^] # Re: limite théorique...
    
    Posté par patrick_g (site web personnel) le 14 novembre 2007 à 12:42. Évalué à 8.
    
    Pas du tout !
    Voir : http://physics.princeton.edu/~mcdonald/examples/QM/lloyd_nat(...)
    
    La limite est de 10^51 opérations par seconde et par kilo de matière. Bon y'a de la marge !
  - [^] # Re: limite théorique...
    
    Posté par beagf (site web personnel) le 14 novembre 2007 à 12:50. Évalué à 8.
    
    D'un point de vue théorique, elle quand même limitée par la quantité de matière présente dans l'univers qui est finie. (mais gardons quand même un oeil sur les trous noirs et autre singulariés de la physique...)
    
    D'un point de vue pratique, elle est limité par la quantité de matière réellement utilisable (il faut garder un peu de matière pour l'humain qui construit la machine, la met en route et lit le résultat)
    
    En réalité, on gardera même un peu plus... mais on est encore loin d'atteindre ce genre de limites. Par contre, parmis les problèmes qui se posent, il y a la vitesse de transmition de l'information, plus la machine devient grosse et plus la communication entre les unités éloignées deviens lente, et plus la parallélisation deviens dure car les sous-problèmes que tu donne à chaque unités doivent devenir long à calculer si tu ne veux pas que ton programme passe son temps à transférer des données entre les unités.
    - [^] # Re: limite théorique...
      
      Posté par NickNolte le 14 novembre 2007 à 13:39. Évalué à 3.
      
      On a pas besoin de vider l'univers de sa matière pour arriver à une certaine limite de calculabilité.
      
      Il y a bien un moment avant cela où les valeurs de temps et de précisions du résultats d'un problème quelconque - le but d'une telle puissance - n'évolueront plus.
      - [^] # Re: limite théorique...
        
        Posté par beagf (site web personnel) le 14 novembre 2007 à 16:27. Évalué à 3.
        
        Il y a des domaines ou le résultat peut toujours être amélioré : les concours de "c'est moi qui est la plus grosse...", avec par exemple "...précision pour une valeur approchée de pi."
# Statisques sur les OS

Posté par Yves Martin le 14 novembre 2007 à 12:16. Évalué à 2.

Linux est en bonne tête mais la ligne "Mixed" m'intrigue car elle couvre quand même un bon tiers des processeurs.
Que signifie ce "Mixed" ?
- [^] # Re: Statisques sur les OS
  
  Posté par patrick_g (site web personnel) le 14 novembre 2007 à 12:38. Évalué à 2.
  
  Un truc qui se fait beaucoup c'est d'utiliser Linux sur tout ce qui n'est pas critique pour les perfs et d'utiliser des trucs "maison" pour le reste (micro-noyaux optimisés et autre).
  C'est peut-être ça le mixed ?
  - [^] # Re: Statisques sur les OS
    
    Posté par DLFP est mort le 14 novembre 2007 à 13:43. Évalué à 2.
    
    Oui, comme pour les Cray. Mais leur petit dernier est à 100% sous Linux !
    DLFP >> PCInpact > Numerama >> LinuxFr.org
# autres commentaires

Posté par Lucas le 14 novembre 2007 à 18:31. Évalué à 4.

Qqes autres commentaires, comme j'ai la chance d'être à SC|07 en ce moment ;)

Tout le monde s'intéresse de plus en plus au problème de la consommation électrique de ces beaux jouets. Mais la principale question et de trouver une manière fiable de la mesurer et de la comparer. Il faut une métrique qui veut dire qqchose : on ne peut évidemment pas simplement faire "puissance de calcul/puissance consommée" et trier les clusters comme ça ;)

Amusant: la NSA (dont les machines ne figurent pas dans le Top500, quel manque de transparence!) sature le réseau électrique de baltimore, et provoque des coupures de courant.

On devrait atteindre le petaflop l'année prochaine, avec une machine de Cray installée dans le Oak Ridge National Laboratory.
- [^] # Re: autres commentaires
  
  Posté par Romaric Guillier le 15 novembre 2007 à 02:45. Évalué à 2.
  
  Pour ce qui est de la consommation des clusters, il y a un classement parallèlle qui essaye de faire un classement en fonction de la consommation electrique: Green500 http://green500.org/Home.html
- [^] # Re: autres commentaires
  
  Posté par tuiu pol le 15 novembre 2007 à 10:15. Évalué à 2.
  
  .. et pour contrer IBM, Sun vient de lâcher son dernier bébé : le constellation au Texas, voir l'article du monde info http://www.lemondeinformatique.fr/actualites/lire-sun-revien(...)
# haha, elle est bien bonne :)

Posté par dragoonway le 14 novembre 2007 à 22:32. Évalué à 4.

Ce classement ne fait pas état des supercalculateurs militaires, à priori y'en a pas mal et pas que des petits joujous.
A bon entendeur.
- [^] # Re: haha, elle est bien bonne :)
  
  Posté par olosta le 15 novembre 2007 à 00:00. Évalué à 2.
  
  Je pense pas que tous les calculateurs militaires y soient mais tera-10 il sert à quoi ?
  - [^] # Re: haha, elle est bien bonne :)
    
    Posté par lasher le 15 novembre 2007 à 08:27. Évalué à 3.
    
    Tu veux dire à part faire péter des bombes ? Ben euh, à faire des simulations sismologiques (ben oui, une fois que la bombe a pété, faut bien déterminer l'impact - c'est le cas de le dire - au niveau sismique).
- [^] # Re: haha, elle est bien bonne :)
  
  Posté par Sytoka Modon (site web personnel) le 15 novembre 2007 à 13:54. Évalué à 4.
  
  Il manque aussi les machines des grands groupes pétroliers... Par exemple, Total a des calculateurs à faire rêver plus d'un chercheur. Mais pour des problèmes de communication, il ne veulent pas en parler.
- [^] # Re: haha, elle est bien bonne :)
  
  Posté par couillon84 le 15 novembre 2007 à 22:10. Évalué à 1.
  
  On a aussi oublié les vaisseaux extraterrestres avec bouclier d'invisibilité en orbite depuis des décennies et qui s'apprêtent à lancer l'attaque finale pour anéantir notre civilisation.

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.