Journal Et si l'Open Hardware démocratisait l'usage d'ordinateurs reconditionnés ?

52
13
déc.
2016

Concevoir des ordinateurs m’amène régulièrement à m'interroger sur le côté écologique de l'industrie informatique. Il y a plusieurs manière de traiter ce sujet, et il faut bien l'avouer la politique de l'autruche est souvent légion. On a tous envie d'avoir la dernière génération de serveurs avec le processeur v4 qui enterre le v3, mais au final est-ce vrai, et que faire de mon vieux v3 ?

Assez rapidement en creusant on se rend compte qu'avec les technologies actuelles il est très difficile de valoriser les déchets de nos ordinateurs notamment ceux qui sont basés sur des matières composites comme les PCB, qui finissent la plupart du temps en matière première secondaire dans le bâtiment (une fois concassé à grand frais) sous forme de fibres, ou de carburant dans des centrales thermiques aux rendements plus que moyen dans les meilleurs des cas. Le pire restant la mise en décharge sauvage encore bien trop légion dans les pays émergents.

Jusqu’à présent le marché des machines reconditionnées s'adresse principalement à quelques clients très gros consommateurs et capables d'absorber de grandes quantités de serveurs, et qui les utilisent de manière "jetables". Les machines étant vieilles, et impossible à maintenir de par la fermeture de leur conception, celles-ci en cas de pannes sont automatiquement détruites. Et c'est uniquement dans le meilleur des cas. Les surplus étant souvent envoyés dans des pays émergents avec l'espoir que celles-ci seront utilisées (ce qui est parfois le cas, mais pas toujours).

En entrant dans Open Compute, nous nous sommes retrouvés confrontés de plein fouet au marché du déconditionnement de machines à très grande échelle. Il est de notoriété publique que Microsoft exploite plus d'un million de serveurs en production pour Azure et ses divers services, que Facebook utilisent quasiment autant de machines pour délivrer ses services etc … et qu'ils changent leurs machines tous les trois/quatre ans. A la louche ça fait quelques 300 à 400 000 serveurs qui sont affectés juste en prenant quelques membres d'Open Compute.

Leur valorisation en tant que rebut n'est pas extraordinaire actuellement et nous avons passé les derniers mois en Californie afin de mieux comprendre si il n’était pas possible d'en faire quelque chose plutôt que de voir d'une manière désespérée des vendeurs sur Ebay les désosser pour les vendre en pièces détachées et faire je ne sais quoi des PCB.

Première question, pourquoi ces machines quittent leur datacenter ? La bonne nouvelle c'est que ce n'est pas forcément pour une raison comptable (même si il est probable que cela rentre dans l’équation). Certaines de ces machines subissent des charges élevées et en fonction des prix d'achats dont disposent ces gros consommateurs, et du travail des ingénieurs d'Intel, il peut-être intéressant de bénéficier de mises à jour technologiques régulière.

Un exemple:

  • Un Xeon v1 2660 atteint un niveau de performance d'environ 47 SpecInt Base 2006, là où la dernière génération de ce même processeur le Xeon v4 2660 atteint un niveau de 65,6.

Quatre-cinq ans d’écart et bien peu d’améliorations. En fait les ingénieurs d'Intel se focalisent actuellement sur le throughput des systèmes. En clair, c'est le SpecInt rate qui pilote les améliorations, et sur ce benchmark le 2660 v1 qui atteint une performance de 595 se fait "enterrer" par le 2660 v4 qui atteint un niveau de 1150 (un facteur 2, là où les performances du coeur on progresse de 30%).

En clair un serveur à base de 2660 v4 aura la capacité de traiter le même workload que deux serveurs à base de 2660 v1. Ça peut donc valoir le coût quand on gère des mégas datacenter (gains de place, et plus de calculs générés pour retrouver de manière plus précise la tour eiffel dans vos photos de vacances, sans compter que Mr le comptable aura amorti le tout, et que Intel sera content de vendre son dernier joujou).

Bon ça c'est dans le meilleurs des mondes, le monde ou les serveurs tournent à 100%, le monde du HPC et du big data. Mais est-ce qu'on fait sincèrement tous ça ? Ben rapidement on se rend compte que non. Nos serveurs d’intégrations, nos serveurs de développements, nos serveurs de messageries, nos serveurs de stockages, de compilation, nos machines virtuelles, elles ne font en moyennes pas grand choses (surtout la nuit), et au final ce bon vieux Xeon v1 pourrait bien avoir un intérêt, d'autant que sa performance intrinsèque n'est pas mauvaise, que ses I/O ben c'est les mêmes que ce fameux Xeon v4 et que sa conso quand il fait pas grand chose ben elle est pas si mauvaise.

Alors on se dit, ben pourquoi on les démonte ces machines pourquoi on s'en sert pas ? On est alors allé à la source pour mieux comprendre. Première chose, on a testé, est-ce qu'elles marchent vraiment ces bécanes ? La réponse est oui et non, je dirai qu'environ 30 à 40% d’entre elles ont des soucis, pas grave mes des soucis, et qu'actuellement elles ne sont pas du tout valorisée. D'une manière simple, ce business fonctionne avec une approche basique, j’enlève en mode "brute" les machines des DC (ce qui engendre les soucis), je les vend en container à des brokers, qui les rachètent un euro symbolique. Les bécanes sont alors rarement réparées, et les machines à problèmes partent à la poubelle.

On a alors fait quelques tests, et on s'est très vite rendu compte qu'on pouvait récupérer plus de 95% des systèmes en faisant quelques opérations basiques dessus comme:

  • Changer les piles de BIOS
  • Changer la mémoire (les barrettes mémoires sont sensibles au choc thermique et dans un DC en charge, elles ont une durée de vie amoindrie)
  • Changer le stockage
  • Changer les pâtes thermiques
  • Changer les supports de ventilateurs
  • Faire tourner les machines en burn test pendant 4 heures en pleine charge

En disposant des fichiers de référence des cartes mères (http://www.opencompute.org), et du support de la communauté Open Compute, on s'est même rendu compte que nous pouvions rapidement offrir un support pro sur ces systèmes avec réparation. Et on a donc décidé d'en créer une offre que vous pouvez retrouver sur le site internet d'Horizon.

L'offre de lancement repose sur un serveur bi Xeon 2660 v1 avec 64 GB de RAM, 480 GB de SSD, une carte réseau 10 Gbps, une interface de management, 1 an de garantie pour 750 $US, livrable un peu partout sur la planète. Globalement cela représente une économie d'environ 40% sur les systèmes par rapport à une machine neuve sur une période de trois ans en incluant les coûts de l’énergie et le surplus de hardware nécessaire pour réaliser les tâches avec une charge moyenne de 50% sur les serveurs.

Ces machines peuvent être très efficaces sur des workload adaptés, et on souhaite sincèrement reculer au plus tard leur démantèlement définitif. Nous ne pourrions lancer ce type d'offres sans l'approche d'ouverture de leurs designs, qui induit notre capacité de les réparer et de les valoriser. Elles ne connaitront peut-être pas un franc succès en Europe, mais j'aurai moins l'impression que ces "rebuts" ne soient pas utilisées à 200% de leur possibilité par négligence.

On s'est vite rendu compte que la plupart des offres des hébergeurs bas coûts reposaient sur cette approche et qu'au final ils disposaient de canaux d'approvisionnement non accessible aux PME, et/ou aux datacenters internes aux entreprise, en gérant par eux mêmes le reconditionnement et le risque. Sans compter sur le fait qu'ils n'ont que peu la capacité de réparer les systèmes lorsqu'un problème provient de la carte mère en utilisant du hardware propriétaire et que l'objectif de notre projet réside dans l'atteinte d'un taux de reconversion de 100% de ces "déchets" en intégrant dès la conception des systèmes la possibilité de leurs donner deux a trois vies.

C'est un projet naissant, dans lequel je crois personnellement, et sur lequel je voulais échanger avec vous. Merci d’être arrivé à la fin de ce journal, et n’hésitez pas à commenter, et/ou penser reconditionnement dans la gestion de vos achats. On peut faire marcher encore longtemps ces machines sans que leur empreinte carbone ne soit folle et on aura peut-être entre temps trouvé de meilleurs moyens que de bruler leur PCB pour les recycler.

  • # C'est quoi le rapport avec le libre ??

    Posté par (page perso) . Évalué à -10.

    Opencompute ou pas, le problème est le même.

    • [^] # Re: C'est quoi le rapport avec le libre ??

      Posté par (page perso) . Évalué à 7.

      Le projet OpenCompute est un projet de conception d'ordinateurs et datacenters sous licence libre.

      • [^] # Re: C'est quoi le rapport avec le libre ??

        Posté par (page perso) . Évalué à 4.

        ça manque de schéma, de courbe en x/y et de photo de la came que tu tentes de refourguer :-)

        l'idée qu'au bout de 3 ans ça doit être changé ne vient pas que d'un exercice comptable (enfin, si, un peu) cela correspond plus au renouvellement des contrats par nos amis et néanmoins collègues des achats, qui se génèrent leur propre boulot en choisissant un nouveau fournisseur : pour le matériel, c'est dell, ibm, bull, hp parfois, de quoi tenir 10 ans sur le même poste pour 3 jours de boulot à chaque changement…

        • [^] # Re: C'est quoi le rapport avec le libre ??

          Posté par (page perso) . Évalué à 9.

          Bonjour,

          Voici quelques images. La premiere est le chassis qui contient 2 cartes meres de serveurs et une alimentation electrique partagee qui peut etre alimentee en 48v courant continu ou 200-277v alternatif

          La regulation des ventilateurs est plutot bonne (en claire ils ne font pas de bruits)

          Serveurs

          Seconde photo (extraction du serveur 1)

          Serveurs

          Troisieme photo, demontage du chassis guide d'air

          Serveurs

          dernieres photos, installation des modules memoires en fin de refurbishing

          Serveurs

          Serveurs

          • [^] # Re: C'est quoi le rapport avec le libre ??

            Posté par (page perso) . Évalué à 9.

            Evolution des performances entieres des processeurs Intel

            En regardant ces deux courbes on constate que les nouvelles generations de processeur suivent une tendance quasi lineaires sur leur capacite a executer des workload lourd, mais que leurs performances par coeur evoluent tres lentement. Le tout dans un TDP quasi constant (oscillant entre 95 et 105W).

            Si un workload n'est pas pilote par la capacite d'absorption de charge CPU de la machine, il s'executera probablement tout aussi bien sur un Xeon de premiere generation que sur un Xeon de derniere generation.

            • [^] # Re: C'est quoi le rapport avec le libre ??

              Posté par . Évalué à 0.

              Si un workload n'est pas pilote par la capacite d'absorption de charge CPU de la machine, il s'executera probablement tout aussi bien sur un Xeon de premiere generation que sur un Xeon de derniere generation.

              En d'autres termes, si on ne cherche pas exploiter la puissance d'un CPU moderne, alors la puissance d'un CPU moderne est superflue… On s'en serait douté ;-) Mais justement, l'avantage du CPU moderne est qu'il va permettre de consolider plus d'applications (ou "workloads") sur une machine unique.

              • [^] # Re: C'est quoi le rapport avec le libre ??

                Posté par (page perso) . Évalué à 9.

                Ca depend de pas mal de parametres au final. Un des inconvenients du Cloud, et de la consolidation associee est une plus grosse pression sur la memoire. Le gros des VM vendu oscille entre 1VCPU 2GB de RAM et 2VCPU et 4GB de RAM. Ces VM ne font globalement pas grand chose, les load average des machines chez les hebergeurs sont faibles voir tres faibles, c'est en partie d'ailleurs ce qui leur permet de degager de la marge. Ce qui va les limiter c'est la capacite memoire d'un systeme et le niveau de risque de mecontentement lorsqu'un serveur tombe. (nombre de clients impactes), ce qui fait que les serveurs sont en generale equipes de 128 a 256GB de RAM, ce qu'un Xeon v1 sait tres bien faire.

                Aussi fou que cela puisse paraitre, il y a encore beaucoup de personnes qui pilotent leurs projets en pensant materiel neuf a tous les coups. Je ne pense pas pour autant que le reconditionnement soit la solution ultime dans tous les cas, mais qu'il faille le considerer a une hauteur un peu plus elevee, et bien analyser son besoin avant d'engendrer la production d'un equipement neuf qui aura necessairement un impact sur notre environnement.

                Horizon vend aujourd'hui des equipements reconditionnes et des equipements neufs d'ailleurs pour pouvoir s'adapter en fonction des situations et usages.

                Une des forces de l'Open Hardware c'est de pouvoir porter le marche du reconditionnement au meme niveau de qualite que celui des equipements neufs en terme de qualite et support, limitant ainsi nos dechets. Le marche de l'achat de materiel d'occasion est un marche "parallele", "secret" et tres mal percu dans la high tech, alors qu'il pourrait etre noble, et si bien utilise, et effectue dans de bonnes conditions il pourrait limiter le niveau de production de dechets. Soyons pragmatique, combien d'entres nous ont achete un serveur d'occasion pour le mettre en production dans un DC ?

                • [^] # Re: C'est quoi le rapport avec le libre ??

                  Posté par (page perso) . Évalué à 4.

                  Soyons pragmatique, combien d'entres nous ont achete un serveur d'occasion pour le mettre en production dans un DC ?

                  \o.

                  ~140 noeuds de calculs, dans une config trés intéressante pour nous (dont 120 en prod depuis 2 ans, le reste en spare ou HS).

  • # RAAAAAAHH

    Posté par . Évalué à 3. Dernière modification le 13/12/16 à 23:14.

    s/de part/de par/

    Désolé pour ce commentaire pas très constructif, surtout que le sujet est intéressant, mais cette faute je la vois tellement et j'ai tellement envie d'ouvrir ma gueule à chaque fois… j'ai craqué.

  • # Créer un nouvel hébergeur

    Posté par (page perso) . Évalué à 1.

    Très intéressant !
    Mais dommage : je pensais, en lisant, que vous alliez proposer ces serveurs dans une offre d'hébergement.
    Pour moi et la plupart de mes clients, gérer le physique de serveurs n'est pas envisageable.
    Merci quand même pour cette bonne idée.

    • [^] # Re: Créer un nouvel hébergeur

      Posté par . Évalué à 3.

      Gérer le physique de serveurs n'est pas très reluisant mais je connais aussi pas mal de personne dans un contexte professionel qui sont un peu sensibilisé à la localisation de leur données et qui seraient prêt à s'auto-heberger si une solution simple et pérenne existait.

      Ca me fait penser à Ubuntu qui avait sortir son Metal as a Service : http://3.bp.blogspot.com/-2YzvgRL6i14/U3BXULQkO1I/AAAAAAAAvjM/oCibggAGQaY/s1600/ob.png , bon depuis sur leur site maas.io j'arrive plus à trouver le hardware, ils se sont concentré sur la solution soft (openstack + juju) et s'adapte à n'importe quel architecture hardware.

      Avec une solution comme ça, il faut au minimum 3 machine pour fournir de la redondance, un rack, 2 switch (redondance), des batteries (vu qu'opencompute supporte le 48V DC, c'est bien moins chère que l'onduleur) et un modem 3G/4G pour avoir une connectivité de secoure. Dessus on mets du openstack et/ou mesos et on peut offir un mini-data cléfs en main pour environ 4000-5000$. Mon inconnu dans cette solution, restant le switch alim (bascule 230V vers 48VDC). Opencompute propose-t-il des solutions hardware la dessus ?

      Le plus compliqué restant toujours le stockage. Le NAS pour une offre "mini-DC" peut valoir le coût, c'est pas trop chère.
      Soit on fait un fs distribué (HDFS,GlusterFs,Infinit, Ceph) mais ces solutions sont assez peu performantes en I/O sur des petites fichiers (la plupart de ces solutions sont accessible en "posix" qu'à travers fuse).
      J'attends de voir ce que deviendra Infinit après le rachat par Docker.
      Sinon y a la solution SAN mais qui faut encore un bras. OpenCompute travail t-il aussi sur des SAN opensource ?

      • [^] # Re: Créer un nouvel hébergeur

        Posté par (page perso) . Évalué à 4.

        Le switch alim 48/220v est automatique. Le bloc alim present dans les serveurs supporte cette fonctionnalite de maniere transparente et sans interruption de service. Il privilegie toujours la source 200-277v lorsque celle-ci est presente.

    • [^] # Re: Créer un nouvel hébergeur

      Posté par (page perso) . Évalué à 10.

      On aimerait les proposer en offre d'hebergement en France, le seul truc c'est que la plupart des hebergeurs francais avec qui ont a discute on une approche assez brutale sur ce metier. Ils considerent qu'a partir du moment ou les machines sont des secondes mains que leur valeur residuelle est quasi nulle et qu'ils doivent les acheter a un prix de l'euro symbolique. Ils achetent vraiment des surplus de maniere aleatoire et ne voient pas d'interet a etablir de strategie moyen terme qui pourraient etre benefiques a l'ensemble de l'industrie en reinjectant leurs besoins des la conception des systemes, participant de maniere proactive aux designs et rationnalisant leur parc. Ils ne voient pas de valeurs dans notre metier pour le moment et considerent indirectement que c'est le leur. Bon heureusement, dans d'autres pays europeens c'est differents ;) et plusieurs hebergeurs vont rationnaliser leurs approches sur ce type de technologie qui au passage leurs permettront d'offrir des offres ultra competitives avec du stockage NVMe. Je ne peux pas devoiler publiquement le nom de ces hebergeurs mais peut vous mettre en relation avec certains d'entres eux par messages prives. Ils seront ravis de gagner qqs % de part de marche, et Internet en Europe n'a pas de frontiere.

      Apres on a reflechi a devenir hebergeur, on serait le faire, mais c'est un probleme financier et plus technique. L'hebergement en France, c'est OVH, Free, Gandi, plus de place pour un acteur qui sort des sentiers perdu, et puis il faut etre honnete notre vrai force et valeur ajoutee reste de developper ces machines sous licences libres et de construire l'ecosysteme qui va autour. On peut creer de super partenariat avec des hebergeurs, cela ne sert a rien de se positionner en concurrence.

  • # Pourquoi pas ?

    Posté par . Évalué à 6.

    Dans la mesure ou j'utilise un portable vieux de 5 ans comme serveur de fichier, et que j'envisage de le remplacer à moyen terme par un Raspberry Pi, c'est sûr qu'un "bon vieux Xeon v1" couvrirait largement les besoins… :D

  • # Et les CHATONS ?

    Posté par . Évalué à 2.

    Il me semble que l'état d'esprit de ce projet ce projet s'inscrirait bien dans le cadre du collectifs des CHATONS non?

    • [^] # Re: Et les CHATONS ?

      Posté par . Évalué à 3.

      Alors le collectif CHATONS c'est ceci:

      CHATONS est le Collectif des Hébergeurs Alternatifs, Transparents, Ouverts, Neutres et Solidaires.

      Il vise à rassembler des structures souhaitant éviter la collecte et la centralisation des données personnelles au sein de silos numériques du type de ceux des GAFAM (Google, Apple, Facebook, Amazon, Microsoft).

      https://chatons.org/

      De rien.

  • # Une seul interface SFP+ 10GB par serveur ?

    Posté par . Évalué à 1.

    En relisant l'offre que vous proposez, je suis surpris de constater que chaque serveur n'a qu'une interface SFP+. Sur la photo on voit un port SFP et un port RJ45 (j'image que le RJ45 est pour l'interface de management).

    Vous pouvez sans doute pas nous dire de chez qui vous avez récupéré les serveurs mais je suis vraiment surpris de voir qu'il n'y a pas de redondance réseaux au niveau du serveur. La redondance ce fait qu'au niveau des racks et pas en dessous. Bon après c'est un histoire de config, doit y avoir moyen de rajouter une deuxième carte SFP+ 10Gbe.

    • [^] # Re: Une seul interface SFP+ 10GB par serveur ?

      Posté par (page perso) . Évalué à 4.

      Y a pas trop de secret les serveurs sortent de chez Facebook pour la plupart. Ce sont des serveurs Windmill. Le RJ45 est en effet une interface de management en side band (le port est accessible aussi depuis l'O/S en cas de besoin). La carte 10Gbps est une Mellanox Connect-X 3 qui supporte l'offload de pas mal de fonctions et notamment le RDMA, utile pour tout ce qui est I/O et protocole type iSCSI, ainsi que SR-IOV.

      Sur les infrastructures hyperscale il n'y a aucune redondance, juste du partage tout au plus. Il existe des cartes Mezzanine OCP en dual port 10 Gbps, dual 40Gbps, en 56 Gbps single, et en 100Gbps. On peut les remplacer par des neuves si besoin, mais globalement elles sont hyper fiables et on a jamais eu de soucis avec ce type de materiel.

      • [^] # Re: Une seul interface SFP+ 10GB par serveur ?

        Posté par (page perso) . Évalué à 3. Dernière modification le 16/12/16 à 21:18.

        mais globalement elles sont hyper fiables et on a jamais eu de soucis avec ce type de materiel.

        Quand on utilise deux interfaces sur un serveur, c'est pour se protéger tant d'une défaillance côté serveur que côté switch. Mais c'est vrai que pour le genre d'infrastructure où tourne ces machines, doubler tous les ports juste pour la faible quantité de switch/machine qui va être défaillant, ça coûte plus cher que ce que ça ne rapporte. Doubler les ports, ce n'est rentable que pour les petites infrastructures.

        « Rappelez-vous toujours que si la Gestapo avait les moyens de vous faire parler, les politiciens ont, eux, les moyens de vous faire taire. » Coluche

Suivre le flux des commentaires

Note : les commentaires appartiennent à ceux qui les ont postés. Nous n'en sommes pas responsables.