• # Creuser toujours plus profond

    Posté par  (site web personnel) . Évalué à 4 (+2/-0).

    À force de creuser ils vont ont réussir à atteindre l'orbite terrestre… C'est à la fois affligeant — penser qu'il y aurait vraiment des spéculateurs assez incompétents pour acheter ce genre d'idée, et de l'argent à foutre littéralement en l'air pour le faire — et quasiment aussi inénarrable qu'un bon "what if" sur sur XKCD ; à ce détail près que c'est présenté comme réellement envisagé… Rassurez-moi, c'est un fake?

    « IRAFURORBREVISESTANIMUMREGEQUINISIPARETIMPERAT » — Odes — Horace

  • # A320

    Posté par  (site web personnel, Mastodon) . Évalué à 9 (+7/-0).

    Les A320 volent à seulement 12000 m et ont eu des problèmes de radiations il y a quelques jours.

    • [^] # Re: A320

      Posté par  (Mastodon) . Évalué à 10 (+8/-0).

      J'ai bossé (entre autre) sur l'ERC32 à l'époque où on parlait en Francs.

      Je me souviens plus trop les ordres de grandeurs mais c'est du style :

      • les SEU (en gros un bit qui change d'état à cause du rayonnement solaire) dans un satellite c'est continu, plusieurs fois par seconde / minutes / heure, d'où le matériel spécifiquement adapté
      • les SEU dans un avion c'est courant, ça arrive plusieurs fois par jour / semaines / mois
      • les SEU dans ton PC c'est rare mais ça arrive (d'où entre autre la RAM ECC pour les serveurs), style plusieurs fois par an

      Donc anéfé, en plus des soucis de poids, énergie, connexion Internet… ça reste une très mauvaise idée !

      En théorie, la théorie et la pratique c'est pareil. En pratique c'est pas vrai.

      • [^] # Re: A320

        Posté par  (site web personnel, Mastodon) . Évalué à 4 (+2/-0). Dernière modification le 01 décembre 2025 à 22:05.

        Intéressant, ça fait quand même pas mal d'évènements ! Pas négligeable.

        Probablement qu'on ne s'en rend pas toujours compte. Ça peut tomber dans une zone inutilisée de la mémoire, ou dans un bout de code qui ne sera jamais exécuté, ou sur un bit de poids faible dans une donnée, etc.

        En tout cas, il vaut mieux mettre les serveurs sous l'eau…

        • [^] # Re: A320

          Posté par  (Mastodon) . Évalué à 6 (+3/-0). Dernière modification le 01 décembre 2025 à 22:35.

          En tout cas, il vaut mieux mettre les serveurs sous l'eau…

          Ou simplement acheter de la RAM ECC. Ça suffit amplement.

          En gros le SEU (Single Event Upset) c'est un bit qui change. Avec un mécanisme de parité tu le détectes et avec pas bcp plus tu le corriges (c'est ce que font les mémoires ECC).

          Le MEU (multiple event upset) là tu as plusieurs bits qui changent (le rayonnement est tellement fort). Donc par exemple dans l'ERC32, les bits des registres sont physiquement entrelacés. Donc si un MEU arrive, tu as toutes les chances qu'il soit en fait un SEU sur 2 registres différents et donc détecté/corrigé par les mécanismes de parité.

          Bref tout ça c'est intéressant et il y a des cas déjà connus.

          En théorie, la théorie et la pratique c'est pareil. En pratique c'est pas vrai.

      • [^] # Re: A320

        Posté par  . Évalué à 10 (+9/-0). Dernière modification le 01 décembre 2025 à 22:36.

        Cisco a toujours une page d'explication sur le sujet : https://bst.cisco.com/quickview/bug/CSCuz26852 concernant certaines ASICs de certains routeurs.

        Le coup des rayons cosmiques était une bonne technique pour se débarrasser facilement d'un problème quand on n'en trouvait pas la cause. Comme le raconte cet expert dans son blog :

        I didn’t say it was a good explanation. But it was widely used by TAC engineers. Depending on how credulous your customer was, it might work. You see, often in TAC you end up in a situation where you have no explanation at all, but you want to give the customer something. Often the customer will not accept “I don’t know” as an answer. So, cosmic rays (or the related “sun spots”) was a TAC engineer’s attempt to close the case while providing some sort of explanation.

        J'ai aussi un peu utilisé cette excuse; un jour, (en m'appuyant sur la doc Cisco justement) pour expliquer le crash d'un gros routeur dans un centre de donnée. Ce qui m'avait un peu amusé, c'est que je me faisais chambrer par le responsable de l'infra du site, qui me disait que j'allais passé un sale quart d'heure pour justifier ce crash vis à vis du comité d'analyse des incidents, mais quand j'ai sorti le problème des rayons cosmiques, et que ça a marché, il s'est retrouvé impliqué avec une action préventive : Vérifier et corriger, le cas échéant, la mise à la terre de toutes les machines hébergées dans le DC.

        J'ai bien rigolé en voyant sa tête. (surtout que bon … je ne suis pas du tout sur que ça change grand chose d'avoir une bonne mise à la terre pour ce type de problème, mais ça paraissait évident aux gens du comité, et de toute façon, pour ce genre de comité, il faut toujours qu'il y ait une action corrective pour boucler leur processus)

        Faut pas gonfler Gérard Lambert quand il répare sa mobylette.

    • [^] # Re: A320

      Posté par  . Évalué à 10 (+10/-1). Dernière modification le 02 décembre 2025 à 09:11.

      Bonjour,

      On peut râler, mais il faut reconnaître qu'ils n'ont pas attendu qu'il y ait effectivement plusieurs crashs avant de se décider à réagir.

      Il y a quelques dizaines d'années, j'ai bossé dans une boîte toulousaine qui faisait de la pré-sérialisation et la maintenance électronique de sous-ensembles pour du matériel médical, spatial, militaire, etc.

      J'y ai fait, entre autres choses, la maintenance de quelques centaines de BCVA (Boîtiers de Commande de Vanne Automatique) pour la série A300/600 d'Airbus. Ce sont des boîtiers contenant trois cartes électroniques qui ont pour fonction d'ouvrir ou de fermer plus ou moins une vanne qui régule la "pression cabine". Deux de ces cartes sont identiques et régulent l'ouverture/fermeture en fonction des capteurs de pression, et la troisième carte pouvait être commandée "manuellement". Si l'une des deux premières cartes tombait en panne, l'autre prenait le relais, et si les deux premières cartes tombaient en panne, la troisième permettait quand même d'agir manuellement sur la vanne.

      Un jour, une ingénieure d'Airbus m'appelle parce qu'elle pensait qu'une modification (datant de quelques années) n'avait pas été rapportée sur le schéma qu'on utilisait. Après avoir passé quelques jours à rechercher tous les documents qu'on avait, je l'ai rappelée pour la rassurer en lui disant que tous nos documents étaient à jour et que la modification y était bien présente. Elle a commencé à s'excuser de m'avoir fait "perdre du temps", mais je lui ai presque coupé la parole en lui disant que je préférais cent fois avoir passé tout ce temps à tout revérifier plutôt que d'avoir des centaines de victimes sur la conscience. Elle a vraiment apprécié ma réaction, et moi la sienne.

      … et dans ce royaume, ceux qui y voient un peu plus clair sont parfois très mal vus.

      • [^] # Re: A320

        Posté par  . Évalué à 6 (+4/-0). Dernière modification le 02 décembre 2025 à 09:26.

        Si l'une des deux premières cartes tombait en panne, l'autre prenait le relais

        Je croyais que l'idée des cartes électroniques dupliquées c'était de faire de la double capture, et si la sortie n'était pas la même, on concluait que l'ensemble était fautif, donc on basculait en manuel sur la 3eme.

        Parce que c'est pas évident de détecter qu'une carte ne marche pas, a moins justement d'en avoir une deuxième pour comparer.

        • [^] # Re: A320

          Posté par  . Évalué à 3 (+3/-1).

          Notre travail consistait, en tant que sous-traitant d'Airbus, à faire la maintenance de sous-ensembles => je n'ai jamais pu voir la totalité du système (même chose pour le matériel militaire et spatial), donc je ne peux que faire des suppositions :

          Si les deux cartes font exactement la même chose au même moment, elles vont subir les mêmes conditions, ce qui aura de très fortes chances de provoquer la même panne sur les deux cartes au même moment.

          Pour faire une analogie, la roue de secours de ma voiture me permet de repartir en cas de crevaison parce qu'elle est restée à l'abri pendant que l'autre subissait les conditions qui ont provoqué la crevaison.

          … et dans ce royaume, ceux qui y voient un peu plus clair sont parfois très mal vus.

          • [^] # Re: A320

            Posté par  (Mastodon) . Évalué à 5 (+2/-0).

            J'imagine que tu peux en théorie avoir un bit flip sur une carte et pas l'autre non?

            • [^] # Re: A320

              Posté par  (Mastodon) . Évalué à 7 (+4/-0). Dernière modification le 02 décembre 2025 à 11:14.

              C'est pas en théorie, c'est exactement ce qu'il va se passer. Le bit flip est très localisé géographiquement parlant. Quelques microns (nano-mètres ?) plus loin, tout va bien.

              En théorie, la théorie et la pratique c'est pareil. En pratique c'est pas vrai.

        • [^] # Re: A320

          Posté par  (Mastodon) . Évalué à 5 (+2/-0). Dernière modification le 02 décembre 2025 à 11:09.

          Je croyais que l'idée des cartes électroniques dupliquées

          C'est vraiment au cas par cas, il n'y a (surtout) pas de méthode universelle de gérer la redondance. Des fois c'est le même truc foutu 2x et ça suffit, des fois c'est 3 trucs de fournisseurs différents, des fois il n'y a pas de redondance du tout…

          En théorie, la théorie et la pratique c'est pareil. En pratique c'est pas vrai.

          • [^] # Re: A320

            Posté par  . Évalué à 3 (+2/-0). Dernière modification le 02 décembre 2025 à 12:51.

            D'ailleurs, si tu fais un raid1 avec deux disques de la même marque, même modèle et même type, tu auras tout intérêt a t'arranger pour que leur numéro de série soit très différent, sinon, ils risqueront de tomber en panne au même moment exactement pour la même raison puisqu'ils auront été fabriqués avec des composants (électroniques et mécaniques) qui auront sans doute les mêmes points faibles, montés sur un circuit imprimé qui sera aussi sorti de la même chaîne de fabrication à la même période et par les mêmes machines.

            … et dans ce royaume, ceux qui y voient un peu plus clair sont parfois très mal vus.

            • [^] # Re: A320

              Posté par  . Évalué à 3 (+2/-0). Dernière modification le 02 décembre 2025 à 12:56.

              … et contrôlés, vérifiés, certifiés par les mêmes personnes.

              … et dans ce royaume, ceux qui y voient un peu plus clair sont parfois très mal vus.

          • [^] # Re: A320

            Posté par  (site web personnel) . Évalué à 2 (+1/-1).

            Et des fois on ne le met qu'une fois, parce que c'est pas grave, de toute façon on a tellement d'emprise sur les organismes de régulation, et on travail dans une contexte politique tellement corrompu que quelques centaines ou millier de morts ne devraient pas gêner outre mesure. D'autres s'en sont déjà sorti milliardaires avec un bilan infiniment plus dramatique. Alors pourquoi pas ?

            « IRAFURORBREVISESTANIMUMREGEQUINISIPARETIMPERAT » — Odes — Horace

Envoyer un commentaire

Suivre le flux des commentaires

Note : les commentaires appartiennent à celles et ceux qui les ont postés. Nous n’en sommes pas responsables.