Lien Cloudflare : incident du 18-nov post mortem (un vilain unwrap en Rust)

Posté par woffer 🐧 (site web personnel) le 19 novembre 2025 à 08:43.

Étiquettes :

nov.

2025

https://blog.cloudflare.com/18-november-2025-outage/

# « un vilain unwrap en Rust »

Posté par Ltrlg le 19 novembre 2025 à 10:01. Évalué à 7.

… plus une requête SQL erronée et des déploiements en prod sans tests (suffisants).

… et probablement quelques autres détails plus mineurs, vu que la liste de remédiation inclut des points non discutés.
- [^] # Re: « un vilain unwrap en Rust »
  
  Posté par Voltairine le 19 novembre 2025 à 12:51. Évalué à 5.
  
  La meilleure remédiation est de na pas être ~~entièrement~~ dépendant de ce type de service (CLoudflare).
- [^] # Re: « un vilain unwrap en Rust »
  
  Posté par raphj (site web personnel) le 19 novembre 2025 à 14:03. Évalué à 7. Dernière modification le 19 novembre 2025 à 14:07.
  
  Pour moi, c’est une partie de l’explication seulement. C’est l’explication technique du crash.
  
  Mais le vrai “bug”, à mon avis, c’est qu’une telle erreur de programmation ne devrait pas avoir une telle conséquence. unwrap est au cœur de cet incident, mais n’est pas le cœur du problème.
  
  Pour moi, le problème est organisationnel ou architectural en premier lieu.
  
  D’abord, on pourrait imaginer des règles de programmations qui interdisent les unwrap, avec une vérification statique du code qui impose leur application. On peut imaginer qu’ils vont ajouter ce genre de vérification pour ce type d’erreur suite à l’incident. Ça, c’est une solution technique pour tuer une telle erreur dans l’œuf, mais ça ne fait pas tout.
  
  On pourrait imaginer une revue attentive obligatoire pour augmenter les chances d’attraper plus d’erreurs, dont celles qui ne peuvent pas être remarquées par la vérification statique ou les tests automatiques. C’est une des solutions organisationnelles possibles.
  
  Ça ne fait toujours pas tout, d’ailleurs j’imagine qu’ils ont déjà ça, or, l’erreur est passée quand-même. Dans tous les cas, il y aura toujours des erreurs de programmations qui passeront, tant que le code n’est pas vérifié formellement et exhaustivement (ce qui ne serait probablement pas réaliste, si c’est même possible).
  
  Donc là, l’architecture de Cloudflare devrait être conçue pour être tolérante à ce genre de bugs, avec un déploiement progressif des évolutions du code ou des configurations. On peut supposer qu’il y a de la redondance chez Cloudflare, et qu’il serait possible de déployer la plupart des changements sur certains nœuds, et les choses continuent à fonctionner quand ils tombent en panne. Et on stoppe le déploiement si on constate des crashes à ce niveau.
  
  Et toutes les solutions architecturales et organisationnelles pour limiter les erreurs humaines et sinon leurs conséquences.
  
  C’est évidemment plus facile à dire qu’à faire. D’un autre côté, c’est spécifiquement le cœur de métier de Cloudflare. Et ce qui est un peu préoccupant, c’est qu’il n’est fait mention que des solutions techniques dans leur section Remediation and follow-up steps. C’est bien d’éviter le genre d’erreur qu’on vient de rencontrer à l’avenir, mais aucune amélioration du processus de déploiement n’est mentionnée, ou autre amélioration visant à gérer les erreurs de programmations ou autres erreurs humaines qui passent inévitablement les filtres. On peut espérer que c’est juste qu’ils ne communiquent pas là-dessus pour une raison qui m’échappe.
  - [^] # Re: « un vilain unwrap en Rust »
    
    Posté par thoasm le 19 novembre 2025 à 14:17. Évalué à 4.
    
    Au delà de ça ça pose la question de l'environnement de test.
    
    Pour une infra critique comme celle là on aurait pu penser que l'infra de test soit un minimum complète par rapport à la prod, vu que c'est critique. Je me trompe probablement mais j'ai l'impression qu'un tel bug aurait pu être détecté dans les tests si les volumes de données de test et les serveurs simulés sont dimensionnés de manière crédible par rapport à la prod ?
    - [^] # Re: « un vilain unwrap en Rust »
      
      Posté par raphj (site web personnel) le 19 novembre 2025 à 14:21. Évalué à 3. Dernière modification le 19 novembre 2025 à 14:22.
      
      Oui, en effet. L'environnement de test est une solution technique et organisationnelle qu'on imagine déjà en place pour attraper ce genre de chose.
      - [^] # Re: « un vilain unwrap en Rust »
        
        Posté par totof2000 le 19 novembre 2025 à 14:47. Évalué à 9.
        
        D'un autre côté, vu leur taille, est-e qu'il est possible d'avoir un environnement de test qui simule tous les cas possibles et imaginables rencontrés sur un environnement de prod ? Je pense que ça doit être bien diffcicile. Et même si c'est faisable, il faut penser justement à tous ces cas possible et les simuler.
        
        Autrement dit, des tests c'est bien, mais les tests ne sont pas la garantie absolue de ne jamais rencontrer de bugs. On réduit juste la probabilité de les rencontrer.
    - [^] # Re: « un vilain unwrap en Rust »
      
      Posté par bbo le 19 novembre 2025 à 14:47. Évalué à 8. Dernière modification le 19 novembre 2025 à 14:51.
      
      […] les volumes de données de test et les serveurs simulés sont dimensionnés de manière crédible par rapport à la prod
      
      Est-ce vraiment possible chez Cloudflare ?
      
      Edit : pour le dire autrement, comment simuler 20% du trafic mondial de manière crédible ?
  - [^] # Re: « un vilain unwrap en Rust »
    
    Posté par Gil Cot ✔ (site web personnel, Mastodon) le 20 novembre 2025 à 00:49. Évalué à 1.
    
    Cloudflare, encore un autre géant aux pieds d’argile, comme Crowdsec…
    
    “It is seldom that liberty of any kind is lost all at once.” ― David Hume
# ~~Prem's~~

Posté par Faya le 19 novembre 2025 à 13:00. Évalué à 4. Dernière modification le 19 novembre 2025 à 13:00.

J'étais venu écrire un journal avec le même lien et le titre

Plot twist : le plantage de Cloudflare est de la faute de Rust !

Mais tu m'as dépassé avec ta version bien moins trollifère. Dommage, je voulais voir les rustacées sortir les pinces pour enfoncer des portes ouvertes ("Non mais en fait Rust ne peut pas t'empêcher de coder n'importe comment et en plus unwrap ne devrais pas arriver en prod, comme le dit le créateur de LinuxFR.")
- [^] # Re: ~~Prem's~~
  
  Posté par Gil Cot ✔ (site web personnel, Mastodon) le 20 novembre 2025 à 00:48. Évalué à 0.
  
  Et au vu des commentaires d’un précédent journal, les cRUSTacés vont t’expliquer que malgré les bogues qu’ils créent ils sont automagiquement plus sûr parce-que c’est comme ça.
  
  “It is seldom that liberty of any kind is lost all at once.” ― David Hume
  - [^] # Re: ~~Prem's~~
    
    Posté par kantien le 21 novembre 2025 à 17:27. Évalué à 3. Dernière modification le 21 novembre 2025 à 17:31.
    les cRUSTacés vont t’expliquer que malgré les bogues qu’ils créent ils sont automagiquement plus sûr parce-que c’est comme ça
    
    Et pourtant, ils le sont (plus sûrs) !
    
    Là, c'est un exemple typique de ce que j'expliquais quand je disais que les programmeurs faisaient de l'axiomatique sans le savoir (API, c'est Axiomatique Pour Informaticien).
    
    Le type Result <T,E> est l'équivalent logique d'une disjonction : on a un résultat de type T ou une erreur de type E. L'axiomatique minimale et complète pour ce type est celle-ci :
```
val ok : 't -> ('t,'e) Result
val error : 'e -> ('t, 'e) Result
val fold : ('ok -> 'res) -> ('err -> 'res) -> ('ok, 'err) Result -> 'res
```
    J'ai utilisé la syntaxe OCaml que je maîtrise mieux. Mais l'idée est qu'avec seulement ces 3 fonctions on peut implémenter toute l'API du type Result. Par exemple, le trait unwrap incriminé s'implémente ainsi :
```
unwrap self = fold id panic self
```
    où id est la fonction identité qui renvoie son argument et panic c'est ce qui est arrivé en cas d'erreur.
    
    Que ces trois fonctions suffisent, on le doit à Gödel (théorème de complétude) et Gentzen (déduction naturelle). Le type de ces trois fonctions correspondent aux règles de la déduction naturelle pour la disjonction : les deux premières sont les règles d'introduction de la disjonction (comment produire un Result) et la troisième à la règle d'élimination (comment consommer un Result).
    
    Ce qu'il y a, c'est que unwrap, qui de fait appel panic, ne doit être utiliser que sur des erreurs irrécupérables ! Il est peu probable que ce soit le cas ici, et unwrap n'aurait jamais du se trouver dans le code. C'est un bug de gestion d'erreurs, comme un exception non rattrapée mais qui aurait du l'être.
    
    Un programmeur C aurait pu faire de même :
```
if (ptr == NULL) { exit };
/* on peut déréférencer le ponteur dans la suite */
```
    mais là où unwrap apporte tout de même une sécurité mémoire, c'est qu'il ne déréférencera jamais un pointeur NULL, là où un programmeur C peut oublier d'écrire le test. La fonction fold (règle d'élimination, règle d'usage) exige un traitement pour le cas des erreurs, traitement qui dans le cas de unwrap est un panic. Cette exigence n'existe ni en C, ni en C++. ;-)
    
    Le cas des pointeurs est en fait équivalent au type Option, qui lui-même est équivalent au type Result où le type E des erreurs est un singleton.
    
    Après, si tu regardes les règles sur l'absurde sur la page wikipdéia (ce qui se passe ici, il y a une erreur parce que l'entrée est contradictoire avec les conditions dont à besoin la fonction pour avoir un résultat), en réfléchissant un peu tu pourras te convaincre que les règles la concernant correspondent au fonctionnement des exceptions (en particulier le raisonnement par l'absurde qui décharge l'hypothèse, c'est lever un exception avec sa backtrace : la série de raisonnement qui ont mener à la contradiction).
    
    Mais pour gérer les exceptions avec le type Result, il faut utiliser le ? en Rust. C'est la façon idiomatique d'utiliser ce que les programmeurs fonctionnels appellent le bind :
```
bind v f = fold f error v
```
    Autrement dit on applique le traitement f en cas de succès et on fait remonter les erreurs à l'appelant, charge à lui de gérer l'erreur (si possible sans panic).
    
    Sapere aude ! Aie le courage de te servir de ton propre entendement. Voilà la devise des Lumières.
    - [^] # Re: ~~Prem's~~
      
      Posté par Gil Cot ✔ (site web personnel, Mastodon) le 24 novembre 2025 à 00:39. Évalué à 3.
      
      Justement, tu précises « sécurité mémoire » ; ce n’est pas sécurité tout court… (ou toute la sécurité) Et l’usage apparemment irraisonnée de unwrap ici a conduit au crash, malgré les crédos.
      
      “It is seldom that liberty of any kind is lost all at once.” ― David Hume
      - [^] # Re: ~~Prem's~~
        
        Posté par kantien le 24 novembre 2025 à 18:11. Évalué à 2.
        
        Justement, tu précises « sécurité mémoire »
        
        Et c'est ce que prétend apporter, à raison, le langage Rust. Il n'a jamais prétendu être la panacée contre tous les types de bugs. L'erreur du unwrap peut se reproduire dans les autres langages, mais leurs bugs mémoires n'ont pas d'équivalents en Rust.
        
        Ceux qui cherchent à troller Rust inventent un adversaire imaginaire : ils combattent un homme de paille.
        
        Sapere aude ! Aie le courage de te servir de ton propre entendement. Voilà la devise des Lumières.
  - [^] # Re: ~~Prem's~~
    
    Posté par kantien le 21 novembre 2025 à 17:44. Évalué à 2. Dernière modification le 21 novembre 2025 à 17:45.
    
    J'ai oublié, panic c'est la règle d'élimination de l'absurde : le programmeur est tombé sur une contradiction, et au lieu de chercher à la comprendre, pour proposer une solution, il a paniqué. ;-)
    
    Pour pouvoir valider le type de unwrap, il faut que panic produise le type T que l'on a en cas de succès, quelque soit le type E des erreurs. Le type de panic produit le type qu'il veut en sortie quelque soit son type d'entrée, c'est à dire l'élimination de l'absurde ou le principe ex falso quodlibet (du faux, fait ce qu'il te plait).
    
    Sapere aude ! Aie le courage de te servir de ton propre entendement. Voilà la devise des Lumières.