Mardi 12 mars à partir de 23h, nous avons lancé un passage à la version suivante de la distribution GNU/Linux (une Ubuntu pour l'hôte, des Debian pour les invités LXC) du serveur principal de LinuxFr.org, baptisé gruik. Tout s'est bien passé jusqu'au redémarrage.
Loi de Murphy
Après un certain temps, il a bien fallu en déduire que ce n'était pas juste un fsck qui s'éternisait mais bien un souci plus sérieux au démarrage. La console d'administration distante (carte DRAC (*)) ne nous a servi à rien non plus. Pas plus que le redémarrage électrique. Bref pas de ping, pas de réseau, rien, ni de l'extérieur, ni depuis le second serveur. Conclusion : perte des sites web de production et de test, et perte des listes de diffusion et du courriel @linuxfr.org en général.
(*) DRAC pas cher (intégré à la carte-mère), qui ne marche que quand le serveur va bien. Si le réseau tombe ou que GRUB boude, plus rien. En plus, sa redirection BIOS est mauvaise au possible…
Un problème n'arrivant jamais seul, la neige en Île de France a perturbé une intervention au datacenter hébergeant gruik.
« Protéger, Alerter, Secourir » : diffuser l'info donc
Nous avons utilisé les réseaux sociaux pour diffuser l'info sur G+, Twitter ou le salon xmpp ; malheureusement pas sur identi.ca qui a demandé une validation de l'adresse @linuxfr.org utilisée au moment où le serveur n'était pas disponible.