#noBorder, #noLimit
yulPa

Retour sur l’incident WEB du 6 mars 2020

Bonjour à toutes et à tous.

Comme vous l’avez très probablement constaté, l’ensemble des sites internet hébergés sur notre plate-forme mutualisée a subit une interruption de service du vendredi 06 mars 2020 (19:29:48) au samedi 07 (03:02:48) heures de Paris. Ce qui donne ce graphique sur les outils de supervision que vous utilisez peut-être :

Nous tenions à communiquer à propos de cet incident, le premier aussi grave depuis la création de YULPA en 2017 (et un des plus grave également depuis 2006, en tant que Web4all).

Vendredi 06 mars à 19h29, notre serveur de stockage principal des fichiers (filer ZFS sous base Solaris) a rencontré une erreur grave provoquant un reboot de ce dernier. Le redémarrage s’est soldé par un échec au moment de remonter le système de fichiers. Après plusieurs tentatives de reboot infructueuses nous avons dû effectuer des tests complets du matériel (Dell Lifecycle). Une fois assuré que le serveur était en bon état matériel nous avons pu utiliser un live CD pour procéder à des actions sur le système de fichiers ZFS.

A la suite de cela nous avons pu redémarrer le serveur sur son système d’exploitation normal et procéder au montage du pool ZFS.

Cela effectué, nous avons pu remonter les montages NFS des serveurs HTTP (serveurs web) et des serveurs FTP afin de rendre de nouveau opérationnel l’intégralité de vos sites internet.

Dans les heures qui ont suivi nous avons pu procéder à la remise en place des différents sites YULPA (site web, blog, forums…) puis de la plate-forme iWal (manager / espace client).

La durée de l’incident est du au fait qu’un reboot de ce type de serveur prends 15 à 30 minutes selon les tests effectués lors de la phase de boot. Le zpool (système de fichiers ZFS) prend également plusieurs dizaines de minutes à être importé en cas d’erreur à corriger.

Enfin, la remise en « route » de l’intégralité des serveurs de la « plate-forme WEB » prends plusieurs dizaines de minutes (le temps de tout contrôler), cette dernière étant composée de plus de 30 serveurs.

Nous avons réalisé un petit schéma afin de vous permettre de comprendre pourquoi cet incident a impacté l’ensemble du système. Le serveur concerné est celui en bas, en orange, ayant pour label « Filer ZFS ». Ce dernier héberge (stock) l’intégralité des fichiers des hébergements, fichiers utilisés pour les sites web et le FTP.

Pourquoi ne pas avoir basculé sur le filer de backup ?
Nous avons fait le choix d’une interruption plus longue mais en toute sécurité plutôt que de risquer de compromettre les sauvegardes des hébergements.

Pourquoi ce serveur n’est pas redondé ?
Il est financièrement impossible sur des offres à quelques euros par mois de doubler ce serveur. A noter également que depuis sa mise en place il y a 7 ans, il s’agit du seul incident. Le surcoût que cela engendrerait est disproportionné pour le risque de panne.

Quelle aurait été la solution si le serveur n’avait pas redémarré ?
Dès le début de l’incident, une partie de notre équipe a commencé à déployer des serveurs virtuels pour remplacer chaque volumes ZFS à partir des sauvegardes.

Quelles sont les évolutions prévues ?
Nous travaillons depuis plus d’un an sur la nouvelle plate-forme web au niveau des serveurs HTTP. La seconde évolution sera probablement une virtualisation des serveurs ZFS comme évoqué juste ci-dessus.

Pourquoi certains sites chez YULPA fonctionnaient ?
YULPA propose plusieurs types de services permettant d’héberger des sites web, boutiques ou applications diverses. Plusieurs de nos clients font appels à nos services pour héberger leurs contenus sur des serveurs virtuels (Containers LXD), sur des serveurs virtuels VMware ou encore sur la plate-forme de Datacenter Virtuel VMware vCloud Director.

Les clients utilisant ces services n’utilisent pas le filer ZFS et n’ont donc pas été concernés par cet incident.

Sachez que YULPA propose des prestations d’infogérance si vous souhaitez utiliser ces offres sans en avoir les compétences techniques ou la volonté de le gérer vous mêmes. N’hésitez pas à nous contacter.

Quelles leçons en tirons nous (YULPA) ?

  • Cela a mis en évidence un très gros problème de communication. En dehors des réseaux sociaux et de la page travaux https://travaux.yulpa.io nous n’avions pas de quoi contacter en urgence l’intégralité de nos clients pour les informer. Nous allons donc travailler là-dessus afin de pouvoir effectuer des mailing en urgence si besoin, sans dépendre de notre plate-forme.
  • Comme indiqué précédemment nous allons probablement virtualiser cette partie du système qui est la dernière à ne pas encore l’être chez YULPA.

Un petit mot pour la fin.

Nous souhaitions remercier l’ensemble des personnes qui nous ont soutenues au cours et à la suite de cet incident. Nous avons été agréablement surpris des encouragements et des messages de félicitations de votre part sur les réseaux sociaux. Cela fait chaud au coeur d’être ainsi soutenu par nos clients.

Comme vous l’avez peut-être vu passer sur les réseaux sociaux, au moment de l’incident, une partie de l’équipe (Aurélien PONCINI et Benoit GEORGELIN) était à l’aéroport de Montréal. Un grand merci au personnel de la compagnie aérienne Air Canada qui nous a offert une partie du surclassement afin que l’on puisse travailler ensemble durant le vol, qui nous a également prêté un adaptateur électrique et pour sa sympathie. Une photo au moment de la résolution de l’incident depuis le cloud (cela n’a jamais été aussi vrai).

N’hésitez pas à nous suivre sur les réseaux sociaux :
https://www.facebook.com/yulPa.io
https://twitter.com/yulpa_io
https://www.linkedin.com/company/yulpa
https://www.instagram.com/yulpa.io/

This article has 15 comments

  1. eric D

    Bravo à vous pour votre implication et votre réactivité.
    Tout le monde est confronté à des problèmes et ce qui compte le plus est de s’atteler à les résoudrez.
    Ce que vous avez fait avec brio.
    En tant que client vous avez tout mon soutien

    Cordialement
    Éric DI MEO

  2. Fabrice

    Merci à vous tous.
    Surtout pour ce retour d’expérience.
    – cela prouve que le client compte pour vous.

    Bravo !

  3. BOYER Christian

    Bravo et merci. Belle réactivité.

    Chrys

  4. Isabelle Bouchoule

    Merci et bravo. Et surtout merci du retour, même si je ne comprends pas les choses techniques.

  5. Yohann

    Félicitation pour ce retour très complet et franc.

  6. Leoz Luiz

    Comme d’habitude, vous avez été à la hauteur. Jusqu’à la restitution. Encore bravo…

  7. Pascale Guillaumin

    Merci d’avoir encore pris du temps pour nous fournir ces explications. Même si mon absence de compétence m’, empêche de les comprendre, j’apprécie énormément votre professionnalisme et votre réactivité. Non seulement je vous soutiens mais comptez sur moi pour parler (en bien 😉) de vous autour de moi.

  8. Pierre MIELE

    Merci pour votre réactivité ainsi que pour vos explications.

  9. Vladimir

    Bravo à l’équipe ! C’est quand même assez classe d’avoir bossé sur un problème pareil depuis un avion.

  10. damien

    Merci pour votre professionnalisme démontré cette fois encore.

    Bien cordialement,

    damien.

    PS.: même si, pour ma part, je n’ai pas « vu » que tout était en panne. J’ai bien vu samedi matin qu’il y avait un « trou » inhabituel dans la fréquentation de mon site mais je ne me suis pas inquiété outre mesure.

  11. Pierre

    Bravo et merci pour votre transparence !
    Je n’ai rien compris à vos explications 🙂 mais je les ai lues avec grande attention ! 🙂

    Content que mon site et mon forum soient hébergés chez Yulpa

  12. Serge

    Explication très instructive et intéressante, qui prouve que Yulpa et donc ceux qui l’anime, ont conservé une certaine partie de l’esprit web4all. Bravo continuez.

  13. Thibaut

    Bravo à tout l’équipe pour votre dévotion et votre professionnalisme !
    Les incidents arrivent à tous mais pas tous communique en toute transparence !
    Merci pour tout.

  14. Emmanuel

    Bonjour,
    Je viens de lire votre retour d’incident ainsi que les commentaire. Je n’utilise pas les « réseaux sociaux » mais:
    – Comme Damien, je ne me suis aperçu de rien car je n’ai pas de site de production mais le ftp a effectivé été coupé, ce qui ne m’a pas inquiété plus que ça.
    – Comme Serge, je suis plus que satisfait du professionnalisme et de la sympathie de l’équipe et ce depuis Web4all, sans oublier un tarif très raisonnable et peu évolutif, il faut le reconnaître.
    – Comme Thibaud, l’incident est inévitable, tout dépend de la qualité de sa résolution et de la communication client. Sur ces points essentiels, beaucoup de personnes (physiques ou morales) devraient prendre exemple sur vous (et pas que dans l’informatique d’ailleurs).
    Ce compte rendu est simplement parfait, ça donne envie d’avoir d’autres incidents ^^

    Je ne poste jamais aucun commentaire ni avis client mais le minimum que l’on puisse faire (c’est presque un devoir) c’est de vous soutenir et de vous encourager.

    Je suis fiers d’être client Yulpa ! (Yulpien ?)

  15. Olivier

    Bravo ! Belle rhétorique : « Ça été une catastrophe… Pour nous l’hébergeur ».

    Par contre, PAS un seul petit mot d’excuse pour nous les clients ?

    Et pour vos clients qui ont PERDU du temps, de l’argent, ou se sont fait saboter leur site, pendant que vous aviez le dos tourné, un REMBOURSEMENT serait pour l’occasion un geste PROFESSIONNEL, parce que pour le mot d’excuse, nous avons compris que personne ne vous l’a appris lorsque vous étiez petits.

Répondre à Vladimir Annuler la réponse