OVH, les raisons des pannes

Deux pannes ont touché OVH hier matin. L’une concernait ses sites strasbourgeois, dont l’alimentation est tombée pendant plusieurs heures, l’autre les liens optiques entre le site de Roubaix et plusieurs PoP. Octave Klaba a précisé ce matin les causes de ce vaste plantage.

Au lendemain des deux pannes qui ont affecté de très nombreux sites hébergés chez OVH, Octave Klaba a pris la plume pour expliquer les causes de ces incidents séparés et les solutions envisagées pour que pareille situation ne se reproduise plus.

A Strasbourg, du fait d’un endommagement d’un des deux câbles 10 MVA, le disjoncteur chez Strasbourg Électricité Réseaux (filiale EDF) a coupé l’alimentation des sites SBG1, SBG2 et SBG4. En théorie, les groupes électrogènes auraient dû prendre automatiquement le relais. Mais « le système de basculement motorisé n’a pas fonctionné. L’ordre de démarrage des groupes n’a pas été donné par l’automate » fourni par l’équipementier des cellules haute-tension, indique Octave Klaba sur http://travaux.ovh.net.

Mais la responsabilité n'est pas qu'à chercher du côté de l'équipementier. « Le réseau électrique de SBG a hérité des imperfections de design liées à la faible ambition initialement prévue pour le site » concède Octave Klaba. Le site, mis en place en 2011, n'a pas été prévu pour « le large scale » : SGB1 et 4 étaient bâtis en containers maritimes et n'ont pas été mis aux « aux normes internes qui prévoient 2 arrivées ». Pire encore, le réseau électrique de SGB2 a été construit sur celui de SGB1. Si l'un n'était plus alimenté, l'autre non plus. A croire qu'OVH n'avait à l'époque pas anticipé sa croissance.

Des bugs à répétition

Autre équipementier, autre dysfonctionnement. Dans le cas de la panne du réseau optique entre le site de Roubaix et les points de présence, c’est un « bug software sur les équipements optiques » qui est en cause. La base de données contenant la configuration du réseau, pourtant « enregistrée 3 fois et copiée sur 2 cartes de supervision » a tout bonnement disparu. Conséquence : les cartes transpondeurs se sont mises en standby.

Il a fallu récupérer le back-up de la configuration du réseau et la remettre en place afin de résoudre le problème. « Les 100G dans les routeurs sont revenus naturellement et la connexion de RBX vers les 6 POP a été rétablie à 10h34 » écrit Octave Klaba. « Nous allons travailler avec l’équipementier pour trouver l’origine du problème et les aider à fixer le bug. Nous ne remettons pas en cause la confiance avec l’équipementier, même si ce type de bug est particulièrement critique ».

Une des solutions envisagées par OVH pour éviter que le problème se reproduise est de créer deux systèmes de nœuds optiques, au lieu d’un seul actuellement. Ce qui éviterait de perdre la totalité de la capacité en cas de nouveau « bug ». C’est un projet étudié depuis un mois, signale Octave Klaba, qui est désormais prioritaire. Concernant la panne de Strasbourg, le plan d’action risque d’être plus long et coûteux : mise en place d’une nouvelle arrivée électrique indépendante, séparation des réseaux électriques de SBG2 et SBG3, migration vers SGB3 de SBG1 et SBG4 et fermeture de ces deux sites. Coût prévu : quatre à cinq millions d’euros.
_________________________