Stromausfall im Rechenzentrum

Freitag, den 14. Juni 2019 - 15:00 Uhr Verfasst von Norman Schulz

Am Freitag den 14 Juni 2019 um ca. 10:54, führte der Betreiber des von uns genutzten, mehrfach redundant angebundenen Rechenzentrums (mehr Informationen hier) Wartungsarbeiten an der "Unterbrechungsfreien Stromversorgung" durch. Dabei kam es aus noch nicht vollständig geklärten Gründen scheinbar zu einem Defekt in der Generatorsteuerung und infolgedessen zu dem ersten Stromausfall in der Geschichte des Betreibers.

Weshalb hat es so lange gedauert, bis die Dienste wieder verfügbar waren:

Unsere Serverinfrastruktur besteht aus hunderten realer und virtueller Server, die auf verhältnismäßig komplexer Weise miteinander verzahnt sind, um Ihnen unsere verschiedenen Dienste (Webmail inklusive Addressbuch, Kalender und OnlineSpeicher sowie IMAP, POP3, SMTP, WebDAV, CalDAV und CardDAV) zur Verfügung stellen zu können.

Wenn so einem großen "Server-Verbund" mit einem Schlag der Strom abgezogen wird geschieht natürlich zunächst das Offensichtliche: Die Rechner und darauf laufenden Dienste sind nicht mehr erreichbar.
Weniger offensichtlich ist allerdings, dass auch nachdem der Stromausfall beseitigt wurde, diese Server nicht direkt wieder erreichbar sind.
Grund dafür sind die verschiedenen Abhängigkeiten die durch die physische und logische Trennung unserer vielen Komponenten entstehen. Somit ist es notwendig, dass unsere Systeme in einer bestimmten Reihenfolge wieder neu gestartet werden.
Dieser Prozess benötigt schon allein durch die schiere Menge an Maschinen leider einiges an Zeit. Insbesondere, wenn durch den plötzlichen Stromverlust einige der Server Schäden davon getragen haben, die vor der Wieder-Inbetriebname repariert werden müssen.

Seit 15:24 sind unsere Dienste nach ca. 4,5 Stunden wieder vollständig erreichbar und ich möchte mich auch im Namen der mail.de GmbH in diesem Zuge aufs Herzlichste für alle Unannehmlichkeiten, die Ihnen durch diesen Ausfall entstanden sein sollten, entschuldigen.

Hilfe