Resümee des gestrigen Tages

Montag, den 01. August 2016 - 20:12 Uhr Verfasst von Norman Schulz


Mein Vater pflegte zu sagen: "Uns Techniker bemerkt man nur, wenn Etwas nicht klappt."
Gestern Nachmittag hat leider Einiges nicht so geklappt wie wir uns das gewünscht hätten.

Um Ihnen zu erklären, was gestern Nachmittag passiert ist, muss ich allerdings ein wenig weiter ausholen.

Wie Sie vielleicht gemerkt haben, kam es in den letzten Monaten bereits mehrfach zu kleineren, kurzen Problemen mit unseren Systemen. Diese rühren daher, dass wir uns zum Ende letzten Jahres entschlossen haben, unsere Serverkapazitäten zu erhöhen und für einen sechsstelligen Betrag aufzurüsten.

Aus betriebswirtschaftlicher Sicht gilt der Grundsatz: "Mach nichts selber, was ein Anderer besser für dich erledigen kann."
Daher hatten wir uns für ein System eines der führenden Datenspeicher-Hersteller entschieden, welches einerseits eine sehr hohe Kapazität aber auch herausragende Performance und gute Skalierbarkeit bietet.

Während der Datenmigration auf diese neuen Server mussten wir im April diesen Jahres leider feststellen, dass die neue, teure Enterprise-Lösung nicht das hielt, was sie versprach und unsere E-Mail-Server mehrfach am Tag ungewöhnlich hohe Lastspitzen für einige Sekunden aufwiesen, wenn sie auf diese neuen Storage-Server zugriffen.

Und hier kommt das Problem von solchen Enterprise-Lösungen zu Tage:
Wenn etwas nicht so läuft wie es soll, können Sie selbst nichts daran ändern, sondern müssen auf den Hersteller-Support zurückgreifen.
Dieser war aber fast einen Monat lang eher damit beschäftigt, uns einen Konfigurationsfehler vorzuwerfen, der nicht existierte, statt den Fehler in dem erworbenen Speichersystem zuzugeben und somit korrigieren zu müssen.

Wir mussten daher einiges an Energie aufbringen um stichhaltig zu beweisen, dass das Problem bei dem System des besagten Premium-Herstellers lag. Mit dessen späten Einsicht einhergehend wurde dann aber eine vorläufige Lösung gefunden, und der Hersteller begann an der Korrektur des Fehlers zu arbeiten.

Diese vorläufige Lösung läuft zwar sehr zuverlässig, bringt aber leider ein paar Nachteile für uns als Betreiber mit sich, weswegen wir ein reges Interesse an einer vollständigen Fehlerbehebung haben und gegenüber dem besagten Hersteller auf der Korrektur beharren.

Mitte letzter Woche haben wir endlich einen Patch erhalten und eingespielt, der das Problem auch scheinbar behob. Wir haben in den darauf folgenden Nächten inkrementell unsere E-Mail-Server entsprechend wieder auf den Normalbetrieb umkonfiguriert, was reibungslos zu funktionieren schien.

Um etwa 12:20 Uhr mittags des gestrigen Sonntags versagte die überarbeitete Softwarekomponente allerdings, wahrscheinlich wegen Überlastung durch die Mittags übliche hohe Anzahl an Zugriffen, und war nicht mehr ansprechbar.
Wir haben daraufhin unsere E-Mail-Server wieder auf die alternative Zugriffsart (besagte vorläufige Lösung) umgestellt und konnte so den Lesezugriff auf die Postfächer wieder herstellen.
Parallel dazu haben wir den 24/7 Support unseres Server-Herstellers in Anspruch genommen, jedoch sah sich dessen Support-Team nach einigen Stunden dazu gezwungen die Server neu zu starten, was aber wegen einer Systemblockade leider nicht gelang und zu dem vollständigen Ausfall vieler weiterer unserer Systeme führte.

Da wir durch diesen Ausfall nicht mehr über unsere Server per E-Mail kommunizieren konnten und zeitweise auch die Homepage offline gewesen ist, war es uns lediglich möglich über Twitter und Facebook über den Ausfall zu berichten.
Es dauerte etwa eine weitere Stunde bis die besagte Blockade aufgelöst werden konnte und wir mit der Wiederherstellung unserer Systeme beginnen konnten.
Um etwa 20:00 Uhr war unser Dienst wieder erreichbar und um etwa 22:00 Uhr waren wir mit der Überprüfung der Systeme fertig.
Der Storage-Hersteller hat die Diagnose des Fehlers bereits begonnen und uns bleibt nur, uns vielmals für diesen Ausfall zu entschuldigen.

Wir haben aus den Fehlern gestern viel gelernt und werden entsprechende Konsequenzen ziehen.
Wir haben durch die gestrigen Probbleme einige Stellen in unserer Infrastruktur identifiziert an denen wir Verbesserungen durchführen können und werden dort in den nächsten Wochen ausbessern. Diverse Maßnahmen welche bereits in den letzten Wochen geplant wurden werden wir nun höher priorisieren und schneller umsetzen.

Auch im Namen meiner Kollegen bitte ich Sie nochmals für die entstandenen Unannehmlichkeiten vielmals um Entschuldigung und versichere Ihnen, dass wir weiterhin jeden Tag daran arbeiten werden, Ihnen einen zuverlässigen Dienst zur Verfügung zu stellen und Alles daran setzen, dass Sie in Zukunft wieder Nichts von uns merken, sondern ungestört kommunizieren können.

Unter mailstatus.de können Sie unabhängig von unserem Webauftritt jederzeit den Serverstatus unserer einzelnen Dienste einsehen. Selbst kleinste Unterbrechungen, welche meist nachts durch geplante Wartungsarbeiten entstehen, können Sie dort nachvollziehen.

Mit freundlichem Gruß
Norman Schulz 

Hilfe