Ein schwarzer Montag

← zurück zum Blog

Unwetter

Ein Unglück kommt selten allein — dieses Sprichwort hat sich an vergangenem Montag in vollem Ausmass bewahrheitet. Wir erlebten einen Tag, an welchem sich zahlreiche unglückliche Ereignisse abspielten.

Im Folgenden möchten wir diese in chronologischer Reihenfolge möglichst transparent kommunizieren und gleich noch die getroffenen Massnahmen bekannt geben:

09:00: Ein Softwareupgrade zerstört den Sitebuilder
Die Sitebuildersoftware geniesst einen eigenen Server für sich alleine. Auch dieser Server will natürlich regelmässig gewartet und entsprechend mit Softwareupgrades versorgt werden. Eine neue Version von PHP vertrug sich dabei ausserordentlich schlecht mit dem Sitebuilder und es kam zu einem Konflikt, welcher uns noch stundenlang beschäftigen sollte. Der Umstand, dass die Software nicht von uns programmiert wurde und zudem verschlüsselt ist, bedeutete zusätzliche Hürden, welche den Lösungsprozess weiter verlangsamten.
Die mit dem Sitebuilder erstellten Webseiten waren von diesem Problem zwar nicht betroffen, aber wer seine Seite editieren wollte, konnte dies in dieser Zeit nicht tun. Das Problem konnte erst einen Tag später endgültig behoben werden.

Was unternehmen wir, um ein solches Problem in Zukunft zu vermeiden?
Der Sitebuilder liegt inzwischen in einer komplett neuen Version vor, welche robuster programmiert wurde und einfacher zu warten ist. Wir werden nach ausgiebigen Tests auf diese Version umsteigen und gehen davon aus, dass derartige Probleme nicht mehr auftreten werden.

10:40: Ein Update des Control Panels bringt den Server 12 zwei Mal zum Absturz
Auch das von uns bereitgestellte Control Panel will regelmässig gewartet und aktualisiert werden. Eine solche Aktualisierung wird immer zuerst auf einem nicht produktiven System auf Herz und Nieren getestet, um allfällige Probleme zu erkennen und zu beheben. Erst wenn alles reibungslos funktioniert, werden auch die produktiven Kundenserver aktualisiert. Dieser Prozess wurde in der Geschichte von cyon schon hundertfach ohne Komplikationen durchgeführt, doch an diesem Montag sollte es anders kommen: Auf Server 12 konnte ein Perlmodul nicht richtig neuinstalliert werden und es wurden innert Sekunden tausende neue Prozesse gestartet, welche den Server völlig überlasteten und zum Absturz brachten. Der darauf eingeleitete Neustart des Servers hatte einige Minuten Downtime zur Folge.
Trotz vermeintlicher Problemlösung wiederholte sich das Prozedere eine gute Stunde später und ein weiterer Neustart war nötig. Danach konnte das Problem zwar soweit eingegrenzt werden, dass der Server nicht mehr überlastet wurde, aber die endgültige Problemlösung erfolgte erst am späteren Nachmittag.

Was unternehmen wir, um ein solches Problem in Zukunft zu vermeiden?
Als zusätzliche Vorsichtsmassnahme werden wir zukünftig solche Updates wann immer möglich in die Randstunden verlegen, um im Falle eines Falles möglichst wenig Unannehmlichkeiten zu verursachen.

18:05: Eine Störung im Rechenzentrum unterbricht die Verbindung ins Internet für 1.5 Stunden
Kaum war das Problem mit dem Control Panel behoben und unsere Konzentration wieder auf den Sitebuilder gerichtet, traf der Albtraum eines jeden Hosters ein: der Totalausfall.
Die ganze Infrastruktur war nicht mehr zu erreichen. In diesem Fall gibt es nur eines: Raus aus dem Büro und ab ins Datacenter. Dank der geografischen Nähe waren wir sehr schnell vor Ort.
Die erste mögliche Störung konnte schnell ausgeschlossen werden: Der Strom war an und alle Lämpchen blinkten.
Die darauf folgende Abklärung mit unserem Lieferanten Init7 für die Internetverbindung brachte ebenfalls kein Ergebnis: das Netzwerk war in Ordnung.
Somit blieb als mögliche Ursache nur noch eine physikalische Unterbrechung auf dem Weg von unserem Rack zum Rack von Init7 übrig. Wir boten umgehend einen Mitarbeiter des Datacenters auf. Die anschliessenden Messungen zeigten es noch einmal: die Verbindung war defekt.
Glücklicherweise konnte relativ schnell eine zweite Verbindung über einen anderen Weg hergestellt und das Problem so behoben werden.

Wie es schlussendlich aber zu diesem Unterbruch kam, ist beinahe unerklärlich, denn eine funktionierende Netzwerkverbindung geht ohne Einwirkung äusserer Einflüsse — und solche können in diesem Fall ausgeschlossen werden — eigentlich nicht kaputt. Aber an einem solchen Montag scheint eben alles möglich. Die Betreiberin des Datacenters (IWB) wird noch genauere Analysen vornehmen und versuchen, die Ursache zu finden.

Was unternehmen wir, um ein solches Problem in Zukunft zu vermeiden?
Wir werden zwischen den betroffenen Racks ein weiteres Kabel ziehen lassen. Dadurch wird die ohnehin schon kleine Wahrscheinlichkeit für einen solchen Ausfall noch näher gegen Null rücken.

12 Kommentare

  1. Ich finde es immer wieder toll, wie offensiv ihr informiert… Solche Tage kommen stets wieder vor [bei euch zum Glück selten :-)], jeder kennt das ja. Und wenn ihr dann noch was daraus lernt [ist nicht selbstverständlich, wie diverse Beispiele aus der Branche zeigen ;-)], ist das Glück perfekt.
    OT: Habt ihr nach dem Einbau des Kabels überhaupt noch eine nicht redundante Komponente im Haus ;-D ?

  2. Zur Redundanz: Das letzte noch fehlende Stück zur vollständigen Redundanz wäre sogenanntes Multihoming, d.h. zwei komplett redundante Leitungen ins Internet (http://de.wikipedia.org/wiki/Multihoming)

    Wir werden dieses Projekt bald in Angriff nehmen.

  3. Der Grund, weshalb ich vor rund 1 1/2 Jahren von Hostpoint weg und zu Euch by cyon umgezogen bin? Nicht die zwei Ausfälle an sich, waren der Grund, sondern die Art und Weise, wie H. „informiert“ (sprich „vertuscht“) hat.

    Eure sehr offene und kompetente Information nach Eurem (unserem) schwarzen Montag bringt mich nicht etwa ins Zweifeln, ob der Wechsel zu Euch der Richtige war. Meine Einschätzung und mein Bauchgefühl werden dadurch bestätigt!

    Toi-toi-toi beim „Aufräumen“!

    P.S. Wenn dann wieder alles im Griff ist und die Nerven sich beruhigt haben, bleibt vielleicht mal Zeit, das Kommentarfeld hier Im Blog es bitzeli grösser zu machen ;-)

  4. Eure Informationstransparenz ist schon fast schauderhaft. Schauderhaft schön =). Danke für die Info.

  5. Kann ich nur zustimmen! :D

    Hatten letzte Woche ein paar ähnliche Situationen…
    Da kann man beim lesen dieses Blogeintrages richtig mitfühlen ;-)

  6. Danke für die offene Information. So bleibe ich zufriedener Kunde.

  7. Dasselbe bei mir: Ich hatte damals bereits Hostpoint in Betracht gezogen, aber u.a. nach den Vorfällen habe ich mich für Cyon entschieden. Ich muss sagen, nicht nur die Kommunikation gefällt mir, sondern auch der Support.

    Bei diesem Preis/Leistungs-Verhältnis nehme ich (wenn auch nur ungern) so was in Kauf, wenn man dann dafür den Kunden gegenüber freundlich und offen bleibt. 100%ge Sicherheit kann schliesslich niemand garantieren.

  8. Ausgezeichnete Kommunikation. Da bleibt einem echt die Spucke weg. Riesen-Kompliment!

    Remo

  9. Ich gehöre zwar nicht zu euren Kunden, aber möchte euch trotzdem ein dickes Lob aussprechen für eure Kommunikation.

    Fehler passieren, das ist nicht das Thema.. Probleme kann es immer wieder geben..
    aber die Art wie ihr damit umgeht ist echt Vorbildlich!

  10. Vielen Dank für die offene Information hier – ein Grund mehr für Cyon!

    Einfach nur weiter so!

  11. Thema Sitebuilder, aktuell gibt es ja bei Cyon so etwas nicht mehr. Ich habe mal vor 2,3 Jahren nachgefragt und da hiess es es kommt demnächst etwas. Wird nun was kommen oder hat man dieses Thema definitiv begraben?
    Gruss Tom

    • Hallo Tom, da ist etwas in der Mache. Ich kann Dir aktuell noch keinen genaueren Zeitpunkt nennen.

← zurück zum Blog