Ein schwarzer Montag

David Burkardt
Autor:

David Burkardt

Kategorie:

in

Über cyon

Veröffentlicht am 18. Juli 2007

Aktualisiert am 20. Juni 2023

Unwetter

Ein Unglück kommt selten allein — dieses Sprichwort hat sich an vergangenem Montag in vollem Ausmass bewahrheitet. Wir erlebten einen Tag, an welchem sich zahlreiche unglückliche Ereignisse abspielten.

Im Folgenden möchten wir diese in chronologischer Reihenfolge möglichst transparent kommunizieren und gleich noch die getroffenen Massnahmen bekannt geben:

09:00: Ein Softwareupgrade zerstört den Sitebuilder
Die Sitebuildersoftware geniesst einen eigenen Server für sich alleine. Auch dieser Server will natürlich regelmässig gewartet und entsprechend mit Softwareupgrades versorgt werden. Eine neue Version von PHP vertrug sich dabei ausserordentlich schlecht mit dem Sitebuilder und es kam zu einem Konflikt, welcher uns noch stundenlang beschäftigen sollte. Der Umstand, dass die Software nicht von uns programmiert wurde und zudem verschlüsselt ist, bedeutete zusätzliche Hürden, welche den Lösungsprozess weiter verlangsamten.
Die mit dem Sitebuilder erstellten Webseiten waren von diesem Problem zwar nicht betroffen, aber wer seine Seite editieren wollte, konnte dies in dieser Zeit nicht tun. Das Problem konnte erst einen Tag später endgültig behoben werden.

Was unternehmen wir, um ein solches Problem in Zukunft zu vermeiden?
Der Sitebuilder liegt inzwischen in einer komplett neuen Version vor, welche robuster programmiert wurde und einfacher zu warten ist. Wir werden nach ausgiebigen Tests auf diese Version umsteigen und gehen davon aus, dass derartige Probleme nicht mehr auftreten werden.

10:40: Ein Update des Control Panels bringt den Server 12 zwei Mal zum Absturz
Auch das von uns bereitgestellte Control Panel will regelmässig gewartet und aktualisiert werden. Eine solche Aktualisierung wird immer zuerst auf einem nicht produktiven System auf Herz und Nieren getestet, um allfällige Probleme zu erkennen und zu beheben. Erst wenn alles reibungslos funktioniert, werden auch die produktiven Kundenserver aktualisiert. Dieser Prozess wurde in der Geschichte von cyon schon hundertfach ohne Komplikationen durchgeführt, doch an diesem Montag sollte es anders kommen: Auf Server 12 konnte ein Perlmodul nicht richtig neuinstalliert werden und es wurden innert Sekunden tausende neue Prozesse gestartet, welche den Server völlig überlasteten und zum Absturz brachten. Der darauf eingeleitete Neustart des Servers hatte einige Minuten Downtime zur Folge.
Trotz vermeintlicher Problemlösung wiederholte sich das Prozedere eine gute Stunde später und ein weiterer Neustart war nötig. Danach konnte das Problem zwar soweit eingegrenzt werden, dass der Server nicht mehr überlastet wurde, aber die endgültige Problemlösung erfolgte erst am späteren Nachmittag.

Was unternehmen wir, um ein solches Problem in Zukunft zu vermeiden?
Als zusätzliche Vorsichtsmassnahme werden wir zukünftig solche Updates wann immer möglich in die Randstunden verlegen, um im Falle eines Falles möglichst wenig Unannehmlichkeiten zu verursachen.

18:05: Eine Störung im Rechenzentrum unterbricht die Verbindung ins Internet für 1.5 Stunden
Kaum war das Problem mit dem Control Panel behoben und unsere Konzentration wieder auf den Sitebuilder gerichtet, traf der Albtraum eines jeden Hosters ein: der Totalausfall.
Die ganze Infrastruktur war nicht mehr zu erreichen. In diesem Fall gibt es nur eines: Raus aus dem Büro und ab ins Datacenter. Dank der geografischen Nähe waren wir sehr schnell vor Ort.
Die erste mögliche Störung konnte schnell ausgeschlossen werden: Der Strom war an und alle Lämpchen blinkten.
Die darauf folgende Abklärung mit unserem Lieferanten Init7 für die Internetverbindung brachte ebenfalls kein Ergebnis: das Netzwerk war in Ordnung.
Somit blieb als mögliche Ursache nur noch eine physikalische Unterbrechung auf dem Weg von unserem Rack zum Rack von Init7 übrig. Wir boten umgehend einen Mitarbeiter des Datacenters auf. Die anschliessenden Messungen zeigten es noch einmal: die Verbindung war defekt.
Glücklicherweise konnte relativ schnell eine zweite Verbindung über einen anderen Weg hergestellt und das Problem so behoben werden.

Wie es schlussendlich aber zu diesem Unterbruch kam, ist beinahe unerklärlich, denn eine funktionierende Netzwerkverbindung geht ohne Einwirkung äusserer Einflüsse — und solche können in diesem Fall ausgeschlossen werden — eigentlich nicht kaputt. Aber an einem solchen Montag scheint eben alles möglich. Die Betreiberin des Datacenters (IWB) wird noch genauere Analysen vornehmen und versuchen, die Ursache zu finden.

Was unternehmen wir, um ein solches Problem in Zukunft zu vermeiden?
Wir werden zwischen den betroffenen Racks ein weiteres Kabel ziehen lassen. Dadurch wird die ohnehin schon kleine Wahrscheinlichkeit für einen solchen Ausfall noch näher gegen Null rücken.

Beteilige dich an der Diskussion

12 Kommentare

Tom Predovan
Tom Predovan 12. Okt. 2015 12:03

Thema Sitebuilder, aktuell gibt es ja bei Cyon so etwas nicht mehr. Ich habe mal vor 2,3 Jahren nachgefragt und da hiess es es kommt demnächst etwas. Wird nun was kommen oder hat man dieses Thema definitiv begraben?
Gruss Tom

Philipp Zeder
Philipp Zeder cyon
12. Okt. 2015 14:32

Hallo Tom, da ist etwas in der Mache. Ich kann Dir aktuell noch keinen genaueren Zeitpunkt nennen.

Aaron
Aaron 25. Juli 2007 15:16

Vielen Dank für die offene Information hier – ein Grund mehr für Cyon!

Einfach nur weiter so!

Tom
Tom 23. Juli 2007 11:06

Ich gehöre zwar nicht zu euren Kunden, aber möchte euch trotzdem ein dickes Lob aussprechen für eure Kommunikation.

Fehler passieren, das ist nicht das Thema.. Probleme kann es immer wieder geben..
aber die Art wie ihr damit umgeht ist echt Vorbildlich!

Remo Uherek
Remo Uherek 21. Juli 2007 05:08

Ausgezeichnete Kommunikation. Da bleibt einem echt die Spucke weg. Riesen-Kompliment!

Remo

kblog
kblog 18. Juli 2007 20:25

Dasselbe bei mir: Ich hatte damals bereits Hostpoint in Betracht gezogen, aber u.a. nach den Vorfällen habe ich mich für Cyon entschieden. Ich muss sagen, nicht nur die Kommunikation gefällt mir, sondern auch der Support.

Bei diesem Preis/Leistungs-Verhältnis nehme ich (wenn auch nur ungern) so was in Kauf, wenn man dann dafür den Kunden gegenüber freundlich und offen bleibt. 100%ge Sicherheit kann schliesslich niemand garantieren.

Paddy
Paddy 18. Juli 2007 17:39

Danke für die offene Information. So bleibe ich zufriedener Kunde.

Manuel
Manuel 18. Juli 2007 15:46

Kann ich nur zustimmen! :D

Hatten letzte Woche ein paar ähnliche Situationen…
Da kann man beim lesen dieses Blogeintrages richtig mitfühlen ;-)

Rob Schneider
Rob Schneider 18. Juli 2007 14:12

Eure Informationstransparenz ist schon fast schauderhaft. Schauderhaft schön =). Danke für die Info.

Marcel Widmer
Marcel Widmer 18. Juli 2007 14:09

Der Grund, weshalb ich vor rund 1 1/2 Jahren von Hostpoint weg und zu Euch by cyon umgezogen bin? Nicht die zwei Ausfälle an sich, waren der Grund, sondern die Art und Weise, wie H. “informiert” (sprich “vertuscht”) hat.

Eure sehr offene und kompetente Information nach Eurem (unserem) schwarzen Montag bringt mich nicht etwa ins Zweifeln, ob der Wechsel zu Euch der Richtige war. Meine Einschätzung und mein Bauchgefühl werden dadurch bestätigt!

Toi-toi-toi beim “Aufräumen”!

P.S. Wenn dann wieder alles im Griff ist und die Nerven sich beruhigt haben, bleibt vielleicht mal Zeit, das Kommentarfeld hier Im Blog es bitzeli grösser zu machen ;-)

David Burkardt
David Burkardt 18. Juli 2007 13:34

Zur Redundanz: Das letzte noch fehlende Stück zur vollständigen Redundanz wäre sogenanntes Multihoming, d.h. zwei komplett redundante Leitungen ins Internet (http://de.wikipedia.org/wiki/Multihoming)

Wir werden dieses Projekt bald in Angriff nehmen.

Raphi
Raphi 18. Juli 2007 13:12

Ich finde es immer wieder toll, wie offensiv ihr informiert… Solche Tage kommen stets wieder vor [bei euch zum Glück selten :-)], jeder kennt das ja. Und wenn ihr dann noch was daraus lernt [ist nicht selbstverständlich, wie diverse Beispiele aus der Branche zeigen ;-)], ist das Glück perfekt.
OT: Habt ihr nach dem Einbau des Kabels überhaupt noch eine nicht redundante Komponente im Haus ;-D ?