Bericht zur Störung vom 10. April

Philipp Zeder
Autor:

Philipp Zeder

Kategorie:

in

Über cyon

Veröffentlicht am 18. Apr. 2013

Aktualisiert am 3. Juni 2021

Am letzten Mittwoch, den 10.04.2013, war ein Teil unserer Kunden von einem erneuten Ausfall betroffen. Ab 03:11 Uhr waren unsere Server 30, 32, 34, 36, 38 und 42 nicht mehr erreichbar.

Unsere sofort alarmierten Techniker machten sich nach einer ersten Situationsanalyse auf den Weg in unser Rechenzentrum, um das Problem vor Ort zu beheben.

Schnell wurde klar, dass die Probleme zwar in Verbindung mit unserem Storage-System standen, es sich aber um eine andere Ursache als beim Ausfall vom 1. März handelte.

Solche Ausfälle auf der Ebene des Storage-Systems sind höchst unwahrscheinlich, wie uns auch die beigezogenen Experten immer wieder bestätigten. Das System ist redundant ausgelegt und mehrfach gegen Ausfälle gesichert.

Während der schrittweisen Wiederaufschaltung der einzelnen Server stellten wir fest, dass das Problem in Zusammenhang mit unserem Server 34 stand. Dessen Aufschaltung führte nämlich sowohl auf unserem Primärsystem, als auch auf dem Notfallsystem zum Absturz des gesamten Systems.

Die Ursache konnte also eingegrenzt werden und ab 10:20 Uhr waren sämtliche Server, mit Ausnahme von Server 34, wieder normal erreichbar.

Fehlersuche auf Server 34

Nun galt es, auch Server 34 so schnell als möglich wieder ans Netz zu bringen. Erste Versuche, die Daten für Server 34 mit einem Ersatzserver zu verbinden, scheiterten jedoch.

Vom Einspielen eines Backups sahen wir zu diesem Zeitpunkt ab, da nicht ausgeschlossen werden konnte, dass auch die Daten aus dem Backup den Fehler verursachen würden. Ausserdem wollten wir einen Datenverlust verhindern.

Kurz nach 17:00 Uhr folgte dann ein erster Lichtblick. Unsere Techniker, wie auch die seit dem frühen Morgen eingeschalteten Spezialisten des Storage-Herstellers, konnten den Grund für das Nichtfunktionieren von Server 34 ausmachen. Der Datencontainer, also quasi das Gefäss in dem sich die Daten von Server 34 befinden, war beschädigt.

Sofort wurde die Einspielung des letzten Backups gestartet. Da aber noch immer nicht ganz ausgeschlossen werden konnte, dass dies wiederum zum Absturz des Systems führen würde, erfolgte die Einspielung auf unser sekundäres System. Dieses System kommt im Normalfall für die Speicherung unserer Backups zum Einsatz.

Um 19:24 Uhr erlösten uns unsere Techniker mit der Erfolgsmeldung “Server 34 wieder erreichbar“. Die Analysen waren also korrekt, der beschädigte Datencontainer war das verursachende Übel.

Unsere Massnahmen

Bereits seit dem Ausfall vom 1. März sind wir daran, zusätzliche Lösungen zu implementieren, die solche Ausfälle abfedern sollen.

Konkret handelt es sich auf der technischen Seite um die Erweiterung unseres Disaster-Recovery-Systems. Dieses System ermöglicht es uns, bei einem Ausfall innert kürzester Frist ein Backup aufzuschalten, welches nur wenige Minuten alt ist. Wir rechnen damit, das erweiterte System in ca. vier bis sechs Wochen in Betrieb nehmen zu können.

Zudem werden wir Besuchern von betroffenen Websites im Notfall eine verständliche Fehlermeldung anzeigen können, die Hinweise auf die Erreichbarkeit des Servers beinhaltet.

Wir können nicht hundertprozentig garantieren, dass ein solcher Ausfall nie wieder eintreffen wird. Wir versprechen aber, alle notwendigen Schritte zu unternehmen, um so ein Szenario in Zukunft verhindern zu können.

Ihre Fragen

Antworten auf einige häufig gestellte Fragen finden Sie in unserem Bericht zum Teilausfall vom 1. März.

Wenn Sie weitere Fragen haben, hinterlassen Sie uns einfach einen Kommentar, schreiben Sie uns eine E-Mail oder rufen Sie uns kostenlos unter 0800 840 840 an. Wir möchten Ihre Fragen lückenlos beantworten.

Beteilige dich an der Diskussion

27 Kommentare

Marcel Weder
Marcel Weder 20. Apr. 2013 09:21

Kann mich nur anschliessen. Ausgezeichnete, vorbildliche Informationskultur. Weiter so, hier ‘hoste’ ich gerne.

Kleine Frage noch: Google’s PageSpeed Test ‘passt’ die Antwortzeit des Servers (Medium priority) nicht. Long web server response times delay page loading. Reduce your response times to make your page load faster. Besteht evtl. ein Zusammenhang zum Ausfall?

Philipp Zeder
Philipp Zeder cyon
22. Apr. 2013 10:21

Das dürfte einen anderen Grund haben. Schreib uns doch bitte eine Mail mit den Eckdaten, dann schauen wir uns das Problem genauer an.

cool
cool 20. Apr. 2013 07:59

Danke für den Bericht.
Es macht ersichtlich weshalb nicht schon früher ein Plan B aufgeschaltet werden konnte und wie vorgegangen wurde. Technik und Menschen machen Fehler. Es entscheiden deshalb nicht die Fehler, sondern der Umgang damit.
Die Alternative mit GMail soll jeder für sich selbst entscheiden. Lobenswert finde ich die Bemühungen von Cyon einen Datenverlust mit allen Mitteln zu verhindern. Dass man für dieses bisschen Service auch ein bisschen etwas bezahlt, sollte eigentlich jedem einleuchten.

Boris Schneider
Boris Schneider 19. Apr. 2013 13:58

Ihr braucht euch wirklich keine Sorgen zu machen. Alle Webhoster, bei denen ich je war, hatten Ausfälle, egal ob groß oder klein, günstig oder teuer. Löblich ist, dass ihr euch um solche Ausfälle schnell kümmert und sie beseitigt. Dass ihr über das Ganze auch einen Report aufsetzt, ist mehr als guter Kundendienst. Weiter so!

Thomas Hertli
Thomas Hertli 19. Apr. 2013 10:24

Alles in allem hatten wir ja Glück; es geht auch schlimmer, wie das am Beispiel eines grossen Deutschen Providers zu erfahren war.

http://www.spiegel.de/netzwelt/tech/strato-panne-wir-machen-die-reinste-hoelle-durch-a-126274.html

Somit liebes cyon-Team noch einmal besten Dank für Eure Offenheit und die klare Kommunikation

Kim
Kim 19. Apr. 2013 09:51

Ausfälle können jederzeit bei jedem Hoster vorkommen. Das Kommunikationsmanagement, welches Cyon hier an den Tag gelegt hat, zeigte jedoch deutlich, wie man es vorbildlich macht:

Ich fühlte mich als betroffener Kunde jederzeit hinreichend über den Stand der Dinge informiert. Sicherlich sehen das andere anders… Ich kann mir vorstellen, dass es auch Leute gibt, die gerne einen Video-Livestream aus dem Serversaal hätten, bei dem sie dann den Technikern auf die Finger schauen können und überwachen können, dass auch ja an der Lösung des Problems gearbeitet wird und wehe, es geht mal jemand zur Beruhigung der Nerven einen Tee trinken oder an die frische Luft…

Große Unternehmen mit Millionen Kunden haben hier weniger den Schneid zu Problemfällen in solcher Detailtreue Stellung zu beziehen.

Kunden, die eine 100%-Verfügbarkeit verlangen, sollten daher mal überlegen, ob diese Leistung sich mit dem doch recht günstigen Preis, den Cyon bietet, vereinbaren lässt… oder ob Cyon hier nicht vielleicht der falsche Dienstleister wäre für die eigenen Anforderungen…

Es gibt ja immer noch die Alternative, einen eigenen Server im eigenen Rechenzentrum zu betreiben… wer sich mit dem Gedanken einmal beschäftigt hat, weiß aber, welche Kosten und Anforderungen hier gestellt sind und dass man das erst einmal leisten können muss…

Cyon: Macht weiter so! Ihr seid auf dem richtigen Weg!

Thomas Hertli
Thomas Hertli 19. Apr. 2013 08:40

Höchst ärgerlich der erneute Ausfall trotzdem bleibt ihr der bevorzugte Provider, weil Drumherum einfach alles stimmt.

Misslich ist halt einfach, in solchen Fällen kein Zeitfenster bis zur Wiederverfügbarkeit der Dienste zu erhalten; ist mir auch klar, dass das “nicht ganz einfach” ist, aber wenn ich im Tagesgeschäft vom E-Mail abhängig bin, muss ich mich irgendwann entscheiden, die Mitarbeiter nach Hause zu schicken oder zu Strafarbeiten wie “Aufräumen” Datenverzeichnisse und -Archiven zu verdonnern.

Was ich noch nicht ganz begriffen habe: warum waren auch andere Server betroffen, wenn der Datencontainer von Server 34 beschädigt war ? Sollte ich die Aussagen richtig interpretiert haben, dann hat doch jeder Server seinen eigenen Datencontainer ?

Philipp Zeder
Philipp Zeder cyon
19. Apr. 2013 10:02

Ich verstehe das Problem mit dem Zeitfenster. Wir möchten einfach nicht Zeiten versprechen, die dann nicht eingehalten werden können. Sobald wir einigermassen verlässliche Zeitangaben machen können, werden diese jeweils sofort kommuniziert.

Was ich noch nicht ganz begriffen habe: warum waren auch andere Server betroffen, wenn der Datencontainer von Server 34 beschädigt war ? Sollte ich die Aussagen richtig interpretiert haben, dann hat doch jeder Server seinen eigenen Datencontainer ?

Das ist richtig, jeder Server hat seinen eigenen Datencontainer. In diesem Fall hat der defekte Datencontainer von Server 34 den zentralen Controller zum Absturz gebracht. Das automatische Failover auf den redundanten Controller hat dann funktioniert, der defekte Datencontainer brachte aber auch diesen zum Absturz. So hatte der defekte Datencontainer von Server 34 Einfluss auf andere Server.

André
André 19. Apr. 2013 08:04

Für mich als Kleinunternehmer mit einem Onlineshop der täglich von Hunderten Kunden und Gästen besucht wird, sind solche Ausfälle beinahe eine Katastrophe. Insbesondere da sie ausgerechnet im Zeitraum der in meiner Branche (Camping) üblichen Hochsaison passiert sind. Bissige Kommentare von Konkurrenten in Bezug auf “der hat dicht gemacht” u.a. sind mir zu Ohren gekommen.
Ausfälle dierser Art passieren überall, Gmail und Bluewin hatten meiner Meinung nach noch viel grössere Ausfälle. Nur können diesen Beiden auf Grund ihrer Grösse und (der Kohle) die Öffentlichkeit via Medien informieren, so dass auch der letzte im hintersten Teil des Landes weiss was Sache ist!
In dieser Hinsicht würde ich es begrüssen wenn Cyon “beim nächsten Mal” wenigstens einen Text auf die Erreichbarkeit der Servers einblenden würde, so dass Kunden und Gäste sehen, bzw. lesen können wo “der Wurm drinn ist”!
Mit der Dienstleistung und dem Support von Cyon bin ich aber sehr zufrieden, so dass ein Wechsel absolut kein Thema ist.

Philipp Zeder
Philipp Zeder cyon
19. Apr. 2013 09:27

André, herzlichen Dank für Deinen Kommentar. Wir arbeiten bereits an einer Lösung, mit der es möglich sein wird, eine verständliche Fehlermeldung anzuzeigen.

Marco De Luca
Marco De Luca 18. Apr. 2013 18:30

Informationsmässig einmal mehr vorbildlich. Merci.

Anonymous
Anonymous 18. Apr. 2013 17:49

Zentrale Storage-Black-Boxen sind generell ein Problem, wenn Hochverfügbarkeit ein Thema ist – ausser man hat ein S/390 im Keller ;-) In der Theorie sind sie super schön, in der Praxis halten sie leider (nach meinen Erfahrungen) nicht, was sie versprechen. Das merkte Strato schon im Jahr 2001 (http://www.spiegel.de/netzwelt/tech/strato-panne-wir-machen-die-reinste-hoelle-durch-a-126274.html) – lange wars her.

Daki
Daki 18. Apr. 2013 15:50

Natürlich ist es sehr ärgerlich wenn Probleme auftreten beziehungsweise der Server down ist allerdings gibt es sozusagen immer ein erstes mal und meiner Meinung nach ist Cyon nach wie vor ungeschlagen und es liegt auch in ihrem Interesse Konflikte keine Chance zu geben … Trotz alle dem bin ich zufrieden und bleibe bei Cyon obwohl ich mir über ein Wechsel Gedanken gemacht habe ;-)

Mo
Mo 18. Apr. 2013 15:37

liebe cyonlerInnen

herzlichen dank für die immer sehr offene, rasche & transparente kommunikation. ich bin auf jeden fall mit eurem service sehr zufrieden & “shit happens”.
vielleicht ist es ja zwischendurch mal ganz gut nicht immer online zu sein bzw. erreichbar zu sein.

wünsche allen einen wunderbaren tag.

Luz
Luz 18. Apr. 2013 14:42

Herzlichen Dank für den Bericht. Cyon ist nach wie vor die Nummer 1 für mich. Abstürze passieren und gehören dazu.

Fabian Friedli
Fabian Friedli 18. Apr. 2013 14:40

Webseiten die unter WordPress oder anderen CMS/Blogs laufen, würde ich ein Cache-Control-Plugin empfehlen. So werden “Returning Visitors” schon besucht Seiten aus dem Cache laden. Das ist natürlich nicht zufriedenstellend.

Aber: Plugins wie das “W3 Total Cache” bieten auch an, den Content über ein Content Delivery Network oder Dienste wie Cloudflare auszuliefern. Hier kann die Verfügbarkeit stark erhöht werden, bei vergleichsweise geringen Kosten…

LG Fabian Friedli

Philip
Philip 18. Apr. 2013 13:35

Interessant wäre noch zu wissen, warum der Datencontainer beschädigt war. Gab es irgend einen Hardware Defekt? Wurde ein fehlerhafter Patch eingespielt? Und kann sporadisch der Datencontainer überprüft werden (analog einem Filesystem Check)?

Auch wäre natürlich sehr interessant zu wissen, wie der Stand der Analyse vom Teilausfall vom 28.2. ist. Ist die Abklärung beim Hersteller noch im Gang?

Philipp Zeder
Philipp Zeder cyon
19. Apr. 2013 09:31

Nach aktuellem Kenntnisstand wurde das Problem durch einen Bug in der Steuersoftware verursacht. Die Ursache ist aber noch nicht restlos geklärt.

Die Ursache des Teilausfalls vom 28.2. ist weiterhin beim Hersteller in Abklärung.

Jacques
Jacques 18. Apr. 2013 12:42

Ganz herzlichen Dank und ein riesen Lob von meiner Seite an das gesamte Cyon Team! Natürlich ärgert es, wenn die Server ausfallen und meine Websites nicht erreichbar sind. Natürlich ist ein Ausfall der Mails über mehrere Stunden sehr hinderlich.

Und doch bin ich froh, diesen Hoster gewählt zu haben. Ausfälle gibt es nun mal, selbst bei den Grössten und “Besten”. Doch die Transparenz und Ehrlichkeit, mit welcher hier mit den Kunden kommuniziert wird ist vorbildlich! Lieber mal einen Ausfall mehr, dafür zuverlässig Informationen bekommen, als nur oberflächliche Informationen zu bekommen.

Stef
Stef 18. Apr. 2013 12:37

Danke für den ausführlichen Bericht. Ich bin froh, konnte das Problem erkannt und behoben werden, welches zum Absturz führte.

Natürlich war es auch für mich ärgerlich, dass meine Seite(n) nicht erreichbar waren, aber dies kann halt passieren. Wichtig ist, dass das Selbe einfach kein zweites Mal passiert. Es geht weiter, vorwärts schauen… passiert ist passiert….

Ansonsten bin ich mit Cyon sehr zufrieden und möchte mich an dieser Stelle für den freundlichen Support bedanken.

Martin
Martin 18. Apr. 2013 12:17

Vielen Dank für den Bericht!

«Zudem werden wir Besuchern von betroffenen Websites im Notfall eine verständliche Fehlermeldung anzeigen können, die Hinweise auf die Erreichbarkeit des Servers beinhaltet.»

Wird diese Meldung konfigurierbar und deaktivierbar sein? Eine einheitliche Meldung auf allen Seiten unter einer Domain kann sich bei Google und Co. schädlich auswirken …

Im Zusammenhang mit dem Ausfall ist mir aufgefallen, dass viele Benutzer meinten, sie könnten sich einen solchen Ausfall nicht leisten. Für jene dieser Benutzer, die sich (mehr) Redundanz leisten möchten, was gibt es für Möglichkeiten?

Für E-Mail kenne ich eine für Cyon-Benutzer einfache Möglichkeit, sofern sie Gmail nutzen möchten: Man kann problemlos bei Cyon eine Website hosten und die E-Mail via Google Apps for Business laufen lassen. Gmail ist äusserst zuverlässig, jedenfalls zuverlässiger als E-Mail via Cyon. Das ist noch keine Redundanz und auch Gmail kann ausfallen, aber im letzten Jahr beispielsweise war die Uptime nahe bei 100%. Nachteil ist allerdings, dass sowohl Anbieter als auch die eigenen Daten dann im Ausland beheimatet sind …

Philipp Zeder
Philipp Zeder cyon
18. Apr. 2013 14:13

Wird diese Meldung konfigurierbar und deaktivierbar sein? Eine einheitliche Meldung auf allen Seiten unter einer Domain kann sich bei Google und Co. schädlich auswirken …

Diese Meldung wird nicht individuell konfigurierbar sein. Im Hinblick auf Google und Co. gibt es aber einen entsprechenden HTTP-Statuscode (503), der Maschinen mitteilt, dass die Seite temporär nicht verfügbar ist. Diesen werden wir mit der Meldung mitgeben. So wird es zu keinen Problemen mit Suchmaschinen kommen.

Im Zusammenhang mit dem Ausfall ist mir aufgefallen, dass viele Benutzer meinten, sie könnten sich einen solchen Ausfall nicht leisten. Für jene dieser Benutzer, die sich (mehr) Redundanz leisten möchten, was gibt es für Möglichkeiten?

Grundsätzlich bieten unsere neuen Cloudserver Funktionen wie automatisches Failover, was diese hochverfügbar macht. Aber auch die Cloudserver sind Teil unserer Infrastruktur und sind so unter Umständen von technischen Problemen betroffen.

Wie Du bereits mit Google Apps vorschlägst, wird meiner Meinung nach mit der Verteilung von Diensten auf verschiedene Anbieter die beste Redundanz erreicht und vor allem das Klumpenrisiko minimiert. Aber auch hier gibt es Argumente wie der Standort im Ausland oder die erhöhte Komplexität, die gegeneinander abgewogen werden müssen.

Stefan
Stefan 18. Apr. 2013 13:56

Zumindest heute wird die uptime von Google schlechter sein als diese von cyon ;-)
Solange der DNS von cyon funktioniert ist die Lösung mit GMail gut, aber auch der könnte mal Ausfallen. Wenn man als Kunde die uptime- Sicherheit erhöhen will, muss man technisches Wissen und viel Geld haben… Ich bin mir aber sicher, dass cyon diese Probleme bald in den Griff kriegt, und solche Aussfälle nicht mehr passieren werden.

Fabian Birrer
Fabian Birrer 18. Apr. 2013 13:36

Wow! Gratulation! Cyon hat wieder mal gezeigt, wie gute Kommunikation bei Serverstörungen aussehen sollte.

Bei anderen Hosting-Dienstleistern ist leider nicht dasselbe Bewusstsein vorhanden. Ich hatte z.B. mal zufällig entdeckt, dass unsere Website bei einem anderen Dienstleister gehackt worden war. Der ganze Shared-Server war betroffen. Ich war der erste, der was gemerkt & gemeldet hat. Dann wurde versprochen, es werde später informiert … Ich habe nix mehr gehört & andere Kunden auf dem SharedServer, die selbst nix gemerkt haben, wurden wohl nie informiert, dass jemand an ihren Daten war …

Pascal Müller
Pascal Müller 18. Apr. 2013 13:13

Zum Thema Gmail: seit gestern Nachmittag bis heute Vormittag war der Google Apps Dienst fast durchwegs nicht mehr erreichbar. Das zeigt, dass auch bei Google mal die Stricke reissen können…

Martin
Martin 18. Apr. 2013 13:48

@Pascal Müller:

In dieser Hinsicht sollte man Fakten zählen lassen und sich nicht an Anekdoten orientieren. Wer bei den letzten Cyon-Ausfällen seine E-Mail über Gmail laufen liess, konnte seine E-Mail weiterhin vollumfänglich nutzen und es gingen auch keine E-Mails verloren.

Google garantiert eine Uptime von 99.9%. Bei geringerer Uptime gibt es automatisch eine Entschädigung. 2012 lag die Uptime von Gmail bei 99.983%.

Ich halte Cyon für einen sehr guten Hoster für Websites, gerade auch das neue Control Panel ist einzigartig. Für E-Mail hingegen sind andere Anbieter, insbesondere Gmail, meiner Meinung nach besser geeignet, beispielsweise auch im Bezug auf das Filtern von Spam. Und Cyon ist ja so freundlich und erlaubt im Control Panel das komfortable Einrichten von E-Mail via Google.

Aber ja, mit Ausfällen ist überall zu rechnen, aber nicht überall mit gleich viel Ausfällen. Wer beispielsweise Office 365 nutzte, musste mit einer Uptime von lediglich 97.929% leben …

Pascal Müller
Pascal Müller 18. Apr. 2013 14:18

@Martin

ich bin ganz Ihrer Meinung. Wir haben unsere Website auch bei Cyon gehostet und die Mails bei Google. Ich bin von beiden Anbietern überzeugt. Ich wollte damit nur sagen, dass Ausfälle überall passieren können. Egal ob bei Cyon oder Google. Damit müssen wir in unserer Digitalen Welt nun einfach mal leben.