Bericht zur Störung vom 10. April
Philipp Zeder
Kategorie:in
Über cyon
Veröffentlicht am 18. Apr. 2013
Aktualisiert am 3. Juni 2021
Am letzten Mittwoch, den 10.04.2013, war ein Teil unserer Kunden von einem erneuten Ausfall betroffen. Ab 03:11 Uhr waren unsere Server 30, 32, 34, 36, 38 und 42 nicht mehr erreichbar.
Unsere sofort alarmierten Techniker machten sich nach einer ersten Situationsanalyse auf den Weg in unser Rechenzentrum, um das Problem vor Ort zu beheben.
Schnell wurde klar, dass die Probleme zwar in Verbindung mit unserem Storage-System standen, es sich aber um eine andere Ursache als beim Ausfall vom 1. März handelte.
Solche Ausfälle auf der Ebene des Storage-Systems sind höchst unwahrscheinlich, wie uns auch die beigezogenen Experten immer wieder bestätigten. Das System ist redundant ausgelegt und mehrfach gegen Ausfälle gesichert.
Während der schrittweisen Wiederaufschaltung der einzelnen Server stellten wir fest, dass das Problem in Zusammenhang mit unserem Server 34 stand. Dessen Aufschaltung führte nämlich sowohl auf unserem Primärsystem, als auch auf dem Notfallsystem zum Absturz des gesamten Systems.
Die Ursache konnte also eingegrenzt werden und ab 10:20 Uhr waren sämtliche Server, mit Ausnahme von Server 34, wieder normal erreichbar.
Fehlersuche auf Server 34
Nun galt es, auch Server 34 so schnell als möglich wieder ans Netz zu bringen. Erste Versuche, die Daten für Server 34 mit einem Ersatzserver zu verbinden, scheiterten jedoch.
Vom Einspielen eines Backups sahen wir zu diesem Zeitpunkt ab, da nicht ausgeschlossen werden konnte, dass auch die Daten aus dem Backup den Fehler verursachen würden. Ausserdem wollten wir einen Datenverlust verhindern.
Kurz nach 17:00 Uhr folgte dann ein erster Lichtblick. Unsere Techniker, wie auch die seit dem frühen Morgen eingeschalteten Spezialisten des Storage-Herstellers, konnten den Grund für das Nichtfunktionieren von Server 34 ausmachen. Der Datencontainer, also quasi das Gefäss in dem sich die Daten von Server 34 befinden, war beschädigt.
Sofort wurde die Einspielung des letzten Backups gestartet. Da aber noch immer nicht ganz ausgeschlossen werden konnte, dass dies wiederum zum Absturz des Systems führen würde, erfolgte die Einspielung auf unser sekundäres System. Dieses System kommt im Normalfall für die Speicherung unserer Backups zum Einsatz.
Um 19:24 Uhr erlösten uns unsere Techniker mit der Erfolgsmeldung “Server 34 wieder erreichbar“. Die Analysen waren also korrekt, der beschädigte Datencontainer war das verursachende Übel.
Unsere Massnahmen
Bereits seit dem Ausfall vom 1. März sind wir daran, zusätzliche Lösungen zu implementieren, die solche Ausfälle abfedern sollen.
Konkret handelt es sich auf der technischen Seite um die Erweiterung unseres Disaster-Recovery-Systems. Dieses System ermöglicht es uns, bei einem Ausfall innert kürzester Frist ein Backup aufzuschalten, welches nur wenige Minuten alt ist. Wir rechnen damit, das erweiterte System in ca. vier bis sechs Wochen in Betrieb nehmen zu können.
Zudem werden wir Besuchern von betroffenen Websites im Notfall eine verständliche Fehlermeldung anzeigen können, die Hinweise auf die Erreichbarkeit des Servers beinhaltet.
Wir können nicht hundertprozentig garantieren, dass ein solcher Ausfall nie wieder eintreffen wird. Wir versprechen aber, alle notwendigen Schritte zu unternehmen, um so ein Szenario in Zukunft verhindern zu können.
Ihre Fragen
Antworten auf einige häufig gestellte Fragen finden Sie in unserem Bericht zum Teilausfall vom 1. März.
Wenn Sie weitere Fragen haben, hinterlassen Sie uns einfach einen Kommentar, schreiben Sie uns eine E-Mail oder rufen Sie uns kostenlos unter 0800 840 840 an. Wir möchten Ihre Fragen lückenlos beantworten.
Beteilige dich an der Diskussion
27 Kommentare
Das dürfte einen anderen Grund haben. Schreib uns doch bitte eine Mail mit den Eckdaten, dann schauen wir uns das Problem genauer an.
Danke für den Bericht.
Es macht ersichtlich weshalb nicht schon früher ein Plan B aufgeschaltet werden konnte und wie vorgegangen wurde. Technik und Menschen machen Fehler. Es entscheiden deshalb nicht die Fehler, sondern der Umgang damit.
Die Alternative mit GMail soll jeder für sich selbst entscheiden. Lobenswert finde ich die Bemühungen von Cyon einen Datenverlust mit allen Mitteln zu verhindern. Dass man für dieses bisschen Service auch ein bisschen etwas bezahlt, sollte eigentlich jedem einleuchten.
Ihr braucht euch wirklich keine Sorgen zu machen. Alle Webhoster, bei denen ich je war, hatten Ausfälle, egal ob groß oder klein, günstig oder teuer. Löblich ist, dass ihr euch um solche Ausfälle schnell kümmert und sie beseitigt. Dass ihr über das Ganze auch einen Report aufsetzt, ist mehr als guter Kundendienst. Weiter so!
Alles in allem hatten wir ja Glück; es geht auch schlimmer, wie das am Beispiel eines grossen Deutschen Providers zu erfahren war.
http://www.spiegel.de/netzwelt/tech/strato-panne-wir-machen-die-reinste-hoelle-durch-a-126274.html
Somit liebes cyon-Team noch einmal besten Dank für Eure Offenheit und die klare Kommunikation
Ausfälle können jederzeit bei jedem Hoster vorkommen. Das Kommunikationsmanagement, welches Cyon hier an den Tag gelegt hat, zeigte jedoch deutlich, wie man es vorbildlich macht:
Ich fühlte mich als betroffener Kunde jederzeit hinreichend über den Stand der Dinge informiert. Sicherlich sehen das andere anders… Ich kann mir vorstellen, dass es auch Leute gibt, die gerne einen Video-Livestream aus dem Serversaal hätten, bei dem sie dann den Technikern auf die Finger schauen können und überwachen können, dass auch ja an der Lösung des Problems gearbeitet wird und wehe, es geht mal jemand zur Beruhigung der Nerven einen Tee trinken oder an die frische Luft…
Große Unternehmen mit Millionen Kunden haben hier weniger den Schneid zu Problemfällen in solcher Detailtreue Stellung zu beziehen.
Kunden, die eine 100%-Verfügbarkeit verlangen, sollten daher mal überlegen, ob diese Leistung sich mit dem doch recht günstigen Preis, den Cyon bietet, vereinbaren lässt… oder ob Cyon hier nicht vielleicht der falsche Dienstleister wäre für die eigenen Anforderungen…
Es gibt ja immer noch die Alternative, einen eigenen Server im eigenen Rechenzentrum zu betreiben… wer sich mit dem Gedanken einmal beschäftigt hat, weiß aber, welche Kosten und Anforderungen hier gestellt sind und dass man das erst einmal leisten können muss…
Cyon: Macht weiter so! Ihr seid auf dem richtigen Weg!
Höchst ärgerlich der erneute Ausfall trotzdem bleibt ihr der bevorzugte Provider, weil Drumherum einfach alles stimmt.
Misslich ist halt einfach, in solchen Fällen kein Zeitfenster bis zur Wiederverfügbarkeit der Dienste zu erhalten; ist mir auch klar, dass das “nicht ganz einfach” ist, aber wenn ich im Tagesgeschäft vom E-Mail abhängig bin, muss ich mich irgendwann entscheiden, die Mitarbeiter nach Hause zu schicken oder zu Strafarbeiten wie “Aufräumen” Datenverzeichnisse und -Archiven zu verdonnern.
Was ich noch nicht ganz begriffen habe: warum waren auch andere Server betroffen, wenn der Datencontainer von Server 34 beschädigt war ? Sollte ich die Aussagen richtig interpretiert haben, dann hat doch jeder Server seinen eigenen Datencontainer ?
Ich verstehe das Problem mit dem Zeitfenster. Wir möchten einfach nicht Zeiten versprechen, die dann nicht eingehalten werden können. Sobald wir einigermassen verlässliche Zeitangaben machen können, werden diese jeweils sofort kommuniziert.
Was ich noch nicht ganz begriffen habe: warum waren auch andere Server betroffen, wenn der Datencontainer von Server 34 beschädigt war ? Sollte ich die Aussagen richtig interpretiert haben, dann hat doch jeder Server seinen eigenen Datencontainer ?
Das ist richtig, jeder Server hat seinen eigenen Datencontainer. In diesem Fall hat der defekte Datencontainer von Server 34 den zentralen Controller zum Absturz gebracht. Das automatische Failover auf den redundanten Controller hat dann funktioniert, der defekte Datencontainer brachte aber auch diesen zum Absturz. So hatte der defekte Datencontainer von Server 34 Einfluss auf andere Server.
Für mich als Kleinunternehmer mit einem Onlineshop der täglich von Hunderten Kunden und Gästen besucht wird, sind solche Ausfälle beinahe eine Katastrophe. Insbesondere da sie ausgerechnet im Zeitraum der in meiner Branche (Camping) üblichen Hochsaison passiert sind. Bissige Kommentare von Konkurrenten in Bezug auf “der hat dicht gemacht” u.a. sind mir zu Ohren gekommen.
Ausfälle dierser Art passieren überall, Gmail und Bluewin hatten meiner Meinung nach noch viel grössere Ausfälle. Nur können diesen Beiden auf Grund ihrer Grösse und (der Kohle) die Öffentlichkeit via Medien informieren, so dass auch der letzte im hintersten Teil des Landes weiss was Sache ist!
In dieser Hinsicht würde ich es begrüssen wenn Cyon “beim nächsten Mal” wenigstens einen Text auf die Erreichbarkeit der Servers einblenden würde, so dass Kunden und Gäste sehen, bzw. lesen können wo “der Wurm drinn ist”!
Mit der Dienstleistung und dem Support von Cyon bin ich aber sehr zufrieden, so dass ein Wechsel absolut kein Thema ist.
André, herzlichen Dank für Deinen Kommentar. Wir arbeiten bereits an einer Lösung, mit der es möglich sein wird, eine verständliche Fehlermeldung anzuzeigen.
Informationsmässig einmal mehr vorbildlich. Merci.
Zentrale Storage-Black-Boxen sind generell ein Problem, wenn Hochverfügbarkeit ein Thema ist – ausser man hat ein S/390 im Keller ;-) In der Theorie sind sie super schön, in der Praxis halten sie leider (nach meinen Erfahrungen) nicht, was sie versprechen. Das merkte Strato schon im Jahr 2001 (http://www.spiegel.de/netzwelt/tech/strato-panne-wir-machen-die-reinste-hoelle-durch-a-126274.html) – lange wars her.
Natürlich ist es sehr ärgerlich wenn Probleme auftreten beziehungsweise der Server down ist allerdings gibt es sozusagen immer ein erstes mal und meiner Meinung nach ist Cyon nach wie vor ungeschlagen und es liegt auch in ihrem Interesse Konflikte keine Chance zu geben … Trotz alle dem bin ich zufrieden und bleibe bei Cyon obwohl ich mir über ein Wechsel Gedanken gemacht habe ;-)
liebe cyonlerInnen
herzlichen dank für die immer sehr offene, rasche & transparente kommunikation. ich bin auf jeden fall mit eurem service sehr zufrieden & “shit happens”.
vielleicht ist es ja zwischendurch mal ganz gut nicht immer online zu sein bzw. erreichbar zu sein.
wünsche allen einen wunderbaren tag.
Herzlichen Dank für den Bericht. Cyon ist nach wie vor die Nummer 1 für mich. Abstürze passieren und gehören dazu.
Webseiten die unter WordPress oder anderen CMS/Blogs laufen, würde ich ein Cache-Control-Plugin empfehlen. So werden “Returning Visitors” schon besucht Seiten aus dem Cache laden. Das ist natürlich nicht zufriedenstellend.
Aber: Plugins wie das “W3 Total Cache” bieten auch an, den Content über ein Content Delivery Network oder Dienste wie Cloudflare auszuliefern. Hier kann die Verfügbarkeit stark erhöht werden, bei vergleichsweise geringen Kosten…
LG Fabian Friedli
Interessant wäre noch zu wissen, warum der Datencontainer beschädigt war. Gab es irgend einen Hardware Defekt? Wurde ein fehlerhafter Patch eingespielt? Und kann sporadisch der Datencontainer überprüft werden (analog einem Filesystem Check)?
Auch wäre natürlich sehr interessant zu wissen, wie der Stand der Analyse vom Teilausfall vom 28.2. ist. Ist die Abklärung beim Hersteller noch im Gang?
Nach aktuellem Kenntnisstand wurde das Problem durch einen Bug in der Steuersoftware verursacht. Die Ursache ist aber noch nicht restlos geklärt.
Die Ursache des Teilausfalls vom 28.2. ist weiterhin beim Hersteller in Abklärung.
Ganz herzlichen Dank und ein riesen Lob von meiner Seite an das gesamte Cyon Team! Natürlich ärgert es, wenn die Server ausfallen und meine Websites nicht erreichbar sind. Natürlich ist ein Ausfall der Mails über mehrere Stunden sehr hinderlich.
Und doch bin ich froh, diesen Hoster gewählt zu haben. Ausfälle gibt es nun mal, selbst bei den Grössten und “Besten”. Doch die Transparenz und Ehrlichkeit, mit welcher hier mit den Kunden kommuniziert wird ist vorbildlich! Lieber mal einen Ausfall mehr, dafür zuverlässig Informationen bekommen, als nur oberflächliche Informationen zu bekommen.
Danke für den ausführlichen Bericht. Ich bin froh, konnte das Problem erkannt und behoben werden, welches zum Absturz führte.
Natürlich war es auch für mich ärgerlich, dass meine Seite(n) nicht erreichbar waren, aber dies kann halt passieren. Wichtig ist, dass das Selbe einfach kein zweites Mal passiert. Es geht weiter, vorwärts schauen… passiert ist passiert….
Ansonsten bin ich mit Cyon sehr zufrieden und möchte mich an dieser Stelle für den freundlichen Support bedanken.
Vielen Dank für den Bericht!
«Zudem werden wir Besuchern von betroffenen Websites im Notfall eine verständliche Fehlermeldung anzeigen können, die Hinweise auf die Erreichbarkeit des Servers beinhaltet.»
Wird diese Meldung konfigurierbar und deaktivierbar sein? Eine einheitliche Meldung auf allen Seiten unter einer Domain kann sich bei Google und Co. schädlich auswirken …
Im Zusammenhang mit dem Ausfall ist mir aufgefallen, dass viele Benutzer meinten, sie könnten sich einen solchen Ausfall nicht leisten. Für jene dieser Benutzer, die sich (mehr) Redundanz leisten möchten, was gibt es für Möglichkeiten?
Für E-Mail kenne ich eine für Cyon-Benutzer einfache Möglichkeit, sofern sie Gmail nutzen möchten: Man kann problemlos bei Cyon eine Website hosten und die E-Mail via Google Apps for Business laufen lassen. Gmail ist äusserst zuverlässig, jedenfalls zuverlässiger als E-Mail via Cyon. Das ist noch keine Redundanz und auch Gmail kann ausfallen, aber im letzten Jahr beispielsweise war die Uptime nahe bei 100%. Nachteil ist allerdings, dass sowohl Anbieter als auch die eigenen Daten dann im Ausland beheimatet sind …
Wird diese Meldung konfigurierbar und deaktivierbar sein? Eine einheitliche Meldung auf allen Seiten unter einer Domain kann sich bei Google und Co. schädlich auswirken …
Diese Meldung wird nicht individuell konfigurierbar sein. Im Hinblick auf Google und Co. gibt es aber einen entsprechenden HTTP-Statuscode (503), der Maschinen mitteilt, dass die Seite temporär nicht verfügbar ist. Diesen werden wir mit der Meldung mitgeben. So wird es zu keinen Problemen mit Suchmaschinen kommen.
Im Zusammenhang mit dem Ausfall ist mir aufgefallen, dass viele Benutzer meinten, sie könnten sich einen solchen Ausfall nicht leisten. Für jene dieser Benutzer, die sich (mehr) Redundanz leisten möchten, was gibt es für Möglichkeiten?
Grundsätzlich bieten unsere neuen Cloudserver Funktionen wie automatisches Failover, was diese hochverfügbar macht. Aber auch die Cloudserver sind Teil unserer Infrastruktur und sind so unter Umständen von technischen Problemen betroffen.
Wie Du bereits mit Google Apps vorschlägst, wird meiner Meinung nach mit der Verteilung von Diensten auf verschiedene Anbieter die beste Redundanz erreicht und vor allem das Klumpenrisiko minimiert. Aber auch hier gibt es Argumente wie der Standort im Ausland oder die erhöhte Komplexität, die gegeneinander abgewogen werden müssen.
Zumindest heute wird die uptime von Google schlechter sein als diese von cyon ;-)
Solange der DNS von cyon funktioniert ist die Lösung mit GMail gut, aber auch der könnte mal Ausfallen. Wenn man als Kunde die uptime- Sicherheit erhöhen will, muss man technisches Wissen und viel Geld haben… Ich bin mir aber sicher, dass cyon diese Probleme bald in den Griff kriegt, und solche Aussfälle nicht mehr passieren werden.
Wow! Gratulation! Cyon hat wieder mal gezeigt, wie gute Kommunikation bei Serverstörungen aussehen sollte.
Bei anderen Hosting-Dienstleistern ist leider nicht dasselbe Bewusstsein vorhanden. Ich hatte z.B. mal zufällig entdeckt, dass unsere Website bei einem anderen Dienstleister gehackt worden war. Der ganze Shared-Server war betroffen. Ich war der erste, der was gemerkt & gemeldet hat. Dann wurde versprochen, es werde später informiert … Ich habe nix mehr gehört & andere Kunden auf dem SharedServer, die selbst nix gemerkt haben, wurden wohl nie informiert, dass jemand an ihren Daten war …
Zum Thema Gmail: seit gestern Nachmittag bis heute Vormittag war der Google Apps Dienst fast durchwegs nicht mehr erreichbar. Das zeigt, dass auch bei Google mal die Stricke reissen können…
@Pascal Müller:
In dieser Hinsicht sollte man Fakten zählen lassen und sich nicht an Anekdoten orientieren. Wer bei den letzten Cyon-Ausfällen seine E-Mail über Gmail laufen liess, konnte seine E-Mail weiterhin vollumfänglich nutzen und es gingen auch keine E-Mails verloren.
Google garantiert eine Uptime von 99.9%. Bei geringerer Uptime gibt es automatisch eine Entschädigung. 2012 lag die Uptime von Gmail bei 99.983%.
Ich halte Cyon für einen sehr guten Hoster für Websites, gerade auch das neue Control Panel ist einzigartig. Für E-Mail hingegen sind andere Anbieter, insbesondere Gmail, meiner Meinung nach besser geeignet, beispielsweise auch im Bezug auf das Filtern von Spam. Und Cyon ist ja so freundlich und erlaubt im Control Panel das komfortable Einrichten von E-Mail via Google.
Aber ja, mit Ausfällen ist überall zu rechnen, aber nicht überall mit gleich viel Ausfällen. Wer beispielsweise Office 365 nutzte, musste mit einer Uptime von lediglich 97.929% leben …
@Martin
ich bin ganz Ihrer Meinung. Wir haben unsere Website auch bei Cyon gehostet und die Mails bei Google. Ich bin von beiden Anbietern überzeugt. Ich wollte damit nur sagen, dass Ausfälle überall passieren können. Egal ob bei Cyon oder Google. Damit müssen wir in unserer Digitalen Welt nun einfach mal leben.
Kann mich nur anschliessen. Ausgezeichnete, vorbildliche Informationskultur. Weiter so, hier ‘hoste’ ich gerne.
Kleine Frage noch: Google’s PageSpeed Test ‘passt’ die Antwortzeit des Servers (Medium priority) nicht. Long web server response times delay page loading. Reduce your response times to make your page load faster. Besteht evtl. ein Zusammenhang zum Ausfall?