Bericht zum Teilausfall der vergangenen Woche
David Burkardt
Kategorie:in
Über cyon
Veröffentlicht am 8. März 2013
Aktualisiert am 9. Mai 2022
Was ist passiert?
Am vergangenen Donnerstag, den 28.02.2013, kam es ab 18:00 Uhr zu einem Teilausfall unseres zentralen Storage-Systems. Rund 50% aller Server sowie weitere Dienste wie das my.cyon und das Webmail waren infolge dessen nicht mehr erreichbar. Die Störung konnte am darauffolgenden Morgen, den 01.03.2013, gegen 11:30 Uhr wieder behoben werden.
Auch wenn eine Verfügbarkeit von 100% in der realen Welt nicht existiert, gibt es für uns kaum etwas Schlimmeres, als eine solche Störung. Wir wissen, wie verheerend ein solcher Ausfall für unsere Kunden sein kann und entsprechend setzten wir unsere ganze Kraft ein, um das Problem raschestmöglich zu lösen.
In diesem Bericht möchten wir nebst dem technischen Hintergrund und den getroffenen Massnahmen auch auf häufige Fragen eingehen, die uns zum Ausfall erreicht haben.
Der technische Hintergrund
Grundsätzlich ist bei unserer Infrastruktur alles redundant ausgelegt, was redundant ausgelegt werden kann. Redundanz bedeutet, dass ein Ausfall einer bestimmten Komponente durch eine zweite Komponente aufgefangen wird. So verfügen wir beispielsweise über zwei getrennte (und USV-gestützte) Stromkreise, zwei Zuleitungen ins Internet, zwei Router, mehrere Switches, mehrere Netzteile etc.
Auch die vom Teilausfall betroffene Komponente, der zentrale Storage, ist redundant ausgelegt. Unsere Server speichern Daten nicht auf lokal verbaute Festplatten, sondern legen diese (über ebenfalls redundante Verkabelung) auf externe Festplatten ab, also auf ebengenannten Storage. Folgende Animation zeigt vereinfacht, was bei einem Ausfall eines sogenannten Controllers geschieht:
Dieser Failover hat sowohl bei den intensiven Tests vor Inbetriebnahme und auch schon im Livebetrieb tadellos funktioniert.
Am 28. Februar klappte das Ganze allerdings nicht wie gewünscht: Der ausfallende Controller A hat das Dateisystem beschädigt, weshalb Controller B nicht einspringen konnte:
Was tun wir, damit sich dieses Problem nicht wiederholt?
Zum aktuellen Zeitpunkt ist noch unklar, warum a) Controller A ausgefallen ist und b) warum dabei auch noch das Dateisystem beschädigt wurde. Der Fall ist beim Hersteller weiterhin in Abklärung.
Im Sinne einer zeitnahen Information zum Ausfall veröffentlichen wir diesen Bericht trotzdem schon heute und werden an dieser Stelle ein Update einfügen, sobald weitere Informationen vorliegen.
Update vom 17.05.2013: Gemäss dem Hersteller ist die Ursache weiterhin nicht restlos geklärt, da wir bislang die weltweit einzigen Kunden (!) sind, bei denen dieser Fehler aufgetreten ist. Daraus ergeben sich nur wenig Daten, die zur Problemanalyse verwendet werden können.
Häufige Fragen
Uns haben rund um die Panne eine Vielzahl an Fragen erreicht, welche wir gerne auch öffentlich beantworten:
Warum betreiben Sie die gesamte Infrastruktur nicht gespiegelt in einem zweiten Datacenter, damit man bei einem Ausfall einfach umschalten kann?
Dafür gibt es vor allem zwei Gründe:
- Es gibt keine Garantie, dass die Verfügbarkeit besser wird, wenn man einen zweiten Standort betreibt. Ein solches Setup erhöht auch die Komplexität und eröffnet neue potentielle Fehlerquellen. Als Beispiel kann Gmail herhalten: Die Infrastruktur ist über mehrere Rechenzentren verteilt und trotzdem ist die Uptime nicht bei 100%. Ein anderes aktuelles Beispiel ist Cloudflare: dieser Dienst soll die Verfügbarkeit von Websites erhöhen, ist über 23 Rechenzentren verteilt und hatte dennoch letzte Woche einen (wenn auch relativ kurzen) Ausfall (Quelle).
- Das Kosten-/Nutzenverhältnis ist ungenügend. Die Kosten für die hinteren Kommastellen bei der Verfügbarkeit nehmen exponentiell zu und müssen in einem vernünftigen Verhältnis zum Preis unserer Dienstleistung stehen.
Weiter wäre es nicht so, dass sich die Kosten für die doppelte Hardware “nur” verzweifachen, es kämen noch grosse Beträge für die Synchronisation zwischen den Standorten und das zusätzlich benötigte Engineering hinzu.
Trotz unseres Ausfalls von letzter Woche ist unsere Verfügbarkeit immer noch sehr hoch.
Die ungeplante Downtime aller Webserver beträgt in den letzten zwölf Monaten vor dem Ausfall weniger als eine Stunde, die Verfügbarkeit liegt also bei über 99.98%. Mit dem Ausfall sinkt dieser Wert auf den betroffenen Servern um 0.2% womit im Mittel ein Wert von über 99.88% resultiert.
Warum schalten Sie auf meiner Website keine Informationsseite auf, damit meine Besucher über den Ausfall informiert werden?
Das ist eine gute Idee und sofern unser Netzwerk noch funktioniert, technisch auch machbar. Ein Projekt zur Umsetzung ist bereits in Arbeit und kommt nach Fertigstellung auf unseren Notfall-Plan.
Ich wollte mit Ihnen persönlich über den Ausfall sprechen, doch es kam nur eine aufgezeichnete Nachricht, die über den Ausfall informiert. Warum?
Uns erreichen in einer solchen Situation hunderte Anrufe, wir würden also ein ganzes Heer benötigen, um alle persönlich zu beantworten. Besser als ein Besetzt-Zeichen ist aus unserer Sicht eine aufgezeichnete Nachricht mit Informationen zum aktuellen Stand.
Wie macht cyon eigentlich Backups?
Wir betreiben einen zweiten Storage, der sich räumlich getrennt in einer anderen Brandschutzzone befindet. Darauf werden mindestens einmal täglich alle Daten des primären Storage kopiert und wir behalten mehrere Versionen dieser Backups auf.
Warum spielen Sie nicht einfach ein Backup zurück?
Dafür gibt es zwei Gründe:
- Auch wenn das letzte Backup erst ein paar Minuten alt wäre, befinden sich auf dem primären Storage bereits wieder neuere Daten. Diese würden beim Zurückspielen eines Backups verloren gehen. Besonders unglücklich ist dies bei E-Mails: Geht in dieser Spanne eine E-Mail ein, die vor dem Einspielen eines Backups vom Empfänger nicht gelesen wurde, wird weder er noch der Absender jemals etwas davon erfahren.
- Das Einspielen eines Backups ist nicht innert ein paar Minuten erledigt, es müssen dabei sehr grosse Datenmengen kopiert werden.
Unser Backup ist also vor allem eine “Lebensversicherung”, wenn die Daten auf dem primären Storage unwiederbringlich verloren gehen sollten. Daten von gestern sind immer noch besser, als gar keine Daten.
Der Erhalt der Daten auf dem primären Storage hat aber immer höchste Priorität und die Wahrscheinlichkeit eines Verlustes ist dank vielen Redundanzen sehr klein.
Ich verliere viel Geld durch den Ausfall, dafür möchte ich eine Entschädigung.
Uns ist es völlig bewusst, dass unsere Kunden eine 100%ige Erreichbarkeit wünschen und wir arbeiten Tag für Tag daran, diesem Ziel möglichst nahe zu kommen. In diesem Geschäftsfeld ist die Erreichbarkeit schliesslich einer der wichtigsten Kennzahlen, mit denen jeder Hoster zu punkten versucht. Dass eine 100%ige Erreichbarkeit in der Praxis jedoch nicht existiert, ist leider eine Realität, mit der sich die gesamte Industrie abfinden muss.
Eine entsprechende 100%ige Garantie auf Verfügbarkeit können wir also aus Gründen der Machbarkeit nicht anbieten. Leider folgt daraus auch, dass wir auf Entschädigungsforderungen nicht eintreten können. Seien Sie aber versichert, dass uns die Erreichbarkeit unserer Dienste im eigenen Interesse sehr am Herzen liegt.
Wie sieht es eigentlich bei Ihnen im Büro während einem solchen Ausfall aus?
Das kommt immer etwas auf die Situation an. Findet der Ausfall während der Bürozeiten statt, herrscht eine etwas gedrückte, aber fokussierte und konzentrierte Atmosphäre. Jeder weiss wo er anpacken kann und wir geben all unsere Kräfte.
Da sich Pannen jedoch nicht an Öffnungszeiten halten, wird die Technik ab und an auch aus dem Bett gerissen. Es wird jeweils die Lage beurteilt und nach Notwendigkeit werden weitere Teammitglieder beigezogen, in unserem internen Chat ist dann Hochbetrieb.
Nicht selten rückt die Technik auch ins Rechenzentrum aus, um den “Brand” vor Ort zu löschen, falls dies ferngesteuert nicht möglich ist.
Besonders gefreut haben uns während des Ausfalls die auch zahlreichen positiven und ermutigenden Kommentare unserer Kunden – das ist in einer solchen Situation eine willkommene Unterstützung und zauberte manch Lächeln auf sonst müde Gesichter.
Zum Abschluss möchten wir uns erneut bei allen Betroffenen in aller Form entschuldigen. Vorfälle wie dieser bedeuten für uns das schlimmstmögliche Szenario und gehören sicherlich nicht zur Erfahrung, welche wir unseren Kunden je zumuten möchten.
Für Fragen und Anmerkungen, sei es via Kommentarfunktion als auch über die weiteren Kanäle, haben wir wie immer offene Augen und Ohren.
Beteilige dich an der Diskussion
91 Kommentare
Ja, die Störung ist seit gestern behoben. Wir rufen Dich kurz an, damit wir zusammen das Problem lösen können.
Angesichts der Tatsache, dass es heute wieder Probleme gab, warte ich noch gespannt auf das versprochene Update mit der Problemursache. Wisst ihr schon mehr?
Der Bug, welcher für das Problem verantwortlich war, konnte leider noch nicht gelöst werden. Deshalb haben wir dazu noch keine weiteren Informationen publiziert. Wir werden prüfen, ob der heutige Ausfall in irgendeiner Form mit dem angesprochenen Bug in Zusammenhang steh und wie versprochen ein Update liefern, sobald uns neue Informationen bekannt sind.
Super Service!
Wir als internationale Firma und auch alle, von uns angefragten, Kunden haben bei so einem gravierenden Vorfall, noch nie eine so transparente Informationspolitik betrieben.
Vielen Dank für das gute Vorbild.
bixx.ch AG
Hallo zusammen
Ihr seit einfach vorbildhaft.
Ich bin nicht Kunde bei euch aber wir verwenden auch N….p in der Firma.
PS: Nach eurem Ausfall ging es keine Woche dann hat N….p alle Systeme bei uns gepached! ;-) “>100TB”
Gruzz der Nachbar.
Obwohl bereits etwas langweilig, auch von mir ein Grosses Lob an das ganze Team von Cyon. Ich bin so ziemlich von Anfang an dabei und Cyon überzeugt mich noch immer voll und ganz.
Einiges habe ich aber jetzt auch gelernt:
1. Zweite mailadresse eintragen, damit ich vor meinen Kunden bemerke, dass wir “down” sind.
2. Die Idee einer Fehlerseite von Cyon finde ich ebenfalls gut, das würde auch mir etliche Anfragen von Kunden sparen.
3. habe ich gelesen, dass nur etwa 50% der Server betroffen waren; das wird ja auch die regel sein, dass nicht alle Server betroffen sein werden. deshalb meine Idee, meine wirklich wichtigen Domains auf verschiedenen Servern bei Cyon selbst zu “spiegeln”. Gibt es irgendwo eine Serverübersicht und wie kann ich Einfluss auf die Serverauswahl nehmen?
Aber wie bereits geschrieben: Ich bin froh, Cyon gefunden zu haben und danke allen für die hervorragende Arbeit.
Macht weiter so!
Wolf, danke für Deinen Kommentar. Zu Punkt 3: Wir können Dir leider nicht einen bestimmten Server garantieren, Du kannst also bei unseren Webhosting-Angeboten keinen Einfluss auf die Serverauswahl nehmen. Alternativ könntest Du einen unserer Cloudserver für die wichtigen Domains verwenden, bei dem Dir ein eigenes System zur Verfügung steht.
Um die Websites quasi “breit” abzustützen, würde ich den Einsatz eines Diensts wie Cloudflare empfehlen. So werden Deine Websites auf viele verschiedene Rechenzentren auf der ganzen Welt verteilt.
Auch mein Senf dazu noch: Wem dieser Service zu diesem Preis nicht reicht der sollte sich wirklich um ein anderes Hosting kümmern, was dann aber mindestens das 10-fache kosten dürfte. Ob’s dann aber wirklich besser ist wage ich ernsthaft zu bezweifeln, wir haben da so unsere Erfahrungen… Chapeau cyon!
Ich war zwar nicht betroffen, da ich sowieso erst seit ein paar Tagen Kunde von cyon bin. Nach dem Vergleich von etwa 12 Hosting-Anbietern, bin ich allerdings nun noch viel mehr davon überzeugt, dass mein Entscheid pro cyon absolut richtig war!
Gruss
Es kann nach vielen relativ reibungslosen Jahren ja passieren, dass so etwas passiert. Dass ihr uns nicht einmal eine symbolische Gutschrift für die lange Ausfallzeit und den damit verbundenen Umsatzeinbussungen von unserem Onlineshop gewährt, finden wir schade. Jedoch verdient jeder eine zweite Chance. Wir können uns jedoch keinen weiteren Ausfall dieser Art leisten.
Freundliche Grüsse, ihr langjahriger Kunde
Y.W Te
Ärgerlich mit Sicherheit, aber es handelt sich um Technik. 100 % gibt es nicht, man muss damit rechnen.
schliesse mich gerne dem überwiegenden tenor der kommentare an.
auch mich hat der ausfall nicht direkt betroffen, aber die kommunikation war beispielhaft und die detaillierte analyse festigt das vertrauen, das ohnehin über viele jahre des einwandfreien services stark fundiert und voll verdient ist.
ihr macht das hervorragend und dürft stolz sein auf das, was ihr als cyon.ch erreicht habt.
viel glück und weiterhin grossen erfolg und besten dank auch
sebastian
Cyon ist und bleibt der Vorzeige-Hosting-Service. Da könnten sehr viel grössere Hoster einiges davon lernen.
Wegen ein paar Stunden Downtime ist noch keine Firma bankrott gegangen oder ein Mensch gestorben! Wichtig in solchen Situationen ist die Kommunikation und die hat gestimmt! Weiter so cyon ;-)
Vielen herzlichen Dank für all die extrem motivierenden Kommentare. Wir sind überwältigt. Wie versprochen, werden wir weitere Informationen nachliefern, sobald sie uns zur Verfügung stehen.
Kann mich allen nur anschliessen. Ihr seid einfach die besten. Bester Service.
Erstklassiges Reagieren, immer noch mein Lieblings-Hoster der Schweiz.
Super Kommunikation und Vorgehen! Von Anfang bis zum Schluss erscheint mir ein transparentes, ehrliches und offenes Gegenüber, welches zwar nicht zaubern kann, aber dafür alles andere versucht um zu lernen, zu wachsen und besser zu werden. Mehr geht und verlange ich nicht. Weiter so!
Noch nicht lange Kundin aber jetzt schon total beeindruckt von euch – bravo cyon!!!
Der Ausfall war für mich kein Drama, da es sich um eine nichtkommerzielle Website handelt.
Die Information im Zusammenhang mit der Panne fand ich aber vorbildlich – Kompliment an das Team! Es ist schön, bei euch so gut aufgehoben zu sein.
Warum schalten Sie auf meiner Website keine Informationsseite auf, damit meine Besucher über den Ausfall informiert werden?
So ganz überzeugt mich das nicht: Der Inhalt würde dann vermutlich vom Browser gecached und von den Suchmaschinen aufgeschnappt. Ich glaube kaum, dass dies im Interesse der Kundschaft ist. Und dann habt ihr nicht nur böse Anrufe von euren direkten Kunden, sondern auch von deren Endkunden.
Eine separate Statusseite, ausserhalb des eigenen AS gehostet, würde für den Fall der Fälle ausreichen und wäre auch bei einem super GAU innerhalb von Cyon noch erreichbar. Gekoppelt mit der Möglichkeit, auf dieser Statusseite eine E-Mailbenachrichtigung oder einen RSS-Feed zu abonnieren oder – let’s go crazy – sogar eine RESTful Schnittstelle anzubieten, damit die Statusmeldungen automatisch abgeholt und an anderer Stelle eingebunden werden können: das wärs!
Dank dieser externen Seite könntet ihr auch bei einem Totalverlust noch mit euren Kunden kommunizieren, was in solchen Situationen wohl matchentscheidend ist.
Howdy
Alle Aussagen hier haben einen Konsens:
Cyon ist einfach gut. Punkt.
Daran ändert auch der Ausfall nichts.
Suchmaschinen-Index:
Ja, man kann rausfallen, aber ich glaube nicht unter 24 Stunden.
Da braucht es schon länger:
http://productforums.google.com/forum/m/#!topic/webmaster-de/QplpgBmhP5A
Gruss an das ganze Cyon-Team.
Wie cyon in dieser Angelegenheit kommuniziert, bietet sich als Vorzeigebeispiel an für gelungene Kommunikation über alle Kanäle und untermauert unser Vertrauen in dieses Unternehmen. Chapeau!
Geschätzes Cyon Team
IT ist nie 100%. Wie Ihr jedoch diesen Störungsfall bearbeitet und kommuniziert habt ist wirklich 1A-TOP. Vorher dachte ich, ich hätte einen excellenten WEB-Provider; heute weiss ich das dies stimmt. Der Ausfall war für Euch sicher eine Herausforderung, jedoch habt Ihr durch die ganze Handhabung an Vertrauen gewonnen. Gerne empfehle ich Eure Leistung mit gutem Wissen weiter.
Herzlichen Dank.
Markus Wolf
alenavita.ch
Danke für die offene und rasche Information. Absolut vorbildlich, diese Transparenz! Eine Verfügbarkeit von 100% ist Theorie, und ich glaube, Ihr legt Euch jeden Tag mächtig ins Zeug, um für Eure Hosting-Kunden das Maximum herauszuholen. Macht weiter so; ich empfehle Euch mit Überzeugung weiter.
Es ist nicht die Frage ob die Technik ausfällt sondern wann Sie ausfällt.
Jeder der im Gebiet von IT arbeitet weiss das es immer wieder zu Ausfällen kommt. Auch im Privaten kann der Computer ausfallen… die wenigsten haben gleich einen Zweiten zur Hand und dann auch noch ein aktuelles Backup….
Ich selbst “durfte” (oder musste) den Support von Cyon auch schon belästigen weil ICH einen falschen klick gemacht hatte…. Der Cyon Support ist einfach das beste was ich bisher erlebte. Bitte macht weiter so. Es ist für mein Forum zwar auch wichtig das es gut erreichbar ist, aber 100% zu eine X-fachen Preis muss es nicht sein.
Ach ja, die Weiterleitung auf eine Fehlerseite würde ich auch begrüssen, den gerade ein Forum würde die User gerne Informieren und in der heutigen Zeit wo User viele Mails einfach als Spam behandeln würde ich eine solche Infoseite als sehr gut empfinden.
Gruss von einem 99,999999% (eben wegen der Infoseite minus 0.000001% ;-) ) zufriedenen Kunden.
Dieses Mal war ich vom Ausfall nicht betroffen (man darf auch mal Glück haben…). Die Kommunikation war aber einmal mehr ausgezeichnet.
Ich unterstütze die Idee einer Umleitung zu einer Seite, welche die Besucher über ein technisches Problem informieren. Damit blieben auch mir einige Mails und Telefone erspart.
Dass ihr auch in so einer heiklen Situation so transparent bleibt macht für mich den Cyon Stil aus. Weiter so!
Danke für die schnellen Infos! Wir überleben auch solche Pannen,daran stirbt keiner! Wer in der Schweiz reklamiert, tut das meist auf sehr hohem Niveau!
Auch von meiner Seite ein herzliches Dankeschön für die tolle Kommunikation über Twitter. Danke für die Nachtschicht und toll das alles wieder wie geplant läuft.
Ein kurzer Hinweis auf der Seite während eines Ausfalls ist sehr wünschenswert. Wobei wir ja nicht gleich den nächsten Gau heraufbeschwören wollen. :-)
Danke!
Mit steigender Komplexität, welche Redundanz zwingend mitsich bringt, steigt leider auch die Gefahr von nicht nachvollziehbarn Ausfällen.
Teilweise fraglich ob es dann trotz der komplexen (und redundanten) Umgebung passiert, oder gerade wegen der Komplexität.
Aber mal ehrlich, es gibt viele Firmen die für weitaus wichtigere Server das 10 a 50ig-fache bezahlen (oder mehr) und nicht mehr als 99.5% Verfügbarkeit garantiert haben. (Und diese 99.5% auch nur während den Betriebszeiten…). Also soll sich jeder der sich nun ärgert oder gar Schadenersatz fordert darüber freue , welch grandiose Verfügbarkeit und professionelle Kommunikation zu solch einen tiefen Preis erhält.
Von daher ein ehrliches Danke an Cyon!
Ps. Dass sich Techniker während der Problenlösung über Verständnis freuen kann ich allzugut verstehn. Ist es doch oftmals so, dass die supporter aufgrund der ganzen Statusberichte und Shareholderbriefings gar nicht mehr zur Problemlösung kommen..:
Die offene Kommunikationspolitik von Cyon ist einfach genial. Ich kenne kein anderes Unternehmen, welches derart offen und selbstkritisch mit Kritik bzw. Problemen umgeht. Einfach die Sache auf den Punkt gebracht. Keine unnötigen Ausreden, einfach Facts. Das ist Ehrlichkeit und schafft vertrauen.
Danke liebes Cyon Team, ich weiss euren Einsatz zu schätzen. Macht weiter so.
Hallo Cyon Team
Ihr seid wirklich die Besten! Vielen Dank für die offene, ehrliche Komunikation. Ich denke das ist einzigartig, und stärkt das Vertrauen zu Cyon sehr. Ich bin schon mehrere Jahre bei Cyon und von Anfang an immer 100% zufrieden.
Weiter so ! und viele Grüsse Dani
Die Technik kann versagen, das ist ärgerlich aber kann leider passieren. In einem solchen Fall ist Transparenz sehr wichtig. Und die war bei Euch vorbildlich.
Wir sind im Bereich Link Building tätig und folglich laufend auf den E-Mail Verkehr angewiesen. Gerade dafür sind wir für Euren super Service äusserst dankbar!
Ich wünsche dem ganzen Team weiterhin viel Erfolg und eine stabile Infrastruktur.
Die Ausnahme bestätigt die Regel…
Danke für die tolle Dienstleistung!
Hallo Zusamme
Ich muss Euch ausdrücklich loben….
Eure Offensive Art und Weise mit dem Problem umzugehen ist wirklich absolut Beispiellos. Ich bin seit 30 Jahren selbständig und in dieser Branche. In den letzten 10 Jahren ist Customer Care ein nicht existierender Begriff in der Branche. Ihr habt alles richtig gemacht. Euer Service ist wirklich super gut.
Beste Grüsse
Frank Rittershofer
Hallo Cyon-Team
War zwar nicht betroffen vom Ausfall (gehörte wohl zu den anderen 50%)
war aber über die Infopolitik wirklich begeistert.
So soll es sein. Bravo!
Ärgere mich heute noch, dass ich Cyon nicht früher kennenlernte.
Seis drum! Weiter so!
Hardware-Doppelung ist das einzig Wahre für gesunde Uptime. Ich entwickelte mit am CPU Board eines digitalen Telefonie-Switch-Node von Siemens. Die Verfügbarkeit musste 99.999% (kein Witz) betragen – also 1 Stunde Ausfall in 11 Jahren, bei Erdbeben bis Stärke 8 und Temperaturen von -40 bis +80 Grad. Wir schafften es mit Hardware-Doppelung, wobei uns der Aufbau der Vollsynchronisation von zwei identischen Boards in einem 6er Team 1 Jahr lang beschäftigt hielt (und das war nur die Hardware). Diese Zeiten sind vorbei – die daraus entstandenen Produktkosten sind keinem kompetitiven IT Anbieter der heutigen Zeit zuzumuten, und ich finde auch 99.88% Uptime einen sehr guten Wert.
Herzlichen Dank für die Infos, das ist Inegrität pur.
Ich schäze das sehr.
LG
Roger
Solches kann nun mal passieren! Wenn ihr mich nicht so toll informiert hättet, hätte ich wohl den Ausfall kaum bemerkt :)
Auf jeden fall hat mich Euer Angagement in dieser Sache sehr überzeugt. macht weiter so, bin mehr als zufrieden mit Cyon.
Kann mich nur anschliessen. Wichtig ist, nicht im dunkeln zu bleiben hinsichtlich Informationen. Gerade wenn man selber auch eigene Kunden bei euch hostet, ist es wichtig diesen Informationen geben zu können. Dies habt ihr super gemeistert. In dieser Hinsicht könnt ihr locker auch mit den ganz grossen Hostern wie Hetzner mithalten (wo selbst der CEO Abends um 23:30 noch im Forum aktiv ist und Kundenfragen bei einem Ausfall beantwortet). Besten Dank und Kompliment! PS: Ich denke bei 99.88% Uptime kann niemand ersthaft meckern.. Wenn das Business SO wichtig ist und massiv Geld auch bei kurzen Downtimes verloren geht, sollte man eh via Load-Balancing o.ä. bei mehreren Hostern die Web-Präsenz spiegeln – alles andere ist Verantwortungslos bzw. naiv.
Ich war nicht betriffen, dennoch schätze ich eure Transparenz und Erhrlichkeit gegenüber dem Kunden – das schafft Vertrauen. Andere Provider hätten das nicht so gemacht. Thumbs up!
Die Informationspolitik während der Störung war gut. Ich bleibe Kunde und Fan von Cyon und habe erst gerade heute wieder aktiv weiterempfohlen, wie ich das schon dutzendfach gemacht habe. Wenn ich das Haar in der Suppe suche, dann ist es, das Cyon im heutigen E-Mail schreibt “noch mal in aller Form entschuldigen”. Da muss ich etwas übersehen haben, das war heute die erste Entschuldigung, die mich auf jeglichen Kanälen erreicht hat. Zudem bleibt für mich immer noch eine zentrale Frage unbeantwortet: “Wieso hat es so lange gedauert, bis die Störung behoben werden konnte?” Das wirft zusätzliche Fragen auf: “Wurde dem Fehler wirklich höchste Priorität beigemessen?” und “wurde wirklich sofort alles menschlich mögliche unternommen, um die Fehler zu lokalisieren und zu beheben?”
Zu den lobenden Worten meinen Vorrednern, die gute Krisenkommunikation habe ich auch sehr geschätzt. Ich habe jedoch Mühe, jemanden zu loben, der mir, wenn auch vermutlich unverschuldet, einen enormen finanziellen Schaden zugefügt hat. Geschweige denn von der angekratzten Reputation durch den Ausfall.
Ich kann Ihnen versichern, die Aussage von Steffen trifft absolut zu. Ein solcher Ausfall gehört für uns in die Kategorie “Worst-Case” und dementsprechend setzen wir dann auch sämtliche verfügbaren Kräfte ein, um dem Problem schnellstmöglich Herr zu werden.
Ja, ich glaube übersehen ist der richtige Ausdruck!
Im ersten Mail von Cyon:
http://us1.campaign-archive2.com/?u=30acb02f491fa64d45277b7c7&id=bce465179f&e=d834b0f42e
Zitat: “Für die Unannehmlichkeiten möchten wir uns in aller Form bei Ihnen entschuldigen.”
“Wieso hat es so lange gedauert, …”
Ich erlaube mir mal einen Annahme (ohne nähere Cyon interne Kenntnisse):
Ein Storage-Ausfall trotz eines Failover-Systems ist definitiv einer der WorstCases in der IT!
Und wie gewohnt und geliebt, vom Service der Cyon, ist auch hier oben schon beschrieben “Warum spielen Sie nicht einfach ein Backup zurück?”:
… dass die Alternative des Backup-Restore wohl mehr Probleme verursacht hätte als die jetzt definitiv entstandene Ausfallzeit der Services …
“Wurde dem Fehler wirklich höchste Priorität beigemessen?”
“wurde wirklich sofort alles menschlich mögliche unternommen, um die Fehler zu lokalisieren und zu beheben?”
Es ist fast schon obsolet diese Fragen zu beantworten
oder überhaupt in irgend einer Form darauf einzugehen …
(jeder vernünftige IT-denkende Mensch weiss das in diesem Moment aber auch überhaupt garnichts im Umfeld der Cyon noch in irgend einer Form relevant ist ausser dieses Problem zu beheben!!! (“,)
Meine persönlich grösstes Fragezeichen an diesem Beitrag lieber
“betroffener Kunde”
(neben dem das Sie es für nicht nötig halten sich zu authentifizieren
https://de.wikipedia.org/wiki/Authentifizierung
“Ich habe jedoch Mühe, jemanden zu loben, der mir, wenn auch vermutlich unverschuldet, einen enormen finanziellen Schaden zugefügt hat. Geschweige denn von der angekratzten Reputation durch den Ausfall.”
Die Preise welche für den Service von Cyon bezahlt werden,
im Vergleich zur Verfügbarkeit (selbst mit diesem GAU) von 99.88%,
lassen keine auch nur annähernde Kritik am Service oder Geschäftsgebaren von Cyon zu!
Wenn Ihnen durch diesen 12-Stundenausfall
(verletzt Verträge mit 99.9% (“three nines”))
so viel finanzieller Schaden entstanden ist, dann sollten Sie vielleicht überlegen auf ein High-Availabilty System mit einem Dedicated-Server (99.999% (“five nines”)) bei einem anderen Hoster zu wechseln, welcher Sie locker mehrere Zehntausend Franken pro Jahr kostet (und durchrechnen ob Sie damit besser fahren) …
Reputation Hin oder Her!
Kritik an meinem Feedback nehme ich gerne entgegen!
Besten Gruss
Steffen Schnaufer
Lieber Steffen Schnauffer
Das mit der Entschuldigung habe ich tatsächlich übersehen. Das Haar in der Suppe muss ich zurück nehmen. Ihre Ausführungen zu meinen Fragen, erhöhen bei mir das Verständnis für den Ausfall. Danke dafür. Auch mein Techniker hat sich dahingehend geäussert. Für mich als Laie in diesem Bereich ist es wirklich einfach sehr schwierig nachvollziehbar und darum finde ich meine Fragen dazu auch legitim. Vielleicht äussert sich Cyon zu diesen Fragen noch selber.
Wie ich zu Beginn meines Beitrages geschrieben habe, bin ich Fan von Cyon und es ist der einzige Hoster in der Schweiz den ich aktiv und wirklich sehr oft empfehle, obschon ich noch mindestens 20 andere kenne. Ich bin mir auch sicher, das Cyon aus dem Vorfall ihre Lehren zieht, wie es kein zweiter tun würde. Für mich kam der Ausfall leider einfach zum dümmsten möglichen Zeitpunkt und das ist für mich extrem ärgerlich. Einen Tag früher oder später wäre alles halb so schlimm gewesen. Über möglichen verpassten Umsatz ist es jedoch sowieso müssig zu sprechen. Gerade weil es so dumm gelaufen ist für mich, möchte ich es vielleicht genauer verstehen als andere hier, was bei Cyon falsch gelaufen ist.
Wenn Sie lieber Steffen Schnauffer noch eine Kritik an Ihren Beitrag wünschen, dann habe ich noch eine für Sie. Ich musste Ihren Beitrag sehr genau durchlesen und gewisse Wörter online nachschlagen, dass ich einigermassen verstanden habe, was Sie meinen. Eigentlich könnte man alles auch mit deutschen Wörtern umschreiben, so dass es auch der „dümmste anzunehmende Benutzer“ versteht. Der genaue Grund für den möglicherweise entstandenen Schaden habe ich zwei Stunden nach dem alles wieder gelaufen ist, Cyon per E-Mail mitgeteilt und um Stellungnahme gebeten. Von einer Schadenersatzforderung meinerseits war nie die Rede. Ich weiss schon, dass das obsolet ist ;-)
Fehler bzw. Ausfälle können immer passieren, eine 100%ige Verfügbarkeit ist nicht möglich. Sofort nach dem Ausfall erfolgte eine offene, verständliche und rasche Kommunikation. Das ist nicht selbstverständlich und ein kundenorientiertes Verhalten. Weiter so!
Ich war zwar vom Ausfall nicht betroffen, aber trotzdem ist der Ausfall selbst und die Art wie damit umgegangen wurde für mich einer von 100er Gründen warum ich weiterhin treuer CyonKunde bleibe.
Respekt!
Besten Dank für eure klare Info! Ich schliesse mich den zahlreichen positiven Kommentaren hier an. Wer etwas mit IT zu tun hat, weiss das die 100% nicht zu erreichen sind. Ausserdem ist es immer auch ein Kosten-Nutzen Vergleich. Man sieht bei euch den persönlichen Einsatz. Immer wenn es Fragen oder Probleme gab, wird einem hervorragend und kompetent geholfen. Ich hoffe, Ihr seid weiterhin so unterwegs wie es bisher der Fall war.
@anonymous: danke für den spam…vermutlich stellen sie eher noch einen ein =D…
@cyon: wirklich ein grosses Lob an euch, Technik ist nun mal, was manchmal geht…und bei euch geht sie meistens =)!
Ihre Informationspolitik ist genial. Vielen Dank! Ich wusste von Anfang an über den Blog, was los war, so dass ich nie anrufen musste.
Mich interessiert eigentlich nur eines: Wer ist der Schuldige bzw. wie viele Mitarbeiter wurden auf Grund des Ausfalles entlassen?
Selbstverständlich wird niemand entlassen. Dies passt nicht zu unserer Unternehmenskultur und diese wird ja offensichtlich von unseren Kunden sehr geschätzt.
Das Interessiert wohl nur einen Anonymus..
Na hoffentlich niemand! Und falls Du das anders siehts, hoffe ich nur, das ich nie solche Kunden betreuen muss wie Dich.
+1
Sehr gute Informationspolitik! Ich habe schon krassere Ausfälle in der IT-Welt erlebt, jedoch noch nie eine so klare und transparente Analyse. Auch teile ich die Meinung von etlichen Personen, dass eine Hauptfehlerseite aufgeschaltet werden kann/soll. Das wäre dann in der, wie erwähnt sehr guten Information noch das Tüfpelchen auf dem i. D.h. nicht nur die Betreiber von Webseiten sondern auch die Besucher wären sofort informiert. Auf jeden Fall: Danke für den Bericht und macht weiter so!
Hallo zusammen
Eure Informationspolitik hat eine Auszeichnung verdient!
Es wurde nichts beschönigt oder totgeschwiegen. Das nenne ich vertrauensfördernde Transparenz!
Passieren kann immer etwas, da muss man durch.
Ein Lob auf Euer Team!
Mein Gott die Kunden sollen mal nicht anfangen zu flamen.
Macht euch keinen Kopf über die, die Rumheuler sind sowieso die welche als letztes zahlen.
Wir hatten mal ne Runde Internetausfall, x Anrufe à la “wir fordern so und so viel Schadenersatz für unseren Weinshop (laut DB 3 Bestellungen im letzten Jahr) usw.”.
Gut, 5 Rappen überwiesen, Shop gelöscht und SQL Daten per Post gesendet. ;)
Das Verhalten während einer schwierigen Situation sagt viel über die Qualität eures Unternehmens und der Mitarbeiter aus. Wir wissen die offene und ehrliche Kommunikation zu schätzen, sie hat unser Vertrauen in Cyon erhöht.
Macht weiter so!
Very few hosting services really care as much as you do!
Congratulations for your transparency and information …
Bravo .. weiter so!
Informationspolitik während dem Ausfall und danach (z.B. dieser Bericht) sind 1A! Danke Cyon Team.
Möchte mich ebenfalls für die vorbildhafte Kommunikation bedanken!
Ich finde es immer wieder sehr vorbildlich wie ihr auf Probleme reagiert. Die Kunden werden informiert und auf dem Laufenden gehalten. So muss es sein und so fällt es auch leicht Ausfälle zu verzeihen. Weiter so. Ausserdem bin ich auch sicher, dass ihr alles daran setzt, dass es nicht wieder zu dem Problem kommt.
Danke für den ausführlichen Bericht und die sofortige Information am Katastrophentag. Eure Reaktion war vorbildlich! Gratulation!
Wir haben auch Netapp Filer im Einsatz. Da hat der Failover auch schon nicht geklappt. Daher kann ich mit euch “mitfühlen”.
Eure Informationspolitik ist hervorragend.
Liebes Cyon Team, aus meiner Erfahrung weiss ich wie komplex solche Vorfälle sind. Ihr habt vorbildlich kommuniziert und so rasch wie möglich eine Lösung erarbeitet. Dafür danke ich Euch. Ein professionelles Lob an Euch alle. Macht weiter so!
Ich möchte mich den positiven Kommentaren anschliessen. Bin seit 6 Jahren bei Cyon und hatte bis heute nie den Eindruckt, dass die Jungs nicht kompetent und ihre Hardware nicht vom besten ist. Auch die Informationspolitik ist weit besser als bei den meisten anderen Providern (was sich – notabene – aber nicht inkrementell oder exponentiell auf den Preis niederschlägt .-) ).
Grosses Kompliment, mein Vertrauen ist nach wie vor ungetrübt!
P.S. bin seit 1967 in der IT dabei..
Ich schliesse mich dem Kommentar von Luca an; ich bin noch nicht lange Cyooohhn-Kunde. Aber der bisherig Support und das vorbildliche Verhalten bei diesem GAU bestätigen weiterhin meinen guten Eindruck. Fähler passieren immer :-)
Vielen Dank für die ausführlichen und ehrlichen Erläuterungen. Bin geradezu Stolz bei euch Kunde zu sein :)
Respect vor Eurer Infopolitik. Ich bin selber Informatiker und habe jahrelang IT-Infrastrukturen betreut. Aus Erfahrung kann ich also sagen dass ich Eure Situation verstehe. Wir sind bei Euch mit einigen Hosting-Kontos (Kunden) vertreten und sehr zufrieden. Wir ihr schon sagt, 100% Sicherheit gibt es nie (auch mit Redundanz nicht) . Ärgerlich ist es trotzdem (und auch wenig der Stolz wird angekrazt) aber hey, das sind die Geister (Technologie) die wir riefen…
Wir können cyon nur weiterempfehlen!
Vielen Dank für die vorbildliche Informationspolitik!
Mich hat dieser Ausfall zwar nicht spürbar getroffen, aber dennoch bin ich über die offene und zuvorkommende Kommunikation während des Krisenfalls sehr erfreut. Danke.
“Die Kosten für die hinteren Kommastellen bei der Verfügbarkeit nehmen inkrementell zu…”
Inkrementell? Oder doch Exponentiell? ;-)
Der Ausfall war schon happig. Auch ich teile die Meinung der guten Kommunikation.
Die Kosten nehmen auf jeden Fall nicht dekrementell ab ;). Exponentiell würde hier wohl auch passen.
robots.txt ;)
@patrick
Na toll, dann fliegt die Webseite gleich aus dem Index. ^^
Nein, wenns die Robots.txt-Seite nur bei der Fehlerseite gibt nicht
“Warum schalten Sie auf meiner Website keine Informationsseite auf, damit meine Besucher über den Ausfall informiert werden?”
Ich finde das eher eine schlechte Idee. Ich hab es lieber das meine Seite nicht erreichbar ist als wenn Google oder andere Suchmaschinen eine “falsche” Seite Indexieren.
dafür gibt es den status code 30 bei de rumleitung zb zu einer info seite. ich denke dass sich cyon damit auskennt ; )
Hut ab
für diesen offenen und ehrlichen bericht!
dass ich per mail auf die downtime noch vor meinen kunden aufmerksam gemacht wurde, war sehr angenehm für mich- so konnte ich kompetent und informiert die informationen, fie verfügbar waren weitergeben.
es wundert mich dass sich andere schweizer hoster (ich bin bei 3 weiteren kunde) an euch kein beispiel nehmen, sondern lieber den kopf einziehen….
daumen hoch und ein schulterklopfer ans team! giod job!
Ja, die Infomationspolitik war super! Für mich aber auch nur, weil ich noch auf cyon.ch kam, Twitter und FB hat. Dort wurde laufend informiert. Wer diese Voraussetzungen nicht hatte, wusste von nichts ;-)
Darum finde ich die Idee gut, bei allen Homepages automatisch eine Seite in so einem Fall aufzuschalten. Evt. wäre es auch möglich, die Seiteninhaber sowie die tech. Verantwortlichen, per Mail kurz zu informieren. Dabei würde es reichen, dann halt auf Twitter zu verweisen. Ist ja keine Sache, sich dort rasch anzumelden.
Ob das technisch machbar ist, weiss ich nicht. Diese Datenbank müsste dann wohl ganz wo anders gespeichert sein.
Hallo Bea
Wir informieren Halter und technische Verantwortliche bei Ausfällen auch per E-Mail. Du kannst dazu Statusmeldungen in Deinem my.cyon unter “Meine Daten” sowohl für Deine primäre als auch für die zusätzliche E-Mailadresse individuell abonnieren.
Ja das wäre dann wohl der Grund warum man bei der zweiten Adresse keine von einer Domain nehmen sollte, welche ebenfalls bei euch gehosted ist … ^^ Wir haben die E-Mails erhalten, sobald unsere Domain wieder erreichbar war. Aber informiert waren wir gut über Twitter & Facebook. Immerhin haben wir so sofort gemerkt, wann der Dienst wieder online war. :-)
@Carlos
Genau das war das Problem. Nützt alles nichts, wenn man da eine “Cyon” Mailadi drin hat :-))) Hab das jetzt geändert. Auch wir User können aus unseren “Fehler” ja was lernen :-D
Wir empfehlen auf jeden Fall die Angabe einer “externen” Adresse als Alternative. Wir werden aber in Zukunft versuchen, hierzu noch bessere Lösungen zu finden.
Oh, danke, wusste ich nicht. Werde ich gard machen :-D
@Luca. Gefällt mir
Ein solcher Issue sollte zwar nicht, kann aber trotzdem immer passieren. Für mich ist das Vertrauen in Cyon damit aber überhaupt nicht geschwächt. Im Gegenteil, die gute Informationpolitik seitens Cyon hat das Vertrauen eher noch gestärkt. Ich werde Cyon also nach wie vor wärmstens weiterempfehlen und bin froh, bei euch Kunde sein zu dürfen! Weiter so und Danke für den guten Service!
Die mit dem Ausfall verfolgte Informationspolitik (inkl. diesem detaillierten Bericht) wird das Vertrauen in Euch wohl kaum schwächen, im Gegenteil. Wie oft werden bei Anbietern die Probleme einfach unter den Tisch gekehrt. Auch wenn ein solcher Ausfall ärgerlich ist, keine Technik ist 100% ausfallsicher. Euer Vorgehen war aus meiner Sicht kompetent, transparent und fair.
Heute morgen funktioniert E-Mail und Webzugriffe nicht. Ist die Störung behoben? Statutsmeldung ….