Störung im Netz – der Bericht

← zurück zum Blog

Damit unsere Infrastruktur in unserem Datacenter nicht ganz alleine dasteht, muss diese mit dem Internet verbunden werden. Dies machen wir nicht selber, sondern greifen auf die Dienste unseres Carriers Init7 zurück. Init7 betreibt einen eigenen sogenannten Backbone, also ein eigenes Netz, das mit vielen weiteren Teilnehmern zusammengeschlossen ist und im Verbund das Internet darstellt.

Was ist passiert?

Heute Mittag kurz nach 12 Uhr passierte nun, was nicht passieren darf, aber dennoch nie ganz ausgeschlossen werden kann: Das Netzwerk von Init7 stürzte ab und wir waren von der Aussenwelt abgeschnitten. Schuld an diesem Unterbruch war offenbar menschliches Versagen — sobald genauere Informationen dazu vorliegen, werden wir in unserer Statusmeldung darüber berichten.

Neben all unseren Kunden waren auch weitere Hoster und andere Firmen wie zum Beispiel die Zürcher Blogwerk AG betroffen, welche zahlreiche beliebte und häufig gelesene Blogs betreibt.

Nach rund zwei Stunden konnte die Störung an gewissen Orten bereits wieder behoben werden, andere Knoten wie die Verbindung zu cyon konnten jedoch erst gegen 17:00 Uhr wieder hergestellt werden.

Was tun wir, damit sich dieses Szenario nicht wiederholt?

Es gibt eine Technologie mit dem Namen Multihoming, welche es ermöglicht, nicht nur über einen sondern über mehrere Carrier ins Internet zu gelangen.

Dieses Projekt haben wir bei cyon bereits vor einigen Wochen in Angriff genommen und eine fertig ausgearbeitete Lösung sowie die nötige Offerten liegen auf dem Papier bereit. In den kommenden Wochen und Monaten wird dieses Projekt nun fertig umgesetzt.

Auch mit Multihoming lässt sich kaum 100% ausschliessen, dass es in einem Netzwerk Probleme geben kann — zu komplex sind alle beteiligten Technologien und Systeme.
Was wir aber sicher sagen können: Sobald wir das Projekt fertig umgesetzt haben, ist die Wahrscheinlichkeit für einen solchen Ausfall noch einen Bruchteil so hoch.

Für die heute entstandenen Unannehmlichkeiten möchten wir uns bei allen Kunden und betroffenen Personen in aller Form entschuldigen! Wir sind froh, die richtigen Massnahmen bereits eingeleitet zu haben, auch wenn wir für den heutigen Tag noch nicht komplett gewappnet waren.

46 Kommentare

  1. Danke für die Transparenz. Auch für uns und unsere Kunden war das heute ärgerlich. Zum Glück gabs bis jetzt noch keine Reklamationen. Ich hoffe, dass dies nun der letzte Ausfall war. Natürlich sehe ich ein, dass Cyon selbst nichts dafür kann. Doch solche Ausfälle nagen halt trotzdem an der Leistung von euch. So sehe ich es als groben Fehler von Init7 an, dass es (nun schon mehrmals) zu Ausfällen gekommen ist. Denen würde ich sofort das Abo künden un zu einem zuverlässigeren Carrier wechseln.

  2. Man. Ich hatte schon die schlimmsten Befürchtungen. Cyon abgebrannt oder weiss ich was… Schön dass alles wieder lauft…

  3. Ich bedanke mich auch für die Transparenz und eine gute Idee, dass ihr nun auch zeitnah bei Twitter informiert. Das ist momentan fast meine Newsquelle #1.

  4. schön wäre zu wissen, ob e-Mails verloren gingen oder wann mit der Aus- bzw. Nachlieferung gerechnet werden darf?

  5. Ich frage mich, ob Emails verloren gingen während der Downtime? Wie schaut es diesbezüglich aus?

    lg

  6. E-Mails gingen während dem Ausfall nicht verloren. Diese wurden beim Absender zwischengespeichert und werden nun verzögert ausgeliefert.

    *Update:* Falls die Wartezeit der jeweiligen E-Mailwarteschlange auf unter fünf Stunden eingestellt war, gingen betroffene E-Mails mit einer Fehlermeldung wieder an den Absender zurück.

  7. Danke für den Twitter-Hinweis, Dave, das werde ich mir merken. Ärgerlich fand ich heute Nachmittag vor allem, niemanden erreichen zu können bei Cyon: die Leitung war dauernd belegt. Da wäre doch immerhin eine Tonband-Information hilfreich: Wir haben eine Panne etc. usf. So wussten wir gar nichts, hatten keine Ahnung, wie lange das dauern würde – und natürlich Reklamationen von unseren Kunden am Hals…

    Also bitte nicht nur technische Maßnahmen vorsehen, liebes Cyon-Team, sondern auch kommunikationsmäßig gerüstet sein für einen solchen Fall, das ersparte uns den ärgerlichsten Ärger ins solchen Stunden.

    Mails habe ich übrigens alle erhalten, es ging nichts verloren…

    Schön, dass nun alles wieder läuft, und schön ist Cyon trotz dieser Panne noch immer die absolut erste Wahl für uns! :-)

  8. Trotz allem ist Cyon der Beste Webhoster. Vielleicht sollte aber für eine solchen Fall eine externe Webseite verfügar sein um die Kunden umgehend informieren zu können…

  9. @Iwan Raschle: Wir haben heute Nachmittag 181 Telefonanrufe persönlich beantwortet – ein Vielfaches der sonst üblichen Menge.

    Leider können wir über unseren ISDN Anschluss nur 2 aktive Gespräche auf einmal führen – bis jetzt war dies mit Abstand ausreichend.
    Wir überlegen uns aber, was wir hier in Zukunft machen können. Zum Beispiel mehr parallele Leitungen mit einer Warteschleife und entsprechender Tonbandansage.

    Vielen Dank für das Feedback und die abschliessenden Komplimente!

  10. @Kuno: Danke :-) Wir haben auf die Schnelle http://twitter.com/cyonstatus eingerichtet.
    Wir werden in einer Nachbesprechung noch weitere Möglichkeiten prüfen.

  11. Ich bin froh, dass «Cyon» wieder am Internet hängt … und solange mein Hosting zu 99,9% der Zeit funktioniert, suche ich mir bei etwaigen kurzzeitigen Ausfällen wie heute Nachmittag andere Beschäftigungen – das Leben geht zum Glück auch ohne Hosting weiter! :)

  12. Tonband würde doch reichen (wobei zwei aktive Gespräche schon etwas knapp bemessen sind:-)), und ich war Euch auch nicht «böse», sondern habe mir sogar überlegt, was ich sagen sollte: jetzt rufe ich halt auch noch an… ein Tonband hätte Euch davor bewahrt, viele der 181 Anrufe entgegennehmen zu müssen…

    Twitter ist natürlich eine coole Idee, bloß wusste ich davon nichts. Soeben habe ich einen Link bei Google gefunden, und werde mich natürlich mal auf diesem Kanal auf dem laufenden halten.

    S chunnt scho guet, da habe ich keine Zweifel!

    Herzliche Grüße, iwan.

  13. OT: ist ha erstaundlich wie viele Namensvetter sich hier tummeln ;)

  14. Nun, der Ausfall ist bestimmt ärgerlich, jedoch kann dies halt mal passieren.

    Jedoch versuchte ich mich via cyon.ch vergeblich zu informieren über die Ursache. Klar dass Ihr eure Site selber Hostet, jedoch würde es doch Sinn machen die Seite aus zu lagern oder? Wenn Ihr also bei Provider XY cyon.ch laufen habt können die Kunden über einen Crash oder was auch immer inforiert werden. Oder sehe ich das falsch?

    Naja, ich wünsche Euch weiterhin alles gute und macht weiter so…(nicht wie heute :-)

    Gruss

  15. Das war schon ein Schreck.
    Wie schon am Telefon gesagt, es passiert alles mal was passieren kann.
    Kommuniziert weiterhin so offen und ehrlich und wir sind dann nicht nur Kunden, sondern auch Eure Partner.

    Liebe Grüsse
    Joachim

  16. Nur ein Carrier als Backbone sehe ich schon fast als grob fahrlässig an. Das ist schon seit Jahren nicht zeitgemäß.
    Und keine email-Info ist auch enttäuschend. Wozu gebe ich dann 2 Mailadressen an? Sorry aber das war recht schwach…

  17. Welcome back……

    Ungute Gefühle sind nach ca. 10 Minuten aufgetaucht.
    Bin dann auf Fehlersuche gegangen und habe gesehen das init7 auch down war, genau wie viele andere großen Seiten eurer Kunden.
    Daher dachte ich mir schon, daß irgendwo der Wurm steckt, was sich ja nun bestätigt hat.
    Es war zwar kein Wurm sondern ein Mensch, der wohl nun zur Schnecke gemacht wird.

    Ich bin froh ein Kundenpartner :-) von Cyon.ch zu sein.

    Macht weiter so.

    Grüße auf Germany

    Harry

  18. Das Emails nicht verloren gingen stimmt so leider nicht, wir haben Meldungen erhalten dass einige Mails zurückgingen, es kommt auf den Absender drauf an obs klappt oder nicht. Bin auf eine Antwort auf das Email gespannt…

  19. Das nicht alle Mails ausgeliefert wurden ist korrekt. Leider kamen etliche Mails nicht beim Empfänger an. Bei mir gingen z.B. alle wieder an den Absender zurück.

    Ausserdem empfinde ich die Informationen von Init7 bis jetzt sehr dürftig, wenn nicht fast zu sagen arrogant. Für einen menschlichen Fehler dürften sie schon gerade stehen.

  20. @Steinie:

    Nur ein Carrier als Backbone sehe ich schon fast als grob fahrlässig an. Das ist schon seit Jahren nicht zeitgemäß.

    … das interessiert mich – wie kommst Du zu dieser Aussage?

  21. @MacMacken

    – Jahrelange Arbeit in der IT
    – Sehr lange Erfahrung im Hostingumfeld
    – Ex-Firma hat auch Hosting angeboten.

    Kurz: aus Erfahrung. ;)

  22. Btw. ich finde es aber gut, dass nun etwas an der Situation gemacht wird. Nur sollte wie bereits erwähnt die Kundenkommunikation für Störungsfälle optimiert werden. Anonsten bin ich eigentlich schon zufrieden hier. ;)

  23. @Steinie: Unser Newslettersystem war ebenfalls betroffen… *Eigentor* ;-(
    Wir werden abgesehen vom Multihoming noch weitere Konsequenzen aus diesem Vorfall ziehen – eine extern gehostete Statusseite sowie ein extern gehostetes Newslettersystem wären beispielsweise zwei Projekte, die zur Diskussion stehen.

    @Dominic Lutz und @Matthias Hunn: Das ist korrekt, je nach vorgesehener Wartezeit in der E-Mailwarteschlang gehen E-Mails schon nach kurzer Zeit mit einer Fehlermeldung an den Absender zurück. So ist sichergestellt, dass eine E-Mail nicht unbemerkt und spurlos verschwindet. Ich werde meinen obigen Kommentar anpassen.

    @Alle: Viele Dank für die positiven Rückmeldungen!

  24. Also ich finde, ihr beschönigt das Ganze ziemlich. Ihr wart nicht „noch nicht“ vorbereitet, sondern überhaupt nicht, auch wenn ihr das Projekt schon angerissen habt. Die Hotline war ja auch überfordert.

    Ein Hostinggeschäft ohne Multihoming sollte es gar nicht geben, besonders nicht, wenn man bei einem Provider wie Init7 ist, der ja schon mehrfach komische Ausfälle hatte.

    Darauf zu verweisen, dass Blogwerk auch betroffen war, hilft auch nicht weiter, denn die hatten auch schon zu oft technische Probleme (wohl nicht ganz zufällig, sie sind auch bei Init7).

  25. Danke David.
    Naja hauptsache das Eigentor passiert nur einmal, sowas kann ja mal passieren, solange man draus lernt und was ändert. ;)

    Danke für die Offenheit und die Kritikfähigkeit. Hoffe die Projekte werden dann auch schnell umgesetzt. :)

  26. Merci für die transparante infomration und einrichten einer Statusseite die extern liegt.

    Sind ja zu Cycon gekommen weil wir bei einem nicht Transparenten Hoster waren der NIE Probleme hatte. Nur lief die halbe Zeit nichts……

    Da sind wir bei euch immer noch viel besser aufgehoben.

  27. Es muss unbedingt eine Lösung gefunden werden, wie in einem solchen krassen Fall die Kunden informiert werden könnten. Twitter ist eine Möglichkeit, wie wäre es mit einem PCTipp-Forum?

    Uns so banal finde ich das Ganze auch nicht. Kenne eine Anwaltskanzlei die bei euch Kunde ist, die sind fast durchgedreht. Für Geschäfte ist eine solcher Ausfall kaum akzeptabel!

  28. Hallo Cyon!
    Viel Erfolg beim Multihoming-Projekt! Wir hatten unseres Ende 08, und es hat sich gestern quasi komplett amortisiert ;-)
    Übrigens konnte dadurch der Ausfall nicht komplett verhindert werden, da die Init7-Leitung nicht komplett tot war, sondern noch ein bisschen „flackerte“, wodurch der entsprechende Router die Route als gut befand… tja!

    Für alle die hier rummotzen wie z.B. meine vorrednerin Bea lege ich cyon’s AGB ans Herzen:
    „5. Haftung durch cyon
    5.1 cyon kann für seine Dienstleistung keine Zusicherung oder Gewährleistung jeglicher Art aussprechen.
    cyon kann den ununterbrochenen Service, den Service zu einem bestimmten Zeitpunkt und die Qualität der gespeicherten oder übermittelten Daten nicht garantieren.“

    MfG

  29. Ja Manuel ich weiss. Aber selbst die Statusmeldung steht nicht mal auf tiefrot. Was bitte wäre dann ein ganz grosse Störung?

    Auch wenn wohl nichts 100-prozentig ist, bin ich sicher, dass es nun Kunden gibt, die umgehend kündigen, 5.1 hin oder her. Das Hauptproblem war wohl, dass niemand wusste was passiert war. Und das muss künftig geregelt werden!!!

  30. Ich versuche noch immer zu eruieren, welche meiner Mails von gestern tatsächlich noch die Empfänger erreicht haben. Leider hat der Server Nachrichten akzeptiert, die dann in der Folge wohl nicht ausgeliefert wurden. Sehr ärgerlich!

  31. Danke für die transparente Info. – Wobei, etwas bissig bemerkt, manchmal könnte man wirklich meinen die Welt breche zusammen.
    Wo ist das Problem, wenn einmal ein paar Stunden im www ein Ausfall zu verzeichnen ist?
    Wr machen uns alle viel zu wichtig, etwas Mässigung täte manchmal gut. – So und nun werde ich auf meinem neuen Notebook Win drabschmeissen und ein Linux installieren. ;-))

  32. Ohne hier Cyon im speziellen in Schutz nehmen zu wollen, Fact ist einfach: Wer einen hochgradig abgesicherten Internetauftritt haben will, ist bei Massenhostern nun mal nicht so gut aufgehoben. Erst recht nicht, wenn das Hosting ausfallsicher sein soll und dann gleichzeitig nur wenige Franken kosten soll.

    Und die von Bea genannte Anwaltskanzlei sollte sich vielleicht für die Homepage einfach einen eigenen Server kaufen und diesen in ein Colocation-Center reinstellen. Dann noch einen Multihoming-Vertrag machen und einen Mitarbeiter abstellen, der dafür sorgt, dass das System stets up-to-date ist und entsprechend gewartet wird. Kostet halt ein paar Tausender mehr. Schützt aber nicht zwingend vor jedem möglichen Ausfall.

    Und seien wir doch mal ehrlich: Ich hab‘ mich auch genervt, aber das kann nun einfach mal vorkommen. Nobodys perfekt – und das gilt erst recht für die Technik.

  33. Ihre Erreichbarkeit von gestern war zum schreien. Technische Probleme akzeptiert man, aber wenn Sie nicht wissen wo das Problem liegt, so ist dies kein Zustand.
    Unsere Kunden riefen uns an, dass ihre Mails nicht mehr gehen und auch die Web-Seite nicht mehr erreichbar sei. Mehrmals haben wir gestern auf die Telefonnummer der Cyon angerufen, die normale Nummer läutete zwar aber es nahm niemand den Hörer ab. Auf der kostenpflichtigen Nummer 0900er war dauern nur besetzt. Eine Lösung damit wir unsere Kunden informieren können, wird dringend benötigt. Wir hatten heute früh bei einem Kunden ein ADSL Ausfall, ein Telefon zum Provider und man bekam sofort die Auskunft, dass ein technischer Fehler beim Provider vorliegt. Diese Auskunft ist akzeptabel und der Kunde muss sich in Geduld üben.

  34. So, nun hat sich auch noch der Mailserver wieder synchronisiert und fehlende Mails von gestern nachträglich versandt. Scheint alles komplett zu sein :)

  35. Interessant ist dass ich nochmals ein Email bekommen hab wo nochmals versichert wurde dass keine Mails verloren gingen.

    Man kann ja versuchen es naiven Usern glaubhaft zu machen wenn man es nur genug oft sagt…

  36. Wie schaut denn der Horizont bzw. die Deadline für die Umsetzung für Multihoming aus? Sollte doch in einem Projekt definiert sein… ;-)
    Besonders nach so einem Zwischenfall sollte es ja nun umso schneller vorangetrieben werden. Wie ist hier der genaue Plan, bzw. das anvisierte Datum?

  37. Die transparenz ist das wichtig.
    Leider habe ich mit init7 fürher schon oft probleme … schade das cyon sich davon nicht löst.

    wie wäre es mit einem SMS Service für die Kunden?
    via MNC (939) könnte ich so was einfach einrichten. die Kunden zahlen … erhalten aber soffort einen Status den Cyon veröffentlich?

    info@regiokalender.ch
    Pascal

  38. Ich habe mich gestern auch genervt und hatte einige unangenehme Telefonate mit Kunden, die sich über den Ausfall beschwerten. Müssig zu sagen, dass das nicht passieren sollte – da sind sich wohl alle einig. Ich bin daher einigermassen beruhigt zu lesen, dass Cyon bereits an entsprechenden Verbesserungen arbeitet. Ich würde mir jedoch, wie offenbar viele hier ebenfalls, eine bessere Information in solchen Fällen wünschen. Dass nichts geht ist unangenehm. Dass nichts geht und man nicht weiss warum ist aber noch deutlich unangenehmer.

    Allerdings muss ich fairerweise auch sagen, dass ich auch schon wesentlich schlimmeres erlebt habe – bei grösseren und bekannteren Providern. Ich denke da z.B. an den Totalausfall bei Hostpoint vor zwei oder drei Jahren bei dem drei Tage (!) alles offline war. Das war definitiv eine Katastrophe.

  39. Merci für die transparente Information. Ärgern tut ein solcher Fall immer, aus eigener Berufserfahrung weiss ich aber, dass trotz aller getroffenen Massnahmen nie eine 100% Sicherheit garantiert werden kann. Die angesprochenen Massnahmen sind sicher sinnvoll.
    Am meisten geärgert hat mich die fehlende Information. Eine externe Seite zu schalten ist sicher eine Möglichkeit die etwas bringt. Ich wünschte mir aber eine etwas proaktivere Lösung, wie wäre es z. Bsp. mit einem SMS-Service?
    Insgesamt bin ich mit dem Service sehr zufrieden und kann Cyon immer noch vorbehaltlos weiter empfehlen – macht weiter so!

  40. @Steinie: Ein definitves Datum für Multihoming ist noch nicht gesetzt. Wir streben Sommer 2009 an.

    @Pascal Steck und @rif: Klar, die Kommunikation während des Ausfalls war ungenügend. Wir waren durch den Ausfall ja selber entsprechend eingeschränkt.

    Wie weiter oben schon angemerkt ziehen wir auch weitere Projekte wie eine extern gehostete Statusseite etc. aus diesem Vorfall. Ob eine SMS Benachrichtigung auch dabei sein wird, wissen wir noch nicht.

  41. „Wir streben an“ klingt doch etwas sehr weich… ;-)
    Aber ich bin guter Hoffnung, dass es auch dann wirklich SCHNELL umgesetzt wird.

    Wie schaut es eigentlich mit der eigentliche Ursache aus? Diese sollte laut Statusmeldung doch noch nachgereicht werden? Wie lange kann die Recherche denn da dauern? Wäre schön, wenn das auch noch aufgeklärt wird…

  42. @Steinie: Wir haben vorgestern die Stellungnahme von Init7 in der Statusmeldung veröffentlicht. Hier ist sie nochmal:

    „Aufgrund einer Fehlkonfiguration auf einem userer Router, hat es eine unglückliche Verkettung von Umständen im Backbone gegeben. Dies führte zu erheblichen Verbindungsproblemen und verschiedene Kunden waren durch den Ausfall betroffen.

    Wir bedauern dieses Versehen ausserordentlich und entschuldigen uns für Ihre Unannehmlichkeiten.“

  43. Ah okay, Merci.

  44. Der ehemalige CEO von Init7 Fredy Künzler nimmt in seinem Blog noch einmal ausführlicher Stellung zu der Geschichte: http://www.blogg.ch/index.php?/archives/790-Wenns-mal-richtig-kracht,-dann-ist-fertig-lustig..html

  45. Lieber spät als nie möchte ich auch noch schnell meinen Senf dazu geben… ;-)

    Klar ist ein Ausfall unangenehm, aber wo Menschen arbeiten können auch Fehler passieren…
    Das gehört halt einfach dazu.. nichts ist perfekt… (Sogar mein MacBook Air musste schon mal in die Reparatur.. und das heisst was :-P ;-) )

    Ich muss gestehen, ich bin selber nicht besser und fange an rumzunervöseln wenn meine Seiten nicht erreichbar sind..

    Aber mal Hand aufs Herz…

    Ist das Internet wirklich sooo wichtig geworden????

    Leben nicht trotzdem alle von uns gesund und munter weiter?

    Schlussendlich sind keine Lebenswichtigen Systeme betroffen gewesen, keine Krankenhaus Geräte oder AKW Steuerungen…

    Take it easy and keep cool ;-)

  46. Sicherheit und Perfektion ist das Wunschdenken jener, welche aus Angst vor der Unvollkommenheit des Lebens sofort Rechenschaft über das unlösbare Chaos der andern erwarten…

    Dennoch, mit ein wenig Geduld und den vorbildlichen Informationen über Status etc. kann locker behauptet werden, die Jungs beherrschen ihr Handwerk und ein Spitzenrang auf einer imaginären Hitliste ist durchaus angebracht ;-)

Kommentar hinzufügen

Ihre E-Mail-Adresse wird nicht veröffentlicht.
Auszufüllende Felder sind mit einem * gekennzeichnet.

*
*
*
Einfache HTML Anweisungen wie a, strong, blockquote etc. sind möglich.

Hinweis

Wir behalten uns vor, Spam-, beleidigende oder anderweitig unpassende Kommentare zu entfernen.

← zurück zum Blog