Monitoring bei cyon: So erkennen wir Störungen, bevor du sie bemerkst

{{ post.author.node.name }}
Autor:

Lukas

Kategorie:

in

Über cyon

Veröffentlicht am 09. Dec. 2025

Beim Betrieb von Serversystemen treten hin und wieder unerwartete Probleme auf, die sich im schlimmsten Fall auf deine Website, E-Mails oder Daten auswirken könnten. Um solche Probleme schnell zu erkennen, die Ursachen effizient zu identifizieren und nachhaltige Lösungen zu finden, setzen wir auf eine moderne, mehrstufige Monitoring-Umgebung unserer Serverinfrastruktur.

Ein Arbeitsplatz mit mehreren Monitoren, auf denen Server-Monitoring-Dashboards und Code angezeigt werden. Neben dem Bildschirm stehen eine mechanische Tastatur, ein Laptop, Kabel und ein Stifteglas. Die Szene vermittelt einen gut organisierten, modernen Arbeitsbereich in einem technischen Umfeld.

Weshalb das ganze?

Im System-Engineering-Team sind wir zusammen mit dem Service-Operations-Team für den reibungslosen Betrieb unserer Serverinfrastruktur verantwortlich. Diese bildet die Grundlage unseres Hosting-Angebots und wird zusätzlich für die Bereitstellung weiterer interner Dienste genutzt.

Um jederzeit über den Zustand unserer Systeme informiert zu sein, setzen wir verschiedene Monitoring-Systeme ein. Diese überwachen rund um die Uhr wichtige Aspekte unserer Infrastruktur und alarmieren im Bedarfsfall das Team.

Unsere Monitoring-Infrastruktur unterteilt sich in drei Hauptbereiche:

  • Health-Monitoring: Echtzeit-Überwachung der ordnungsgemässen Funktionalität unserer Systeme, zum Beispiel die Verfügbarkeit des Webservers Litespeed auf einem Hosting-Server.
  • Metrics: Langfristige Aufzeichnung von Systemkennzahlen, etwa die Speicherauslastung eines Servers.
  • Logs: Zentralisierte Sammlung von Log-Ereignissen zur vereinfachten Analyse, wie beispielsweise SSH-Logins auf sämtlichen Servern.

Um den Zustand unserer Systemlandschaft in Echtzeit zu überwachen, betreiben wir ein Icinga-Cluster. Icinga ist eine Open-Source-Lösung zur Überwachung von IT-Systemen, die in regelmässigen Abständen die Funktionalität all unserer Systeme prüft. Neben unseren Servern überwachen wir auch Netzwerkkomponenten und weitere Elemente, die für das reibungslose Funktionieren unserer Dienstleistungen von Bedeutung sind.

Health-Monitoring

Für die gezielte Überwachung kritischer Aspekte haben wir für viele Bereiche sogenannte «Checks» definiert. In den meisten Fällen handelt es sich dabei um einfache Skripte, die den Zustand eines Dienstes prüfen und das Ergebnis, ob Erfolg oder Misserfolg, melden. Durch die periodische Ausführung dieser Skripte wird sichergestellt, dass die Ergebnisse innerhalb der von uns festgelegten, akzeptablen Grenzen liegen.

Konkret erwarten wir beispielsweise, dass unser Webserver Litespeed stets betriebsbereit ist oder dass mindestens 20 % des Arbeitsspeichers frei bleiben. Liegt das Ergebnis eines Checks ausserhalb dieser Schwellenwerte, wird dies in über die Icinga-Weboberfläche angezeigt. Zudem wird bei den meisten Checks ein Alarm ausgelöst.

Aktuell überwacht unser Icinga-Cluster über 700 Hosts. Auf diesen Hosts werden insgesamt rund 55’000 Checks ausgeführt. Die meisten Checks laufen im Minutentakt, einige sogar häufiger, während andere nur stündlich ausgeführt werden.

Damit wir im Büro jederzeit den aktuellen Zustand unserer Infrastruktur vor Augen haben, wurde eine alte Verkehrsampel umfunktioniert, die jederzeit anzeigt, ob akute Probleme vorliegen.

Eine grün leuchtende Ampel steht in einem modernen, hellen Büro vor grossen Fenstern. Darüber ist die rote Ampelleuchte sichtbar, aber ausgeschaltet. Im Vordergrund sind sanft verschwommene Schreibtische und eine warme Tischlampe zu sehen. Draussen rahmen helle Äste und ein gegenüberliegendes Gebäude die Szene ein.

Damit wir im Büro jederzeit den aktuellen Zustand unserer Infrastruktur vor Augen haben, wurde eine alte Verkehrsampel umfunktioniert, die jederzeit anzeigt, ob akute Probleme vorliegen.

Tagsüber übernimmt das Operations-Team die Bearbeitung dieser Alarme, um Probleme zu analysieren und zu beheben. Werden Störungen ausserhalb der Geschäftszeiten oder nachts festgestellt, werden die Alarme an das Pikett-Team weitergeleitet, das rund um die Uhr, 7 Tage die Woche, auf Abruf bereitsteht.

Wöchentlich bearbeiten wir im Durchschnitt rund 80 Alarme, die in etwa gleichen Teilen von Pikett und Operations bearbeitet werden.

System Metriken

Wird ein Problem festgestellt, ist es oft hilfreich, die die Entwicklung relevanter Systemparameter über längere Zeiträume zu analysieren. Dazu erfassen wir minütlich Daten aller Systeme und speichern diese in einem Langzeitspeicher.

Beispiele für die gesammelten Informationen sind die Arbeitsspeicherauslastung, CPU-Auslastung, Speicherbelegung, das Volumen der ein- und ausgehenden Netzwerkanfragen sowie weitere für uns relevante Parameter.

Um aus diesen Rohdaten nützliche Informationen zu gewinnen, setzen wir eine Open Source-Plattform zur interaktiven Datenvisualisierung namens Grafana ein. Mit Grafana können wir verschiedene Dashboards erstellen, die uns helfen, die benötigten Erkenntnisse zu gewinnen.

Übersicht der Systemauslastung am Beispiel von s001.cyon.net

Logs

Neben Metriken verarbeiten wir auch eine grosse Menge an Log-Informationen in Textform. Die meisten Dienste, die auf unseren Servern laufen, protokollieren Informationen über ihre Aktivitäten, ihren Zustand oder sicherheitsrelevante Vorfälle in entsprechenden Log-Dateien. Diese Dateien werden automatisiert über unser Log-Monitoring-System erfasst und zentral zusammengeführt.

Einerseits machen wir diese Informationen durchsuch- und filterbar, um Probleme leichter zu analysieren. Andererseits werten wir Teile dieser Daten automatisch aus, blockieren zum Beispiel IP-Adressen, die durch auffälliges Verhalten negativ auffallen und bei denen wir von schädlichem Verhalten ausgehen müssen. Zudem durchsuchen wir die Logs nach Anzeichen für Phishing und erhalten über unser Chat-Tool eine Alarmmeldung, sobald verdächtige Nachrichten erkannt werden. So können wir sofort reagieren und den weiteren Versand schnellstmöglich stoppen.

Warnung zu einer verdächtigen E-Mail

Warnung zu einer verdächtigen E-Mail

Zum Sammeln der Log-Einträge setzen wir Filebeat aus dem Hause Elastic ein. Damit können wir gezielt Informationen aus den Logdateien extrahieren und an eine zentrale Stelle übermitteln. Unser zentraler Log-Speicher sowie die Indexierung der Daten für die Durchsuchbarkeit wurde durch ein Elasticsearch-Cluster realisiert.

cyon Elasticsearch Webinterface – Anzeigen der aktuell blockierten IP-Adressen

Zur Visualisierung und Analyse der Log-Einträge verwenden wir ein eigens entwickeltes Web-UI, das auf unsere spezifischen Bedürfnisse zugeschnitten ist. Aktuell sind rund 10’000 IP-Adressen gesperrt, seit Einführung dieses Systems haben wir hierdurch über 150’000 Adressen gesperrt.

Zukunftspläne

Unsere Monitoring-Umgebung deckt bereits viele unserer aktuellen Bedürfnisse ab. In einigen Punkten sehen wir jedoch noch Potenzial für Optimierungen. Beispielsweise sammeln wir bereits eine grosse Menge an Metriken, verwenden diese bisher jedoch hauptsächlich für manuelle Inspektionen.

Mit entsprechenden Tools wäre es künftig möglich, Anomalien in den gemessenen Werten automatisch zu erkennen und auf dieser Basis Alarme auszulösen. Im Bereich von Icinga arbeiten wir kontinuierlich daran, die Alarmierungszeiten einzelner Checks zu optimieren. Es gibt Fälle, die zwar behandelt werden müssen, aber auch bis zum nächsten Morgen warten können, ohne dass dafür ein Pikett-Einsatz während der Nacht notwendig wäre.

Engagement

Auch im Bereich Monitoring setzen wir an vielen Stellen auf Open-Source-Lösungen. Dabei ist es uns wichtig, die Open-Source-Projekte, die wir nutzen, finanziell zu unterstützen (zum Beispiel Let’s Encrypt und Debian).

Bei Icinga tun wir dies durch eine jährliche Subscription, die uns Zugang zu bereits paketierten Softwarepaketen verschafft und gleichzeitig das Open-Source-Projekt unterstützt.

Da wir den Metrics-Teil unserer Infrastruktur gerade umbauen, ist noch nicht vollständig klar, welche Komponenten wir künftig weiterverwenden werden und wie zentral sie für uns sind. Nach Abschluss dieser Arbeiten planen wir, die Situation erneut zu evaluieren und mögliche Spenden zu prüfen.

Im Bereich Elasticsearch haben wir im Team Filebeat-Module entwickelt, die zur Verarbeitung entsprechender Logs verwendet werden. Diese Module sind unter einer Open-Source-Lizenz frei verfügbar und können von der Community kostenfrei genutzt werden.

Fazit

Der Betrieb einer stabilen und zuverlässigen Serverinfrastruktur ist eine anspruchsvolle Aufgabe, die kontinuierliche Überwachung und schnelle Reaktionen auf unerwartete Probleme erfordert. Durch den Einsatz moderner Monitoring-Lösungen wie Icinga, Grafana und Elasticsearch können wir sicherstellen, dass wir potenzielle Störungen frühzeitig erkennen und effizient darauf reagieren.

Die Kombination aus Echtzeit-Überwachung, langfristiger Analyse von Systemmetriken und der zentralisierten Log-Verwaltung gibt uns die nötigen Werkzeuge an die Hand, um schnell fundierte Entscheidungen zu treffen und unsere Systeme zuverlässig zu betreiben.

Weiterführende Links

Immer auf dem Laufenden bleiben

Tipps, Tools & Insights für deine Webprojekte

Jetzt Newsletter abonnieren

Beteilige dich an der Diskussion

3 Kommentare

{{comment.author.node.name}}
Timon Müller 10. Dec 2025 11:16

Webland – Ein Mitbewerber von euch. Hatte einen grösseren Systemausfall. Würde so etwas auch bei euch möglich sein?

{{comment.author.node.name}}
Miroslav Bozic 09. Dec 2025 22:08

Ich finde, dass z. B. gerade im Bereich E-Mail noch Nachholbedarf besteht. Vor allem würde ich es zunächst begrüssen, wenn man auch hier im Webmail die 2FA wie im Hosting aktivieren würde. Bezüglich Spam muss ich sagen, dass mich die Implementierung von rspamd und sonstigen Firewalls und Antispam-Technologien nur mässig zufriedenstellen, schliesslich erhalte ich fast täglich Spam-E-Mails, die auch als SPAM markiert sind. Ich denke, es gibt mittlerweile auch bessere Antispam-Technologien.

KI wird doch mittlerweile überall eingesetzt und ich denke es ist so ausgereift um Spam erfolgreich zu identifizieren und erst gar nicht auf eure/unsere Dateisysteme zu lassen. Es gab mal glaube ich von Switch ein E-Mail-Gateway, das mittlerweile eingestellt ist. Es wäre vielleicht eine Idee bei schweizweiten Veranstaltungen zur Digitalisierung und Datensicherheit sich für die Implementierung eines nationalen Gateways einzusetzen um alle Schweizer Domains automatisch über ein sicheres Gateway extern zu leiten.

Rechtssichere und revisionssichere E-Mail-Archivierung würde ich mir auch wünschen, denn so könnten eure KMU-Kunden alles bei euch unter einem Dach nutzen und nicht externe Anbieter mit zusätzlichen Kosten für die Archivierung ihrer E-Mails benötigen.

{{comment.author.node.name}}
Svetlana Marchenko cyon
11. Dec 2025 14:22

Danke dir, für dein Feedback, Miroslav.

Viele der von dir genannten Punkte, wie zusätzliche Sicherheitsfunktionen, Spam-Handling oder Archivierung, beschäftigen uns bereits. Sobald wir konkret daran arbeiten und ein Zeitrahmen feststeht, informieren wir dich natürlich gerne.

Zur Spam-Erkennung: Rspamd kann Spam mit grosser Zuverlässigkeit erkennen und wird durch weitere kommerzielle Systeme ergänzt. E-Mails mit einem hohen Spam-Score werden automatisch abgelehnt. Ob Spam direkt blockiert oder nur markiert wird, kann bewusst nutzerseitig gesteuert werden – viele aus unserer Kundschaft möchten eben keine automatische Löschung. (Siehe: Rspamd & Spam-E-Mails direkt löschen)

KI-basierte Ansätze prüfen wir ebenfalls, müssen diese aber technologisch und wirtschaftlich gut abwägen.
Ein schweizweites E-Mail-Gateway ist ein spannender Gedanke, bringt in der Praxis jedoch hohe technische und organisatorische Risiken mit sich.

Nochmals danke für deine Inputs. Ich hoffe, unsere Rückmeldung ist für dich hilfreich. Bei weiteren Fragen oder Anliegen kannst du dich jederzeit wieder bei uns melden.

Beste Grüsse, Svetlana