MONITORING / TOOL-VERGLEICH

Monitoring & Observability im Vergleich: Grafana, Loki, Uptime Kuma, Netdata, Zabbix, Datadog, Sentry, ELK, VictoriaMetrics, SigNoz

Zehn ernsthafte Werkzeuge für Metriken, Logs, Traces und Error-Tracking. Sieben Entscheidungsachsen, eine konkrete Empfehlung pro KMU-Szenario. Stand Mai 2026.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Was ist Monitoring & Observability?

Monitoring beantwortet die Frage: läuft das System? Observability geht weiter und fragt: warum verhält es sich gerade so? Die Trennung ist nicht akademisch. Ein klassischer Monitoring-Stack kennt drei Datentypen - Metriken (CPU-Last, Latenz, Anfragen pro Sekunde), Logs (Textzeilen einer Anwendung) und Traces (Pfad einer Anfrage durch mehrere Services). Wer alle drei korreliert auswerten kann, betreibt Observability.

Für ein Schweizer KMU mit zwei bis fünf produktiven Diensten reicht oft eine Metriken-Lösung plus eine schlanke Log-Aggregation. Wer über zehn Microservices oder Multi-Tenant-Plattformen betreibt, kommt um Traces und ein zentrales Backend nicht mehr herum. Die Auswahl im Mai 2026 ist breit: zehn Werkzeuge decken den Bereich von Hobby-Dashboard bis Konzern-Backend ab. Die Trennlinien sind klar - Self-host versus Cloud, Open-Source versus proprietär, US-Hosting versus EU-Region.

Wir setzen seit 2023 produktiv Grafana plus Prometheus plus Loki ein und kennen die Störquellen aus erster Hand. In diesem Vergleich behandeln wir zehn Werkzeuge, die wir in der Praxis bei KMU-Mandaten gesehen oder selbst betrieben haben. Spielzeug-Tools (kleinere SaaS-Wrapper ohne eigene Substanz) bleiben aussen vor.

Warum die Wahl entscheidend ist

Drei harte Realitäten machen die Wahl wichtig. Erstens: Monitoring ist kein Add-on, sondern Betriebspflicht. Wer ohne Beobachtbarkeit eine produktive KI-Pipeline betreibt, bekommt erst dann mit, dass das Embedding-Modell ausgefallen ist, wenn der erste Mandant anruft. Im schlimmsten Fall sind dann schon zwei Tage lang halluzinierte Antworten in Mandatsakten geschrieben worden.

Zweitens: Daten-Residenz. Logs enthalten oft personenbezogene Daten - IP-Adressen, Benutzernamen, manchmal Inhalte von Anfragen. Wer Logs nach Datadog in die USA streamt, hat ein revDSG-Problem. Wir empfehlen für CH-Treuhand und CH-Anwaltskanzleien grundsätzlich Self-host auf Hetzner Falkenstein oder Helsinki, alternativ Datadog mit dezidierter EU-Region und vertraglicher Auftragsverarbeitung.

Drittens: Kosten. Datadog ist transparent in seiner Preisliste - USD 15 bis 23 pro Host und Monat für Infrastructure Monitoring, dazu Logs pro GB, Traces pro Million Spans. Ein KMU mit zehn Containern landet schnell bei CHF 400 bis 600 pro Monat - ohne dass mehr passiert als bei einem Self-host-Stack auf einem CHF 25 Hetzner-Server. Die Rechnung wird erst dann gewinnen, wenn die Personalkosten für den Self-host-Betrieb realistisch eingerechnet werden. Für Mandate ohne dediziertes DevOps-Team kann Datadog also durchaus sinnvoll sein - für Mandate mit IT-affinem Eigentümer ist Grafana plus Prometheus plus Loki nach drei Tagen Setup unschlagbar.

Die zehn Werkzeuge im Detail

Grafana plus Prometheus (AGPL-3 Grafana, Apache 2.0 Prometheus): Industriestandard für Metriken. Prometheus scrapt Endpunkte, Grafana visualisiert. Alerts via Alertmanager. Kein Storage-Limit, keine pro-Host-Lizenz. Lernkurve mittel, dafür Community riesig. Unsere Standard-Wahl für Self-host-Mandate.

Loki (AGPL-3): Log-Aggregation aus dem Grafana-Stack. Indexiert nur Metadaten-Labels, nicht den Volltext - dadurch radikal billig im Storage. Mai 2026 in Version 3.x mit eingebautem Bloom-Filter für schnellere Filterung. Wir setzen Loki immer zusammen mit Grafana ein.

Uptime Kuma (MIT): Schlanke Uptime-Page, web-basiert, sechs Probe-Typen (HTTP, Ping, Port, DNS, gRPC, Push). Setup in zehn Minuten. Kein Ersatz für Prometheus, aber idealer Ergänzungs-Healthcheck für KMU. Status-Page kann öffentlich freigegeben werden.

Netdata (GPL-3 plus Cloud): Sehr leichter Agent (unter 1% CPU), automatische Discovery aller Metriken auf einem Host. Default-Dashboards sind sofort brauchbar. Cloud-Tier kostenlos für kleinere Setups, Pro-Tier ab USD 4 pro Host. Gute Wahl für schnellen Start ohne Konfiguration.

Zabbix (GPL-2): Klassischer Enterprise-Monitor seit 2001. SNMP, IPMI, Agent-Polling, Templates für hunderte Systeme. Schwerere Lernkurve, aber sehr robust bei grossen heterogenen Setups (Netzwerk, Switches, USV, Server, Datenbanken in einem Bild). Stand 2026 weiterhin gepflegt.

Datadog (proprietär Cloud): SaaS-Marktführer. USD 15 pro Host für Infrastructure, USD 23 für Pro, dazu Logs pro GB. EU-Region in Frankfurt verfügbar - wichtig für revDSG. Default-Dashboards sehr poliert, APM und Trace out of the box. Lock-in via Custom Metrics und Tagging-Hierarchie.

Sentry / GlitchTip (BSL bzw. AGPL-3): Sentry ist der Standard für Error-Tracking - fast jedes moderne Framework hat einen Sentry-SDK. Seit 2024 nicht mehr OSI-konform (BSL-Lizenz). GlitchTip ist der vollständige OSS-Fork, API-kompatibel mit Sentry-SDKs. Wir nutzen Sentry in Produktion und empfehlen GlitchTip für Mandate mit strenger Lizenz-Politik.

Elastic Stack (ELK) (Elastic License v2 bzw. SSPL): Elasticsearch plus Logstash plus Kibana. Sehr mächtig für Volltext-Suche in Logs, aber RAM-hungrig (mindestens 16 GB für ernsthafte Setups). Lizenz seit 2021 nicht mehr klassisch OSS. Gut wenn das Team Elasticsearch ohnehin kennt, sonst Overkill.

VictoriaMetrics (Apache 2.0): Prometheus-kompatibler Drop-in-Ersatz, etwa 10x speichereffizienter und schneller bei hoher Cardinality. Cluster-Mode in der OSS-Variante. Mai 2026 oft die richtige Wahl, wenn Prometheus an Speicher-Grenzen stösst (lange Retention, viele Mandanten-Labels).

SigNoz (MIT): OpenTelemetry-natives All-in-one - Metriken, Logs, Traces in einem UI. Reife Alternative zu Datadog seit 2025. ClickHouse als Backend. Self-host oder Cloud. Mai 2026 hat sich SigNoz als ernster OSS-Player etabliert - wer bei Null beginnt und sofort Traces braucht, sollte SigNoz prüfen statt Grafana-Stack auseinanderbauen.

Auswahl in sechs Schritten

01Datentypen-Bedarf klären: nur Metriken, oder auch Logs und Traces? Reine Metriken-Bedarf reicht Prometheus oder VictoriaMetrics.
02Daten-Residenz prüfen: müssen Logs in CH/EU bleiben? Wenn ja, Datadog nur mit EU-Region, oder Self-host (Grafana/Loki/SigNoz).
03Operations-Modell wählen: Self-host (drei bis fünf Tage Setup, monatlich CHF 12 bis 50) versus Cloud (Null Setup, CHF 200 bis 1000 pro Monat).
04Lizenz prüfen: Sentry BSL ok? Wenn nicht, GlitchTip. Elastic SSPL ok? Wenn nicht, Loki plus OpenSearch.
05OpenTelemetry-Strategie definieren: wenn alle Anwendungen OTLP sprechen, ist SigNoz vorne. Sonst Grafana-Stack flexibler.
06PoC mit echten Daten: einen produktiven Dienst eine Woche lang instrumentieren, Alerts kalibrieren, Datenvolumen messen. Erst dann ausrollen.

Empfehlung je Szenario

Treuhand-Büro, zwei bis fünf Dienste, revDSG-streng, IT-affiner Eigentümer: Grafana plus Prometheus plus Loki plus Uptime Kuma plus Sentry oder GlitchTip. Komplett auf einem Hetzner CPX21 für rund CHF 12 pro Monat, drei bis fünf Tage Setup. Alle Daten in der EU.

Anwaltskanzlei oder Treuhand ohne DevOps-Team: Datadog EU-Region (Frankfurt) plus Sentry-EU. Kosten realistisch CHF 200 bis 500 pro Monat für fünf bis zehn Hosts, dafür Null-Setup und 24x7-Support. Auftragsverarbeitungs-Vertrag mit Datadog Inc. abschliessen.

SME mit Microservices, OpenTelemetry-First-Strategie: SigNoz Self-host auf einem dedicated Server (8 vCPU, 32 GB RAM, ca. CHF 50 pro Monat). Metriken, Logs, Traces in einem UI, alles über OTLP eingeliefert. Spart das Zusammenbauen des Grafana-Stacks.

KMU, das schnellen Überblick braucht ohne Konfiguration: Netdata mit Cloud-Tier. Agent auf jeden Server, in 30 Minuten sind alle Metriken sichtbar. Kostet für Standard-Setups Null (Free-Tier reicht bis ca. fünf Hosts).

Heterogenes Netzwerk-Setup mit SNMP-Geräten, Switches, USV: Zabbix. Klassisch, gut dokumentiert, jedes ernste Gerät hat ein Zabbix-Template. Lohnt sich nicht für reine Container-Setups, aber unschlagbar bei klassischer IT-Infrastruktur.

Hohe Cardinality, lange Retention (zwei Jahre Metriken behalten): VictoriaMetrics statt Prometheus. Drop-in-Migration in einem halben Tag, Storage-Bedarf sinkt um Faktor fünf bis zehn.

Anti-Muster vermeiden

Wer einen einzelnen Wordpress-Server für eine Stand-Seite betreibt, braucht keinen Grafana-Stack - ein simples Uptime Kuma und der eingebaute Apache-Statusbericht reichen. Auch wer noch keine Auswertung der Logs vornimmt (sie also nur sammelt, weil es sich gehört), sollte den Loki-Stack zurückstellen, bis ein konkreter Bedarf da ist. Logs ohne Auswertung sind Storage-Kosten ohne Nutzen.

Vorsicht beim Mischen mehrerer Stacks. Ein klassischer Fehler: Datadog produktiv plus Sentry plus self-host Grafana parallel. Drei UIs, drei Login-Listen, dreifacher On-Call-Schmerz. Wenn möglich, ein primäres System wählen und die anderen über Integrationen anbinden (zum Beispiel Sentry-Webhook in Grafana). Auch Achtung beim Elastic-Stack für KMU-Setups: er wird gerne als Standard angeschafft und braucht dann pro Knoten 16 GB RAM, während Loki dieselbe Aufgabe auf einem CPX21 erledigt.

Datadog ist nicht böse - aber die Default-Konfiguration der SDKs liefert oft viel mehr Custom Metrics als nötig, und Custom Metrics sind die teuerste Position auf der Rechnung. Vor produktivem Rollout immer die Mengen-Schätzung machen und gezielt einschränken.

Vor- und Nachteile

STÄRKEN

Grafana-Stack: keine Lizenzkosten, volle Datenkontrolle, riesige Community
Datadog: Null Setup-Aufwand, polierte UI, 24x7-Support inkludiert
SigNoz: OpenTelemetry-nativ, Metriken/Logs/Traces in einem UI
Uptime Kuma: 10-Minuten-Setup, öffentliche Status-Page, MIT-Lizenz
VictoriaMetrics: Drop-in-Prometheus, bis zu 10x speichereffizienter

SCHWÄCHEN

Datadog: Custom-Metrics-Kosten explodieren schnell, US-Hosting wenn nicht EU-Region gewählt
Elastic Stack: RAM-hungrig (16 GB Minimum), SSPL-Lizenz nicht klassisch OSS
Sentry: BSL-Lizenz seit 2024, nicht mehr OSI-konform
Grafana-Stack: drei bis fünf Tage Setup, Lernkurve PromQL
Netdata Cloud: kostenpflichtig ab dem sechsten Host

Häufige Fragen

Reicht Uptime Kuma allein für ein KMU?

Für eine reine Stand-Seite mit zwei oder drei Services: ja. Sobald aber Container, Datenbank-Latenz oder LLM-Antwortzeiten beobachtet werden sollen, braucht es Prometheus. Uptime Kuma sieht nur, ob ein HTTP-Endpoint antwortet - nicht, warum er langsam ist oder welche Komponente intern hängt.

Was kostet ein vollständiger Self-host-Stack realistisch?

Hardware: Hetzner CPX21 (3 vCPU, 4 GB RAM) reicht für zwei bis fünf Mandanten-Dienste - rund CHF 12 pro Monat. Setup: drei bis fünf Tage einmalig, Wartung etwa zwei Stunden pro Monat. Gesamtkosten erstes Jahr inklusive Setup-Aufwand zu marktüblichem Stundensatz: rund CHF 5000 bis 8000. Datadog vergleichbarer Scope: rund CHF 4000 bis 7000 pro Jahr für fünf Hosts. Fazit: Self-host gewinnt erst ab Jahr zwei, wenn die Setup-Kosten amortisiert sind.

Sentry oder GlitchTip im Produktivbetrieb?

Sentry hat die grössere SDK-Auswahl, das polierte UI und das aelteste Ecosystem - wir nutzen Sentry SaaS in mehreren Mandaten. GlitchTip ist API-kompatibel und unter AGPL-3 lizenziert. Wer also Sentry-SDKs in Anwendungen hat, kann ohne Code-Änderung auf GlitchTip umstellen. Wir empfehlen GlitchTip für Mandate mit strikter Open-Source-Pflicht (Behörden, manche Anwaltskanzleien) und Sentry SaaS für den Rest.

Brauche ich Traces als KMU?

Selten. Traces lohnen sich, sobald eine Anfrage durch mehr als drei Services läuft und die Latenz nicht klar einer Komponente zugeordnet werden kann. Bei den meisten KMU-Setups mit einer Web-App, einer Datenbank und einem LLM-Provider sind Metriken und Logs ausreichend. Wer aber Agenten-Architekturen mit RAG, LLM-Routing und Funktions-Calls in mehreren Hops baut, sollte Traces einplanen - sonst wird Debugging zur Stochererei.

Quellen

Grafana Labs - Loki 3 Release Notes · 2026-03
Datadog Pricing - Infrastructure plans · 2026-05
SigNoz Documentation - OpenTelemetry-native APM · 2026-04
VictoriaMetrics - Open-source TSDB · 2026-04
GlitchTip - open-source Sentry-compatible error tracking · 2026-03

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen