MANAGED · SERVICE

Managed Service & Monitoring: Wir betreiben es weiter, Sie nutzen es

Monitoring, Updates, Sicherheits-Patches, Reaktion bei Störungen. Drei Stufen: Basic CHF 600/Mo, Pro CHF 1'200/Mo, Plus CHF 2'200/Mo. Definierte Reaktionszeiten.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Was ist Managed Service?

Managed Service heisst, dass jemand die Verantwortung für den laufenden Betrieb Ihrer KI-Infrastruktur übernimmt. Konkret: Monitoring (was läuft, was nicht), Updates (Sicherheits-Patches, Versions-Updates der Werkzeuge), Backups (täglich, geprüft), Incident-Reaktion (jemand greift ein, wenn etwas bricht), Reporting (was ist im Monat passiert, was kosten die LLM-Aufrufe).

Wir betreiben unsere eigene Infrastruktur seit Anfang 2024 produktiv – 25 Container, 24 LLM-Modelle, 21 n8n-Workflows, ohne Ausfall. Der Stack, den wir Ihnen einrichten, ist der gleiche, den wir kennen. Das ist nicht trivial: KI-Stacks haben mehr bewegliche Teile als klassische Web-Anwendungen. Vektor-Datenbank, Embedding-Modelle, Modell-Provider mit instabilen APIs, n8n-Workflows mit externen Trigger-Abhängigkeiten – viele Stellen, an denen leise etwas brechen kann.

Als Service bei uns: Drei Stufen mit klaren Reaktionszeiten und definiertem Leistungsumfang. Basic CHF 600 pro Monat für kleine Setups (1–2 Server, 1 Use-Case). Pro CHF 1'200 pro Monat für typische Treuhand-Setups (3–5 Server, mehrere Workflows, Gateway). Plus CHF 2'200 pro Monat für grössere Umgebungen mit 24/7-Reaktion. Alle Tiers können monatlich gekündigt werden – keine Mindestlaufzeit.

Warum es wichtig ist

Ein KI-Stack, der nicht betreut wird, verfällt schneller als klassische Software. Drei Gründe.

Erstens: Sicherheit. n8n, Postgres, Docker, Nginx, das Linux-Betriebssystem – alle bekommen wöchentlich bis monatlich Sicherheits-Patches. Wer nicht patcht, hat in 6 Monaten ein angreifbares System. CrowdSec, Fail2ban, Firewall-Regeln werden nicht statisch konfiguriert und vergessen, sondern reagieren auf neue Bedrohungsmuster.

Zweitens: Anbieter-Instabilität. LLM-Provider ändern APIs, deprecaten Modelle, erhöhen Preise, blockieren Regionen. OpenAI hat in den letzten 18 Monaten dreimal Modell-Namen geändert. Anthropic hat Claude 3 Sonnet Anfang 2026 deprecated. Wer das nicht aktiv verfolgt, hat plötzlich Workflows, die schweigend keine Antworten mehr liefern.

Drittens: leise Defekte. n8n-Workflows brechen oft nicht laut, sondern still. Ein Eingangsmail-Account ändert sein OAuth-Token, der Polling-Workflow läuft scheinbar weiter, aber liefert keine Trigger mehr. Eine Embedding-Pipeline indexiert ab Tag X nichts mehr, weil ein Quellordner umbenannt wurde. Ohne aktives Monitoring werden solche Defekte erst Wochen später entdeckt – wenn die Buchhalterin merkt, dass keine neuen Rechnungen mehr kommen.

Der Pro-Tier liefert dafür: Glitchtip für Application-Errors, Grafana für Metriken (CPU, Disk, Latenzen), Prometheus für Sammlung, Loki für Logs, Uptime-Kuma für End-to-End-Health-Checks, CrowdSec für Anomalie-Erkennung, Telegram für Alerts. Jedes dieser Werkzeuge ist Open Source – kein Vendor-Lock-in. Wir betreiben den gleichen Stack für uns selbst.

Wie wir es betreiben

Der Service hat fünf Säulen: Onboarding, Monitoring-Stack, Patch-Routine, Incident-Reaktion, Reporting.

Onboarding (einmalig, im ersten Monat enthalten): Wir kommen in Ihre Umgebung, dokumentieren den Ist-Zustand, prüfen Backups, härten Server (Firewall, SSH-Keys, Fail2ban), richten den Monitoring-Stack ein. Dauer: 2–5 Tage je nach Komplexität.

Monitoring-Stack: Grafana als Dashboard-Frontend, Prometheus für Metriken (Node-Exporter pro Server, cAdvisor für Container, Postgres-Exporter), Loki für strukturierte Logs (n8n, LiteLLM, Bot-Services), Glitchtip für Application-Errors (Sentry-kompatibel), Uptime-Kuma für externe Health-Checks (jeder Service alle 30 Sekunden geprüft). CrowdSec auf jedem Server für Anomalie-Erkennung (Bruteforce, Scans, ungewöhnliche Login-Muster). Alerts gehen an Telegram in einen Kanal, den Sie mitlesen können.

Patch-Routine: Sicherheits-Patches für das Betriebssystem werden wöchentlich geprüft, kritische CVE innerhalb von 24 Stunden eingespielt. Werkzeug-Updates (n8n, Postgres, Docker-Images) quartalsweise, mit Vorab-Test in einer Staging-Umgebung. Datenbank-Migrations laufen idempotent und reversibel.

Incident-Reaktion: Basic-Tier reagiert innerhalb von 24 Stunden während Geschäftszeiten (Mo–Fr 08–18 Uhr Schweizer Zeit). Pro-Tier reagiert innerhalb von 4 Stunden während Geschäftszeiten und 24 Stunden ausserhalb. Plus-Tier reagiert 24/7 innerhalb von 4 Stunden – On-Call-Rotation. Reaktion heisst: Acknowledge auf Telegram, Analyse in Loki, Fix oder Mitigation.

Reporting: Quartalsweise (Basic) bzw. monatlich (Pro/Plus) liefert ein Markdown-Bericht: Uptime pro Service, Incidents mit Root-Cause, LLM-Kosten aufgeschlüsselt, Patches eingespielt, offene Themen, Empfehlungen. Vierteljährlich gibt es ein 60-Minuten-Review mit Ihrer Geschäftsleitung.

Wir nutzen kein eigenes Closed-Source-Tool. Wenn Sie kündigen, übergeben wir Grafana-Dashboards, Prometheus-Konfigurationen, Loki-Regeln, Runbooks – alles als Markdown und YAML in Ihrem Git-Repo.

Vom Vertrag bis zur Routine

01Inventar-Tag: Wir kommen in Ihre Umgebung, dokumentieren Stack, Credentials, Backups, Risiken. Output: ein PDF, das Sie auch unabhängig nutzen können.
02Onboarding (2–5 Tage): Monitoring-Stack einrichten (Grafana, Prometheus, Loki, Uptime-Kuma, CrowdSec, Glitchtip). Härtung (Firewall, SSH, Fail2ban). Telegram-Kanal für Alerts einrichten.
03Runbook erstellen: Pro Service ein Markdown-Dokument mit Zweck, Abhängigkeiten, häufigen Fehlern, On-Call-Reaktion. Ins Git-Repo.
04Routine startet: Wöchentliche Patch-Checks, monatliche Sicherheits-Patches, vierteljährliche Werkzeug-Updates im Staging vor Produktion.
05Incident-Reaktion: Telegram-Alert → Acknowledge → Loki-Analyse → Fix oder Mitigation → Post-Mortem in Git, falls grösser.
06Reporting: Monatlicher (Pro/Plus) oder quartalsweiser (Basic) Markdown-Bericht mit Uptime, Incidents, LLM-Kosten, Empfehlungen.
07Quartals-Review: 60 Minuten mit Geschäftsleitung. Was läuft, was nicht, was kommt im nächsten Quartal.

Wann einsetzen

Managed Service ist die richtige Wahl, wenn (a) der KI-Stack geschäftskritisch ist (Workflows, ohne die etwas liegen bleibt), (b) Sie kein eigenes DevOps-Team haben, das diese Werkzeuge täglich nutzt, (c) Sie definierte Reaktionszeiten brauchen.

Konkrete Konstellationen, in denen wir Managed Service empfehlen: Treuhand-Praxis mit n8n-Workflows für Rechnungs-Triage und Mail-Routing – wenn das hängt, leiden Kundinnen und Kunden. KMU mit RAG-Wissensbasis und WhatsApp-Bot – der Bot muss antworten, sonst fühlt sich der Kunde verlassen. Kanzlei mit Multi-LLM-Gateway – Anwälte erwarten, dass Anfragen funktionieren, ohne zu wissen, ob OpenAI gerade Probleme hat.

Die drei Tiers im Detail:

Basic CHF 600/Monat: Monitoring-Stack laufend, Sicherheits-Patches monatlich, ein Quartalsbericht, Reaktion 24h während Geschäftszeiten. Für Setups mit einem Server und einem Use-Case. Typisch: ein Praxis-Bot, ein einzelner n8n-Workflow-Stack.

Pro CHF 1'200/Monat: Wie Basic plus Monats-Reporting, 4h Reaktion in Geschäftszeiten und 24h ausserhalb, quartalsweises Review-Meeting, Werkzeug-Updates eingespielt. Für typische Treuhand-Setups mit 3–5 Servern und mehreren Workflows.

Plus CHF 2'200/Monat: Wie Pro plus 24/7-Reaktion innerhalb von 4 Stunden, monatliches Review-Meeting, Performance-Tuning, dedizierter Ansprechpartner. Für grössere Umgebungen oder geschäftskritische KI-Workflows mit Aussenwirkung.

Alle Tiers schliessen Vorab-Beratung bei grösseren Änderungen ein. Wer ein neues Modell hinzunehmen will, einen neuen Workflow bauen will, eine Migration plant – wir prüfen vorab und sagen ja, nein oder "so besser".

Wann NICHT

Managed Service ist die falsche Wahl, wenn Sie alles selbst betreiben wollen oder schon können. Wir übergeben in jedem Projekt vollständig dokumentiert – wer ein DevOps-Team hat, das mit Grafana, Prometheus, Loki täglich arbeitet, kann den Stack ohne uns weiterführen. Wir empfehlen das aktiv für Kundinnen und Kunden, die diese Kompetenz im Haus haben.

Falsch ist auch der Service bei zu kleinem Setup. Wer einen einzigen n8n-Workflow betreibt, der einmal pro Tag eine Datei kopiert, braucht keinen CHF 600/Monat-Managed-Service. Ein Telegram-Alert auf den Cron-Lauf reicht. Wir lehnen solche Mandate aktiv ab, statt sie zu verkaufen – die Komplexität trägt die Kosten nicht.

Vorsicht bei sehr individuellen Stacks, die wir nicht selbst betreiben würden. Wenn Sie auf einer ausgefallenen Vektor-Datenbank oder einem internen proprietären Tool aufsetzen, das wir nicht kennen, können wir nicht seriös 4h-Reaktion versprechen. In solchen Fällen bauen wir zuerst Beratungstage, bis wir den Stack verstehen, oder verweisen Sie an einen passenderen Anbieter.

Nicht geeignet ist Managed Service, wenn die organisatorischen Voraussetzungen fehlen. Wir brauchen eine Ansprechperson bei Ihnen, die innerhalb der Reaktionszeit erreichbar ist (für freigabepflichtige Aktionen – Datenbank-Migration, grosse Updates). Ohne diese Person kann der Service nicht funktionieren.

Vor- und Nachteile

STÄRKEN

Definierte Reaktionszeiten – 24h, 4h oder 4h-24/7 je nach Tier
Monitoring-Stack komplett Open Source – kein Vendor-Lock-in
Wir betreiben den gleichen Stack für uns selbst – Erfahrung statt Theorie
Monatliche Kündigung, vollständige Übergabe bei Ausstieg

SCHWÄCHEN

Fixe monatliche Kosten – bei sehr kleinen Setups nicht wirtschaftlich
Wir reagieren auf Incidents, ersetzen aber kein internes IT-Wissen langfristig
Neue Features sind Projekt-Arbeit, nicht im Service-Pauschalpreis
Service hängt an einer erreichbaren Ansprechperson bei Ihnen – Pflicht, nicht Option

Häufige Fragen

Was passiert, wenn ein LLM-Provider ausfällt?

Der LiteLLM-Gateway hat Fallback-Regeln pro Modellklasse konfiguriert. Fällt OpenAI für GPT-4o aus, routet der Gateway auf Claude-Sonnet. Fällt Anthropic aus, auf Mistral Large. Wir bekommen den Alert aus Glitchtip, prüfen, ob der Fallback sauber greift, informieren Sie. Bei längeren Ausfällen mit Auswirkung auf Antwortqualität: Telegram an Geschäftsleitung mit Empfehlung.

Können wir den Monitoring-Stack selbst sehen?

Ja, Grafana läuft auf Ihrer eigenen Infrastruktur, wir geben Ihrer Geschäftsleitung und IT-Verantwortlichen Zugriff (read-only oder edit, je nach Wunsch). Uptime-Kuma hat eine öffentliche Status-Seite, die Sie auf Ihrer Domain einbetten können (status.firma.ch). Telegram-Alerts laufen in einen geteilten Kanal – Sie lesen mit, müssen aber nicht reagieren.

Was ist nicht im Managed Service enthalten?

Drei Dinge. Erstens: Neue Features oder Workflows – die sind Projekt-Arbeit nach Aufwand, nicht Service. Zweitens: Wesentliche Architektur-Änderungen (Wechsel der Vektor-Datenbank, neuer Cloud-Anbieter) – Projekt-Arbeit. Drittens: Endkunden-Support für Ihre Kundschaft – wir betreuen die Infrastruktur, nicht die Endnutzerinnen. Wir können aber Ihre Support-Mitarbeitenden schulen.

Kann ich den Service jederzeit kündigen?

Ja. Monatliche Kündigungsfrist, kein Mindestlaufzeit-Zwang. Bei Kündigung übergeben wir alles innerhalb von 14 Tagen: Grafana-Dashboards, Prometheus-Konfigs, Loki-Regeln, Runbooks, Credentials-Index. Sie haben dann ein dokumentiertes System, das Ihr Team oder ein anderer Anbieter weiterführen kann.

Quellen

Grafana Labs – Open source observability stack (Grafana, Loki, Tempo, Mimir) · 2026-04
Glitchtip – Open-source, Sentry-compatible error tracking · 2026-03
Uptime Kuma – Self-hosted uptime monitoring · 2026-05
CrowdSec – Behavioural threat intelligence (engine + scenarios) · 2026-04

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen