fairlane.systems

SELF-HOSTED VS. CLOUD · AI-KONZEPT

Self-Hosted vs. Cloud-LLM: Entscheidungs-Framework für KMU und Treuhand

Wann lohnt sich ein eigenes Sprachmodell auf eigener Hardware, wann ist die Cloud die richtige Wahl? Total Cost of Ownership, Latenz, Datenschutz.

Recherche & Faktencheck: · Stand: 2026-05

Worum geht es?

Die Entscheidung zwischen Self-Hosted und Cloud-LLM ist keine ideologische, sondern eine kaufmännische und regulatorische Frage. Cloud-LLM heisst: Sie senden Ihre Prompts über HTTPS an OpenAI, Anthropic, Mistral oder Google und zahlen pro verbrauchte Token-Menge. Self-Hosted heisst: Sie betreiben ein Open-Weight-Modell (Llama 3.1, Mistral, Qwen, DeepSeek) auf eigener GPU-Hardware oder bei einem Schweizer GPU-Anbieter wie Exoscale oder Infomaniak.

Die Auswahl an Open-Weight-Modellen ist im Mai 2026 deutlich grösser als noch vor zwei Jahren. Meta-Llama 3.1 70B, Mistral Large 2, Qwen 3.5 32B und DeepSeek V3.2 liefern auf vielen Standard-Benchmarks Werte, die nahe an GPT-4o oder Claude Sonnet liegen. Bei juristischer Faktentreue und langen Kontexten haben die geschlossenen Cloud-Modelle weiterhin einen Vorsprung. Die Entscheidung ist also nicht „besser oder schlechter", sondern „welcher Mix passt zu Ihrem Lastprofil, Datenschutzniveau und Budget".

In der Praxis ist Hybrid die Regel: Standard-Anfragen ohne Personendaten gehen an die Cloud, sensible Mandanten-Auszüge bleiben auf einem lokalen Modell. Ein Router (siehe LiteLLM, Multi-LLM-Routing-Strategien) entscheidet pro Anfrage.

Warum es wichtig ist

Eine falsche Architektur-Entscheidung kostet in beide Richtungen Geld. Wer reflexartig „nur lokal" sagt, bindet schnell CHF 25'000 bis 40'000 Kapital in einer GPU, die zu 80% leerläuft. Wer reflexartig „nur Cloud" sagt, akzeptiert, dass alle Mandanten-Dokumente eine US-Server-Farm sehen – was bei Anwältinnen unter Berufsgeheimnis (StGB Art. 321) und bei Treuhandbüros unter revDSG nicht ohne weiteres erlaubt ist.

Drei Treiber bestimmen die Wahl. Erstens das Datenschutzniveau: Personendaten besonders schützenswerter Kategorie (Gesundheit, juristische Verfahren, Sozialhilfe) verlangen nach Art. 9 revDSG eine erhöhte Sorgfalt und in der Regel eine Datenschutz-Folgenabschätzung. Cloud-LLM mit US-Anbieter geht hier nur mit Standard-Vertragsklauseln, Adequacy-Prüfung und idealerweise EU-Region. Zweitens das Volumen: unter 5 Millionen Token pro Monat ist Cloud praktisch immer günstiger, über 50 Millionen Token mit gleichbleibender Last beginnt sich eine eigene GPU zu rechnen. Drittens die Latenz: Cloud-LLM braucht 400 bis 1500 Millisekunden bis zur ersten Antwort, ein lokales Llama 3.1 8B auf einer RTX 4090 liefert 80 bis 200 Millisekunden – was nur dann relevant ist, wenn Sie interaktive Chat-Frontends oder Live-Voice-Pipelines bauen.

Für die meisten Schweizer Treuhand- und Anwaltsbüros liegt der Knackpunkt nicht im Preis, sondern in der Beweisbarkeit der Datenverarbeitung. Cloud-Logs gehen verloren oder sind unter US-Subpoena einsehbar. Lokale Logs sind in Ihrem Audit-Trail (siehe AI-Audit-Trail-Design) und unter Schweizer Recht.

Wie der Vergleich funktioniert

Total Cost of Ownership (TCO) ist die einzig ehrliche Vergleichsgrösse. Wer nur „Cents pro Token" gegen „Anschaffungspreis der GPU" stellt, rechnet sich in die Tasche. Eine saubere TCO hat sechs Komponenten.

Cloud-TCO = Token-Kosten + Networking + Logging/Observability + Compliance-Overhead (DSFA, Verträge). Beispiel-Rechnung Mai 2026: Claude Sonnet kostet rund USD 3 pro Million Input-Token und USD 15 pro Million Output-Token. Eine Treuhand-Pipeline mit 30 Mandanten, je 50 Anfragen pro Monat zu im Schnitt 8'000 Input- und 1'500 Output-Token, bedeutet 12 Mio Input und 2.25 Mio Output, also ca. USD 70 monatlich plus Aufschlag für Embedding-Calls und Audit. Bei 10x dieser Last sind es ca. USD 700. Bei 100x ca. USD 7'000.

Self-Hosted-TCO = Hardware-Amortisation + Strom + DevOps-Zeit + Modell-Updates + Ausfall-Risiko + GPU-Leerlauf. Llama 3.1 70B in 16-Bit benötigt rund 140 GB VRAM, in 4-Bit-Quantisierung rund 42 GB – letzteres läuft auf einer einzelnen Nvidia A100 80GB oder zwei RTX 4090. Eine A100 80GB kostet im Kauf gegen CHF 17'000 bis 22'000, on-demand bei einem Hyperscaler etwa USD 1.07 pro Stunde, also rund CHF 700 pro Monat bei 24/7-Betrieb. Strom plus Kühlung addieren CHF 80 bis 150 pro Monat. DevOps-Zeit für Updates, Monitoring und Modell-Wechsel: rechnen Sie mit 4 bis 8 Stunden im Monat zu intern CHF 120 pro Stunde, also CHF 500 bis 1'000.

Darauf ergibt sich die Faustregel: Unter 5 Mio Token monatlich ist Cloud immer billiger. Zwischen 5 und 50 Mio Token ist die Antwort „kommt drauf an" – Datenschutz, Spitzenlast, Disponibilität entscheiden. Über 50 Mio Token pro Monat mit kontinuierlicher Last und sensiblen Inhalten rechtfertigt sich ein eigener Server. Ein Hybrid mit lokalem Llama 3.1 8B für PII-Filter plus Cloud für den Rest kostet im Beispiel oben rund CHF 200 pro Monat für den lokalen Knoten und liefert die Datenschutz-Vorteile, ohne dass die ganze Last lokal laufen muss.

Entscheidungs-Framework in 7 Schritten

  1. 01Daten-Inventar: Welche Inhalte gehen an das LLM? Klassifizieren Sie nach revDSG (öffentlich / intern / vertraulich / besonders schützenswert).
  2. 02Volumen-Schätzung: Wie viele Token pro Monat? Multiplizieren Sie Anfragen x Token pro Anfrage x 1.3 Sicherheitsmarge.
  3. 03Latenz-Anforderung prüfen: Akzeptieren die Endnutzer 1-2 Sekunden bis zur Antwort, oder muss es unter 200ms bleiben?
  4. 04Berufsgeheimnis prüfen: Fällt die Verarbeitung unter StGB 321 oder eine Branchen-Verschwiegenheitspflicht? Liegt Einwilligung des Auftraggebers vor?
  5. 05TCO rechnen: Cloud-Preis für 12 Monate vs. (Hardware/36 Monate + Strom + DevOps + Ausfall-Marge). Hybrid als drittes Szenario.
  6. 06PoC starten: 2 Wochen Cloud mit echtem Last-Profil messen, parallel 1 Tag lokales Llama-Setup auf Test-Hardware für Qualitäts-Vergleich.
  7. 07Routing-Logik bauen: Wenn Hybrid, dann LiteLLM oder eigener Router, der pro Anfrage entscheidet (Daten-Klassifizierung -> Modell-Wahl).

Wann Self-Hosted

Self-Hosted ist die richtige Wahl, wenn mindestens zwei der folgenden Bedingungen zutreffen: (a) regelmässige Verarbeitung von Personendaten besonders schützenswerter Kategorie, (b) Verarbeitung unter Berufsgeheimnis nach StGB 321 ohne explizite Mandanten-Einwilligung in Cloud-LLM, (c) ein durchgängiges Token-Volumen über 30 Mio/Monat, (d) Latenz-Anforderungen unter 200ms, (e) explizite Vertragsklausel mit einem Kunden, die jede Auslandsübermittlung verbietet.

Konkrete Setups in der Praxis: Eine Anwaltskanzlei mit 12 Anwältinnen, die wöchentlich 200 Mandats-Recherchen mit Akten durchführt, betreibt einen lokalen Server mit Llama 3.1 70B für das Recherche-Tool und nutzt Claude Opus nur dann, wenn der Mandant das ausdrücklich erlaubt. Ein Treuhand-Büro mit 80 Mandanten und integrierter Belegerkennung läuft auf Llama 3.1 8B für Klassifizierung und nutzt Mistral Large 2 (in EU-Region) für Buchungs-Entscheidungen. Ein KMU im Gesundheitsbereich (Praxis-Software) betreibt Qwen 3.5 32B lokal und sendet nichts an Cloud-Anbieter.

Wann Cloud genügt

Cloud-LLM ist die richtige Wahl, wenn (a) Sie unter 5 Mio Token pro Monat liegen, (b) die Inhalte keine Personendaten besonders schützenswerter Kategorie enthalten, (c) Sie keine Latenz-Anforderungen unter 300ms haben und (d) Sie nicht die Inhouse-DevOps-Kapazität haben, einen GPU-Server zuverlässig zu betreiben.

Konkret heisst das: Marketing-Texte, Code-Generierung, allgemeine Recherche, Sprachübersetzung, FAQ-Bot mit öffentlichen Inhalten, Buchhaltungs-Klassifizierung anonymisierter Belege – all das gehört in die Cloud, idealerweise mit EU-Region und einer schriftlichen Zusicherung des Anbieters, dass die Daten nicht für Modell-Training verwendet werden (Standard bei OpenAI Enterprise, Anthropic API, Mistral La Plateforme).

Ein häufiger Fehler: Buchstaben-Treue zur „nur Schweiz"-Doktrin führt zu Setups, in denen man Llama 3.1 8B auf einer 2080-Ti betreibt, die Antworten 30% schlechter sind als Mistral Large 2 in der EU-Cloud, und der Aufwand für Wartung das gesamte Budget frisst. Wenn die Inhalte nicht streng vertraulich sind, kostet ein guter Cloud-Anbieter weniger und liefert bessere Qualität.

Vor- und Nachteile

STÄRKEN

  • Self-Hosted: Daten verlassen die eigene Infrastruktur nicht – Berufsgeheimnis-konform
  • Self-Hosted: Latenz unter 200ms möglich
  • Self-Hosted: keine variable Token-Rechnung, planbare Fixkosten
  • Cloud: kein Capex, kein DevOps-Aufwand, sofort verfügbar
  • Cloud: Zugriff auf die stärksten Modelle (Claude Opus, das aktuelle GPT-Spitzenmodell)
  • Cloud: automatische Modell-Updates ohne eigenes Tuning

SCHWÄCHEN

  • Self-Hosted: Capex CHF 5'000 bis 35'000 plus laufende DevOps-Zeit
  • Self-Hosted: Open-Weight-Modelle liegen bei Faktentreue in Spezialdomänen hinter den Top-Cloud-Modellen
  • Self-Hosted: GPU-Leerlauf bei schwankender Last frisst die TCO-Rechnung
  • Cloud: variable Kosten skalieren mit Erfolg – bei Lastspitzen unangenehm
  • Cloud: Datentransfer in die USA verlangt DSFA und Standard-Vertragsklauseln
  • Cloud: Vendor-Lock-in, Modell-Änderungen können Antwortverhalten über Nacht ändern

Häufige Fragen

Ab welchem Volumen lohnt sich eine eigene A100?

Faustregel: Wenn Ihre durchschnittliche Last 24/7 zwischen 30 und 50 Mio Token pro Monat liegt, beginnt eine A100 80GB mit Llama 3.1 70B Q4 die Cloud-Kosten zu unterbieten – vorausgesetzt, Sie haben Inhouse-DevOps-Zeit. Unter dieser Schwelle ist GPU-Miete bei einem Schweizer Anbieter (Exoscale, Infomaniak) oder Cloud-LLM günstiger. Über 100 Mio Token pro Monat ist eine eigene GPU fast immer billiger.

Kann ich Mandantendaten mit US-Cloud-LLM verarbeiten?

Mit Vorsicht und nur in bestimmten Konstellationen. Nach revDSG ist Übermittlung in die USA grundsätzlich zulässig, wenn der Anbieter Standard-Vertragsklauseln unterzeichnet (alle grossen Anbieter tun das), die Mandantendaten nicht für Modell-Training verwendet werden (Vertragsklausel) und Sie eine Datenschutz-Folgenabschätzung dokumentiert haben. Für Daten unter Berufsgeheimnis (Anwälte, Ärzte, Pfarrer) braucht es zusätzlich entweder eine Einwilligung der Mandanten oder eine Verarbeitung ohne identifizierende Merkmale.

Welches Open-Weight-Modell empfehlen Sie heute?

Mai 2026: Für Deutsch und Standard-Büro-Aufgaben Llama 3.1 70B Instruct oder Mistral Large 2 – beide gut auf gängiger Hardware mit 4-Bit-Quantisierung. Für schwere Code-Aufgaben DeepSeek V3.2. Für ressourcenarme Setups Qwen 3.5 14B oder Llama 3.1 8B. Für juristische Faktentreue raten wir aktuell nicht zu Open-Weight allein – kombinieren Sie es mit RAG und nutzen Sie zusätzlich ein Cloud-Modell für Quervalidierung.

Was kostet ein lokaler Server in der Anschaffung?

Einstiegs-Setup für Llama 3.1 8B oder 14B: Workstation mit 1x RTX 4090 24GB, 64 GB RAM, 2 TB NVMe – CHF 5'000 bis 7'000. Profi-Setup für Llama 3.1 70B: Server mit 1x A100 80GB oder 2x A6000 48GB, 128 GB RAM, redundante Stromversorgung – CHF 25'000 bis 35'000. Alternative: GPU-Miete bei Exoscale oder Infomaniak ab CHF 1'200 pro Monat für eine A100, ohne Capex.

Verwandte Themen

OLLAMA · TECHOllama: lokale LLMs auf eigener Hardware – wo es funktioniert und wo nichtLITELLM · TECHLiteLLM: ein Gateway für 100+ LLM-Anbieter mit einer einzigen APIROUTING · AI-KONZEPTMulti-LLM-Routing: Welches Modell wann, für wievielMETA LLAMA · LLM-ANBIETERMeta Llama im Schweizer Einsatz: Open-Weight-Modell, Self-Host oder ProviderrevDSG · COMPLIANCErevDSG / revFADP und KI: Was das revidierte Schweizer Datenschutzgesetz für LLM-Nutzung bedeutetSTGB 321 · COMPLIANCEBerufsgeheimnis (StGB Art. 321) und KI-Nutzung: Was Anwälte, Notare, Ärzte und Revisoren beachten müssen

Quellen

  1. a16z – The Economics of Self-Hosted LLM Inference (TCO model) · 2026-02
  2. Hugging Face – LLM Inference Benchmarks (Llama 3.1, Mistral, Qwen) · 2026-04
  3. Ollama – Hardware Requirements and Model Sizing · 2026-05
  4. EDÖB – Datenschutz-Folgenabschätzung bei Cloud-Diensten · 2026-03

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen