BREAK-EVEN · KOSTEN

Cloud-API vs. Self-Host: ab welchem Token-Volumen lohnt sich was?

Break-Even-Analyse mit Zahlen Mai 2026. 1M / 10M / 100M / 1B Token pro Monat: wo kreuzen sich Cloud-Kurve und Self-Host-Kurve? Plus Hidden Costs.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Worum geht es?

Die Frage „Cloud-API oder Self-Host" ist eine mathematische, nicht ideologische. Beide Modelle haben definierte Kostenfunktionen, und genau ein Schnittpunkt zwischen ihnen entscheidet, was an Ihrer Stelle Sinn macht. Dieser Beitrag zeigt die Kurve auf vier Punkten – 1M, 10M, 100M und 1B Token pro Monat – und benennt die Hidden Costs, die in Naive-Rechnungen meist fehlen.

Cloud-Kostenfunktion: linear mit Token-Volumen. Pro 1M Input-Tokens zahlen Sie bei Claude Sonnet USD 3, bei GPT-4o USD 2.50, bei Mistral Large USD 2, bei der aktuellen DeepSeek-V-Generation USD 0.30. Plus Output-Tokens (3-5x Input-Preis). Plus eventuelle Storage- und Caching-Gebühren. Keine Fix-Kosten, keine Bindung.

Self-Host-Kostenfunktion: stark fixkostenlastig, marginale Token-Kosten nahe null. Eine A100-80 auf Hetzner kostet fix EUR 1'100/Monat. DevOps 6h zu CHF 150 = CHF 900/Monat. Strom + Kühlung CHF 100/Monat. Macht zusammen rund CHF 2'100/Monat – egal ob 1k oder 100M Tokens. Die marginalen Kosten pro Token sind praktisch null, solange Sie unter der Kapazitätsgrenze der GPU bleiben.

Der Schnittpunkt liegt dort, wo Token-Volumen-mal-Cloud-Preis die Self-Host-Fixkosten erreicht. Faustregel: bei Claude Sonnet etwa 50-80 Mio Token pro Monat. Bei Claude Opus schon bei 10 Mio. Bei die aktuelle DeepSeek-V-Generation erst bei 500 Mio. Modell-Wahl verschiebt den Break-Even-Punkt drastisch.

Warum die Analyse zählt

Ohne Break-Even-Berechnung treffen Sie zwei typische Fehler.

Fehler 1: Reflex „eigene Hardware ist günstiger". Ein 8-Personen-Büro mit 2 Mio Token pro Monat liest in einem Blog, dass eine A100-80 „nur" EUR 1'100 pro Monat kostet, und bestellt einen Server. Cloud-Kosten wären USD 6 pro Monat gewesen. Self-Host kostet CHF 2'100 – das ist Faktor 280 teurer. Nach 12 Monaten ist der Verlust CHF 25'000.

Fehler 2: Reflex „Cloud skaliert besser". Ein 60-Personen-Unternehmen mit 200 Mio Token pro Monat zahlt bei Claude Sonnet rund USD 1'200 pro Monat – USD 14'400 pro Jahr. Self-Host A100-80 mit 80% Auslastung schafft das problemlos. CHF 25'200 pro Jahr fix vs. CHF 13'700 Cloud. Aber: Cloud-Vertrag muss bei jedem Anbieter-Preis-Sprung neu verhandelt werden, und Verfügbarkeit hängt von externer API. Bei 1 Mrd Token wäre Self-Host klar billiger und vorhersehbarer.

Dritter Punkt: Hidden Costs. Cloud-Pricing sieht klar aus, hat aber versteckte Posten: Egress-Gebühren wenn Sie viele Tokens an die API senden (selten relevant), Logging-Storage, Rate-Limit-Handling bei Lastspitzen (oft Architektur-Aufwand), Vendor-Lock-in. Self-Host hat Hidden Costs in DevOps-Zeit, Wertverlust, Ausfall-Risiko ohne SLA.

Vierter Punkt: Die Kurve verschiebt sich. GPU-Preise fallen 25-35% pro Jahr. Cloud-Token-Preise fallen 10-30% pro Jahr (bei alten Modellen) oder bleiben stabil (bei neuen Top-Modellen). Eine Break-Even-Rechnung von 2025 ist heute falsch. Mai 2026 sind die Schnittpunkte tendenziell höher – also pro-Cloud – als sie 2025 waren.

Vier Volumen-Stufen durchgerechnet

Annahmen: typisches Verhältnis 85% Input / 15% Output. Cloud-Modell: Claude Sonnet (USD 3/15) als Mittelwert. Self-Host: Llama 3.1 70B auf Hetzner A100-80 GPU-Server EUR 1'100/Monat = CHF 1'050. DevOps 6h x CHF 150 = CHF 900. Strom EUR 90 = CHF 85. Backup, Monitoring, Failover-Cloud-Bridge CHF 65. Total Self-Host: CHF 2'100/Monat. Self-Host-Kapazität: 50-80 Mio Tok/Monat bei 70% Auslastung mit vLLM.

Stufe 1: 1 Million Tokens/Monat (kleines Treuhand-Büro) Cloud Sonnet: 0.85M x 3 + 0.15M x 15 = USD 4.80/Monat = CHF 4.30. Plus DSFA-Aufwand einmalig CHF 800. Self-Host: CHF 2'100/Monat. Verhältnis: Cloud 488x günstiger. Klar Cloud, keine Diskussion.

Stufe 2: 10 Millionen Tokens/Monat (mittlere Kanzlei) Cloud Sonnet: 8.5 x 3 + 1.5 x 15 = USD 48/Monat = CHF 43. Self-Host: CHF 2'100/Monat. Verhältnis: Cloud 49x günstiger. Self-Host nur bei Datenschutz-Zwang.

Stufe 3: 100 Millionen Tokens/Monat (mittelgrosses Unternehmen / Voice-Agent-Anbieter) Cloud Sonnet: 85 x 3 + 15 x 15 = USD 480/Monat = CHF 430. Self-Host: CHF 2'100/Monat. Aber: 100M Token sind nahe Kapazitätsgrenze einer A100-80. Bei 70% Auslastung: passt. Bei Lastspitzen: zweite GPU oder Cloud-Bridge nötig. Verhältnis: Self-Host 5x teurer als Cloud. Self-Host nur bei Datenschutz-Zwang, Latenz-Anforderung, oder erwarteter Last-Verdoppelung.

Stufe 4: 1 Milliarde Tokens/Monat (KI-Plattform-Anbieter / SaaS mit AI-Feature) Cloud Sonnet: 850 x 3 + 150 x 15 = USD 4'800/Monat = CHF 4'300. Self-Host: Eine A100-80 reicht nicht. Drei bis vier A100-80 plus Tensor-Parallelism: CHF 4'500/Monat Hardware (Hetzner) + CHF 1'500 DevOps + CHF 300 Strom = CHF 6'300. Alternativ: 1 H100-80 plus Cloud-Bridge für Spitzen – CHF 4'500/Monat. Verhältnis: Self-Host 5-50% billiger, je nach Modell. Datenschutz und Latenz sprechen zusätzlich für Self-Host. Klar Self-Host.

Modell-Variation: Was, wenn Sie statt Sonnet ein anderes Modell nehmen? - Claude Opus (USD 15/75): Break-Even verschiebt sich auf 10 Mio Token. Bei 10M kostet Opus USD 240/Mo, Self-Host CHF 2'100. - GPT-4o (USD 2.50/10): ähnlich wie Sonnet, Break-Even bei 70-100 Mio. - Mistral Large 2 (USD 2/6): Break-Even bei 200 Mio. Bei 100M kostet Mistral USD 260/Mo. - die aktuelle DeepSeek-V-Generation (USD 0.30/0.50): Break-Even bei 600-800 Mio. Bei 100M kostet DeepSeek USD 33/Mo – Self-Host hier 65x teurer.

Lehrsatz: Wer Self-Host rechtfertigt, sollte zuerst prüfen, ob ein billigeres Cloud-Modell (die aktuelle DeepSeek-V-Generation oder Mistral Small) die Aufgabe nicht auch löst. In vielen Fällen ist „Self-Host vs. Cloud-Top-Modell" die falsche Frage – die richtige Frage ist „Cloud-Top vs. Cloud-Klein".

Break-Even in 6 Schritten

01Eine Woche Token-Volumen messen (LiteLLM-Log, Anthropic-Console, OpenAI-Usage). Input und Output separat. Hochrechnen auf 12 Monate.
02Modell-Mix bestimmen: Welcher Anteil Top-Modell, Standard, Budget? Daraus gewichteten Preis pro 1M Tokens ermitteln.
03Cloud-Jahreskosten ausrechnen: (Input-M x Input-Preis) + (Output-M x Output-Preis) x 12.
04Self-Host-Jahreskosten ausrechnen: 12 x (Hardware-Miete oder Abschreibung + DevOps + Strom + Failover + Monitoring).
05Hidden Costs addieren: Cloud (Rate-Limit-Handling, Vendor-Risk, Compliance-Overhead). Self-Host (Wertverlust 30-40%/Jahr, Ausfall-Risiko, Recruiting-Aufwand DevOps).
06Entscheidung treffen: Cloud-Jahreskosten < Self-Host x 0.7 = Cloud. Self-Host-Jahreskosten < Cloud x 0.8 = Self-Host. Dazwischen Hybrid prüfen.

Wann Self-Host wirklich rechtfertigt

Self-Host rechtfertigt sich rein finanziell ab folgenden Grenzwerten: - Bei Cloud-Top-Modellen (Claude Opus, GPT-4 Turbo, o1): 10-30 Mio Token/Monat - Bei Cloud-Standard-Modellen (Claude Sonnet, GPT-4o, Mistral Large): 50-100 Mio Token/Monat - Bei Cloud-Budget-Modellen (die aktuelle DeepSeek-V-Generation, Mistral Small, GPT-4o-mini, Haiku): 500 Mio - 1 Mrd Token/Monat

Nicht-finanzielle Gründe, die Self-Host rechtfertigen, auch wenn die Rechnung sonst nicht aufgeht: (a) regelmässige Verarbeitung von Personendaten besonders schützenswerter Kategorie (Art. 9 revDSG) – eine DSFA für Cloud-LLM ist machbar, aber bei besonders schützenswerten Daten kann sie zur Empfehlung Self-Host führen; (b) Mandanten-vertragliche Klauseln, die Auslandsdatenübertragung ausschliessen; (c) Latenz-Anforderungen unter 200ms, wo Cloud-API zu langsam ist (Voice-Agent in Echtzeit, Trading-Setups); (d) regulatorische Auflagen (FINMA, ISO 42001 in strenger Auslegung, branchenspezifische Vorgaben).

Hybrid-Setups sind in der Praxis am häufigsten und oft die wirtschaftlichste Lösung: 70-90% der Last läuft auf Cloud (kostenoptimal), 10-30% auf einem kleinen lokalen Modell für PII-Filter und sensible Klassifizierung. Hardware-Budget für den lokalen Knoten: CHF 8'000-15'000 Kauf oder EUR 500-700/Monat Hetzner GPU-Server. LiteLLM oder ein eigener Router (siehe Multi-LLM-Routing-Strategien) entscheidet pro Anfrage.

Wann Self-Host eine Fehlentscheidung ist

Self-Host ist eine Fehlentscheidung, wenn (a) das Volumen unter 10 Mio Token/Monat liegt und die Anwendung nicht regelmässig wachsen wird, (b) keine Inhouse-DevOps-Kapazität vorhanden ist und kein Managed-Service-Vertrag abgeschlossen wird, (c) die Last unregelmässig ist (Stosszeiten mit langen Leerlauf-Phasen), (d) die Inhalte nicht streng vertraulich sind und mit einer einfachen DSFA + Vertragsklauseln in EU-Cloud verarbeitet werden können.

Konkret: Ein 6-Personen-Treuhand-Büro, das maximal 5 Mio Token/Monat verarbeitet, hat keinen rationalen Grund für eigene Hardware. Selbst bei 100% Datenschutz-Anspruch ist Mistral Large 2 in EU-Region (USD 2/6) plus DSFA und Vertragsklauseln deutlich günstiger als jeder Self-Host. Die Differenz über 12 Monate: rund CHF 22'000 weniger Cloud-Kosten als Self-Host.

Ein Architekturbüro mit 4 Personen, das einmal pro Quartal eine grössere AI-Analyse macht (Bauplan-Prüfung, Normen-Check), hat ein extrem unregelmässiges Last-Profil. Eigene GPU ist 95% der Zeit Leerlauf – On-Demand-Cloud-LLM ist die einzige rationale Wahl.

Ein allgemeiner Hinweis: Wer Self-Host wegen „Datenschutz" einführt, ohne gleichzeitig Audit-Trail, RBAC, Backup und Update-Strategie zu implementieren, hat keinen Datenschutz, sondern nur die Hardware. Cloud-LLM mit Vertragsklauseln und Audit-Trail ist in diesem Fall der saubere Weg. Self-Host ist eine Disziplin, kein Schalter.

Vor- und Nachteile

STÄRKEN

Cloud unter 10 Mio Token/Monat unschlagbar günstig – CHF 5-50/Monat bei Standard-Modellen, keine Bindung
Self-Host über 100 Mio Token/Monat klar billiger – Stückkosten USD 0.02-0.04 pro 1M Tokens
Hybrid kombiniert Datenschutz-Vorteile mit Cloud-Kosten – typisch CHF 800-2'500/Monat für KMU mit Mischlast
Mathematische Klarheit: Token-Volumen mal Cloud-Preis vs. Self-Host-Fix – keine Glaubensfrage

SCHWÄCHEN

Cloud-Pricing ändert sich quartalsweise – Pipeline darf nicht hart an einen Anbieter gebunden sein
Self-Host braucht 4-12h/Monat DevOps oder Managed-Service CHF 800-2'500/Monat – Personalkosten verschwinden nicht
Hidden Costs (Wertverlust, Compliance, Lock-in) verzerren Naive-Rechnungen um Faktor 1.5-3
Datenschutz-Auflagen können Self-Host erzwingen, auch wenn die Rechnung Cloud-favoriert ist

Häufige Fragen

Was ist die simple Break-Even-Formel?

Break-Even-Token = Self-Host-Fixkosten-pro-Monat / Cloud-Preis-pro-1M-Token. Beispiel: Self-Host CHF 2'100, Cloud Sonnet effektiv USD 4.80 pro 1M (gewichtet) = ca. CHF 4.30. Break-Even: 2100 / 4.30 = 488 Mio Token/Monat. Bei Opus mit effektiv CHF 22 pro 1M: 2100/22 = 95 Mio. Bei DeepSeek mit CHF 0.34 pro 1M: 6'200 Mio.

Welche Hidden Costs werden am häufigsten vergessen?

Bei Cloud: Logging-Storage (CHF 50-200/Monat bei voller Anfrage-Aufzeichnung), Rate-Limit-Handling (Architektur-Overhead bei Spitzen), Vendor-Lock-in (Migration bei Preis-Sprung kostet 2-4 Wochen), Compliance-Audit (DSFA und Vertragsklauseln einmalig CHF 1'500-4'000). Bei Self-Host: GPU-Wertverlust 30-40%/Jahr (versteckte Abschreibung), Notdienst-Vertrag für Wochenend-Ausfälle, Update-Aufwand bei jedem neuen Modell-Release (alle 2-4 Monate), Strom-Spitzenlast-Tarife.

Lohnt sich Hybrid eher als Cloud-only oder Self-Host-only?

Ja, für Treuhand, Anwalt, KMU mit 5-50 Mio Token/Monat fast immer. Hybrid bedeutet: kleiner lokaler Server (Llama 3.1 8B auf einer RTX 4090, ca. CHF 200-400/Monat Hardware-Miete) für PII-Filterung und sensible 10-20% der Anfragen; der Rest geht in Cloud (Mistral EU, Claude Sonnet). Vorteile: Datenschutz-Argument für sensible Anfragen, Kosten-Effizienz für Standard-Anfragen, kein voller GPU-Server-Aufwand. LiteLLM-Routing macht die Verteilung automatisch.

Wie oft kippt die Rechnung neu?

Quartalsweise prüfen, jährlich grundsätzlich neu rechnen. Cloud-Preise fällen 10-30% pro Jahr auf etablierten Modellen. GPU-Preise fallen 25-35% pro Jahr (refurbished schneller). Modell-Effizienz steigt: neue Llama-Versionen brauchen weniger VRAM für gleiche Qualität, neue Cloud-Modelle bringen Cache und Off-Peak-Discounts. Eine Architektur-Entscheidung von 2024 ist 2026 oft nicht mehr optimal.

Quellen

a16z – Navigating the High Cost of AI Compute (break-even framework) · 2026-03
Vast.ai – Cost Calculator & GPU Pricing · 2026-05
Anthropic – Claude API Pricing & Cache Economics · 2026-05
Hetzner – GPU Server Pricing Matrix · 2026-05
Together AI – Inference Cost Benchmark (Llama 3.1, Mixtral, DeepSeek) · 2026-05
fairlane.systems – Hybrid Setup Case Study (Treuhand-Büro, 5 personen, May 2026) · 2026-05

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen