EIGENES LLM · KOSTEN

Was kostet ein eigenes LLM? Total Cost of Ownership im Mai 2026

Hardware, Strom, DevOps, Wartung: alle TCO-Bausteine für ein selbst gehostetes Sprachmodell mit konkreten Zahlen in CHF und USD für Mai 2026.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Worum geht es?

Ein eigenes LLM heisst: Sie betreiben ein Open-Weight-Modell (Llama 3.1, Mistral, Qwen, DeepSeek, Gemma) auf eigener oder gemieteter GPU-Hardware, statt pro Token bei OpenAI, Anthropic oder Google zu zahlen. Die Frage „was kostet das wirklich" lässt sich nur sauber beantworten, wenn alle Posten auf dem Tisch liegen: Hardware-Anschaffung oder Miete, Stromverbrauch, Kühlung, DevOps-Zeit, Modell-Updates, Backup, Monitoring, Ausfallrisiko, Versicherung. Wer nur den GPU-Preis nennt und mit dem Cloud-Token-Preis vergleicht, rechnet sich in die Tasche.

Dieser Beitrag führt eine Total-Cost-of-Ownership-Rechnung (TCO) über 36 Monate. Die Zahlen stammen aus dem Mai 2026 von Hetzner, Vast.ai, Together AI, Lambda Labs, RunPod sowie aus dem a16z-TCO-Modell und dem Vergleich der EleutherAI-Compute-Studie. Ziel: Sie wissen am Ende, wann sich ein eigenes LLM rechnet und wann nicht, und Sie können die Rechnung für Ihre eigene Last selbst nachvollziehen.

Kurz vorweg: Für ein typisches Schweizer KMU oder eine 10-Personen-Treuhand mit unter 5 Millionen Token pro Monat lohnt sich ein eigenes LLM rein finanziell nicht. Lohnt es sich über 50 Millionen Token pro Monat und bei dauerhaft sensiblen Inhalten, ist es darunter eine Datenschutz-Frage, keine Kostenfrage.

Warum die TCO-Frage wichtig ist

Falsche Kostenrechnungen treffen kleine Büros besonders hart. Wir sehen regelmässig zwei Fehlmuster. Erstens: Ein Geschäftsführer liest einen Blogartikel über selbst gehostete Llama-Modelle, kauft einen Server für CHF 22'000 und stellt nach sechs Monaten fest, dass die Auslastung bei 3% liegt – der Kapitaleinsatz arbeitet nicht. Zweitens: Eine Treuhand-Inhaberin verzichtet aus Datenschutz-Gründen auf Cloud-LLM, ohne zu rechnen, ob ihre 4 Millionen Token pro Monat einen eigenen Server rechtfertigen. Beide Fehler kosten je nach Gehaltsstruktur zwischen CHF 15'000 und CHF 60'000 pro Jahr.

Zweiter Punkt: Ein eigenes LLM ist eine Investitionsentscheidung, kein Abo. Wer einen Server kauft, bindet das Kapital 36 bis 60 Monate. In dieser Zeit veraltet die Hardware: Eine 2025 gekaufte H100 ist Mitte 2026 schon nicht mehr State of the Art (H200 und B100 sind verfügbar). Wer nicht abschreibt, hat in der Bilanz einen falschen Wert. Wer abschreibt, muss in der TCO-Rechnung den Wertverlust ehrlich einrechnen – typischerweise 30 bis 40% pro Jahr in der ersten Generation.

Dritter Punkt: Personal. Ein selbst gehostetes Modell braucht jemanden, der GPU-Treiber aktualisiert, Modell-Versionen wechselt, Inference-Server (vLLM, TGI, llama.cpp, Ollama) tunt, Backups testet und das Monitoring liest. Ohne diese Person ist die Hardware nicht „günstig", sondern „nicht produktionsreif". Externe Managed-Services (siehe Managed-Service-Monitoring) kosten zwischen CHF 800 und CHF 2'500 pro Monat.

TCO-Komponenten im Detail

Eine ehrliche TCO-Rechnung für ein eigenes LLM hat sieben Posten.

1. Hardware-Kauf oder Miete. Eine Nvidia A100 80GB SXM kostet im Mai 2026 zwischen CHF 17'000 und CHF 22'000 im Einkauf (Refurbished ab CHF 12'000). Eine H100 80GB liegt bei CHF 35'000 bis CHF 40'000. Eine H200 141GB bei CHF 45'000 bis CHF 55'000. Cloud-Miete: A100 80GB on-demand bei AWS/GCP/Azure rund USD 4 bis USD 5 pro Stunde, bei spezialisierten Anbietern (Lambda Labs, RunPod, Vast.ai) USD 1.07 bis USD 2.50 pro Stunde. Reserved 1-Jahr senkt das um 30 bis 50%. Hetzner GPU-Server (RTX 6000 Ada, A100) liegen bei EUR 600 bis EUR 1'400 pro Monat – kein Stundenmodell, sondern fix.

2. Strom. Eine A100 zieht 300 bis 400 Watt unter Last, eine H100 bis 700 Watt. Bei 24/7-Betrieb sind das 2'600 bis 6'100 kWh pro Jahr. Schweizer Industriestrom liegt im Mai 2026 bei CHF 0.18 bis CHF 0.28 pro kWh. Das macht CHF 470 bis CHF 1'700 pro Jahr nur für den Strom, plus 30 bis 50% für Kühlung – wenn der Server im Büro steht, addiert sich Klimatisierung dazu.

3. Personal/DevOps. Konservative Schätzung für einen produktiven Betrieb: 4 bis 12 Stunden pro Monat für Updates, Monitoring, Modell-Wechsel, Patch-Day. Bei interner Verrechnung CHF 120 bis CHF 180 pro Stunde sind das CHF 480 bis CHF 2'160 pro Monat oder CHF 5'760 bis CHF 25'920 pro Jahr. Externe Managed-Services liegen in derselben Spanne.

4. Modell-Lizenzkosten. Meta Llama 3.1, Mistral Open-Models, Qwen, DeepSeek, Gemma sind unter Open-Weight-Lizenz (Apache 2.0, Llama 3 Community License) gratis für kommerzielle Nutzung. Achtung: Llama 3.1 hat eine Klausel ab 700 Mio MAU, irrelevant für KMU. Mistral Large 2 hat eine Forschungs-only-Lizenz – kommerzielle Nutzung braucht Mistral La Plateforme.

5. Software-Stack. Inference-Engines (vLLM, TGI, llama.cpp, Ollama) sind Open Source. Observability (Grafana, Prometheus, Loki) ebenso. Vector-DB Qdrant (siehe Qdrant) hat einen kostenlosen Self-Host-Modus. Wer Multi-LLM-Routing nutzt, betreibt zusätzlich LiteLLM (Open Source) als Gateway.

6. Backup, Redundanz, Ausfallrisiko. Ein zweiter GPU-Server für Failover verdoppelt die Hardware-Kosten. Alternativ: Failover auf Cloud-LLM mit LiteLLM-Routing (typisch genutztes Muster: 90% lokal, 10% Cloud bei Lastspitzen oder Ausfall).

7. Wertverlust/Abschreibung. Lineare Abschreibung über 36 Monate ist gängig: 33% pro Jahr. Bei einer H100 für CHF 38'000 sind das CHF 12'650 pro Jahr nur als bilanzieller Wertverlust.

Beispiel-Rechnung: 10-Personen-Treuhand, 200 Anfragen pro Monat zu je 8'000 Input und 1'500 Output Token. Das sind monatlich 1.6 Mio Input und 0.3 Mio Output Token, also 1.9 Mio Token gesamt. Cloud (Claude Sonnet): rund USD 10 pro Monat, also CHF 110 pro Jahr. Self-Host (Hetzner GPU-Server mit RTX 6000 Ada, EUR 750/Monat) plus DevOps 6h/Monat (CHF 720/Monat): rund CHF 18'400 pro Jahr. Differenz: Faktor 165 zugunsten Cloud. Self-Host lohnt sich hier ausschliesslich aus Datenschutz-Gründen, nicht aus Kostengründen.

TCO-Rechnung in 6 Schritten

01Token-Volumen messen: Eine Woche lang in einer Test-Pipeline (LiteLLM, OpenAI-Logging, Langfuse) protokollieren. Hochrechnen auf 12 Monate.
02Cloud-Baseline berechnen: Volumen mal Provider-Preis (Claude 3/15, GPT-4o 2.50/10, Mistral Large 2/6 USD pro 1M Token Input/Output). Plus 20% für Embeddings.
03Hardware-Szenarien definieren: (a) Hetzner-GPU-Server EUR 600-1400/Monat, (b) Kauf A100 80GB CHF 17-22k, (c) Kauf H100 80GB CHF 35-40k. Jeweils mit Abschreibung 36 Monate.
04DevOps-Aufwand schätzen: 4-12h/Monat zu CHF 120-180. Externer Managed-Service: CHF 800-2500/Monat.
05Strom-Kosten dazu: 300-700W mal 24/7 mal CHF 0.18-0.28/kWh, plus 30% Kühlung.
06Break-Even ausrechnen: Bei welchem monatlichen Token-Volumen kreuzen sich Cloud-Kurve und Self-Host-Kurve? Faustregel: 5 Mio = Cloud, 50 Mio = prüfen, 100+ Mio = Self-Host.

Wann sich ein eigenes LLM rechnet

Ein eigenes LLM rechnet sich finanziell, wenn das monatliche Token-Volumen über 50 Millionen liegt und die Last gleichbleibend ist. Beispiel: Ein 80-Personen-Anwaltsbüro mit dauerhafter Recherche-Last, Klausel-Prüfung, Dokument-Vergleich kommt bei 80 Anfragen pro Tag mal 12'000 Token im Schnitt auf rund 30 Mio Token monatlich. Bei Cloud wären das USD 200 bis USD 400 pro Monat – noch immer billiger als Self-Host. Erst ab 100 Mio Token mit lokaler Hardware bei 80% Auslastung kippt die Rechnung.

Nicht-finanzielle Gründe überwiegen oft. Self-Host rechnet sich, wenn (a) Personendaten besonders schützenswerter Kategorie (Art. 9 revDSG) regelmässig verarbeitet werden, (b) Mandanten vertraglich Cloud-Verarbeitung ausschliessen, (c) Berufsgeheimnis nach StGB 321 ohne Einwilligung des Mandanten gilt, (d) Latenz unter 200ms verlangt wird (z.B. Voice-Agent in Echtzeit).

Hybrid-Setups sind in der Praxis am häufigsten: Ein lokaler kleiner Server mit Llama 3.1 8B für PII-Filterung und sensible Klassifizierung (Hardware-Budget CHF 8'000 bis CHF 15'000), dazu Cloud-LLM (Claude, Mistral EU) für den Rest. So bleiben die Stamm-Daten lokal, die Last in der Cloud, und die Kosten sind überschaubar.

Wann es sich nicht lohnt

Ein eigenes LLM lohnt sich nicht, wenn (a) das monatliche Token-Volumen unter 5 Millionen liegt, (b) die Last unregelmässig ist (z.B. 3 Tage Vollast, 27 Tage Leerlauf pro Monat), (c) keine Inhouse-DevOps-Kapazität vorhanden ist, (d) die Inhalte nicht streng vertraulich sind.

Konkret heisst das: Ein Anwaltsbüro mit 4 Personen, das nur sporadisch KI-Recherche macht, kauft sich mit einer eigenen GPU eine Investitionsruine. Ein Treuhand-Büro mit 8 Personen und 50 Mandanten ohne dauerhafte AI-Last ebenso. Eine kleine Praxis im Gesundheitsbereich, die monatlich 200 Dokumente klassifiziert, ist mit Cloud-LLM in EU-Region (Mistral, Anthropic EU) plus DSFA und Standard-Vertragsklauseln besser bedient.

Die häufigste Fehlentscheidung: Reflex „Datenschutz heisst eigene Hardware". Datenschutz heisst „keine Personendaten unkontrolliert in die Cloud". Es heisst nicht „keine Cloud überhaupt". Eine EU-gehostete API mit Vertragsklauseln, DSFA und Daten-Minimierung erfüllt revDSG-Anforderungen für die meisten Inhalte, ohne dass Hardware angeschafft werden muss. Wenn 2% Ihrer Anfragen wirklich Hochsensibles enthalten, filtern Sie diese 2% mit einem lokalen kleinen Modell – der Rest geht in die EU-Cloud.

Vor- und Nachteile

STÄRKEN

Token-Kosten gegen null bei hoher Last (>50 Mio Token/Monat), nur noch Strom + Personal
Daten verlassen die eigene Infrastruktur nicht – sauberes revDSG- und Berufsgeheimnis-Argument
Latenz unter 200ms möglich, ohne von externer API-Verfügbarkeit abhängig zu sein
Kapazität planbar und reservierbar, keine Rate-Limits oder überraschenden Provider-Preiserhöhungen

SCHWÄCHEN

Kapitalbindung CHF 8'000-55'000 plus Abschreibung 33%/Jahr – die GPU veraltet schneller als sie sich amortisiert
DevOps-Aufwand 4-12h/Monat oder Managed-Service CHF 800-2'500/Monat – Personalkosten verschwinden nicht
Bei <10 Mio Token/Monat ist Cloud immer billiger; Self-Host rechnet sich nur ab 50 Mio
Modell-Qualität: Open-Weight-Modelle liegen bei juristischer Faktentreue 5-15% hinter Claude/GPT-4o

Häufige Fragen

Was kostet eine GPU im Jahr 2026?

A100 80GB SXM: CHF 17'000-22'000 neu, ab CHF 12'000 refurbished. H100 80GB: CHF 35'000-40'000. H200 141GB: CHF 45'000-55'000. RTX 6000 Ada (48GB) als gute Mittelklasse: CHF 7'500-9'500. Cloud-Miete: A100 USD 1.07-5/h je nach Anbieter (Vast.ai am günstigsten, AWS am teuersten). Hetzner GPU-Server fix: EUR 600-1'400/Monat.

Ab wann lohnt sich der Kauf statt der Miete?

Faustregel: Wenn die GPU 18+ Monate dauerhaft mit mindestens 60% Auslastung läuft, ist Kauf billiger. Bei niedrigerer Auslastung oder kürzerer Bindung gewinnt die Miete. Konkret: Eine A100 für CHF 19'000 amortisiert über 36 Monate bedeutet CHF 528/Monat – Hetzner-Miete der gleichen Klasse liegt bei EUR 600-800/Monat. Kauf rechnet sich also nur dann klar, wenn Sie Strom, Standort und Wartung selbst stellen und 100% nutzen.

Brauche ich wirklich einen DevOps-Mitarbeiter?

Für produktiven Betrieb ja, ausser Sie kaufen einen Managed-Service zu. GPU-Treiber, CUDA-Versionen, Modell-Updates (alle 2-4 Monate erscheint ein neues Llama oder Mistral), Inference-Server-Updates, Monitoring-Alerts, Backup-Validierung: das sind 4-12 Stunden im Monat. Ohne diese Pflege ist die Anlage in 6 Monaten nicht mehr produktiv. Externer Managed-Service kostet CHF 800-2'500/Monat und ist für KMU oft die wirtschaftlichste Lösung.

Was kostet Strom plus Kühlung pro Monat?

A100 80GB unter Last 350W, 24/7 ergibt 252 kWh/Monat. Bei CHF 0.22/kWh Schweizer Industriestrom sind das CHF 55/Monat. Plus 30-50% Kühlung (wenn der Server im klimatisierten Raum steht): CHF 70-85/Monat. H100 bei 700W das Doppelte: CHF 140-170/Monat. Im eigenen Büro ohne Server-Raum schätzen Sie eher das Dreifache wegen ineffizienter Klimatisierung.

Quellen

a16z – Navigating the High Cost of AI Compute (TCO model for GPU inference) · 2026-03
Vast.ai – On-Demand GPU Pricing (A100/H100/H200) · 2026-05
Hetzner – Dedicated GPU Server Pricing (RTX 6000 Ada, A100) · 2026-05
Together AI – Inference Pricing (Llama 3.1, Mistral, Qwen) · 2026-05
Lambda Labs – GPU Cloud Pricing & Reserved Instances · 2026-05

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen