fairlane.systems

SELF-HOSTED OLLAMA · LLM-ANBIETER

Self-Hosted Ollama als LLM-Anbieter: Wann ersetzt es OpenAI, Anthropic oder Gemini?

Eigenes Ollama auf Hetzner-GPU oder im Büro-Server: rechnet sich ab 2-5 Mio Tokens/Monat, ersetzt Cloud-LLMs für revDSG-sensible Workloads, hat klare Qualitäts-Limits.

Recherche & Faktencheck: · Stand: 2026-05

Was ist Self-Hosted Ollama im Anbieter-Sinn?

Ollama ist eine Open-Source-Inferenz-Runtime, die offene LLM-Gewichte (Llama, Mistral, Qwen, DeepSeek-Distillationen, Gemma) auf einer einzigen Maschine laufen lässt und einen OpenAI-kompatiblen HTTP-Endpoint exponiert. Aus Anbieter-Sicht ist Self-Hosted Ollama eine vierte Kategorie neben US-Cloud (OpenAI/Anthropic/Gemini), EU-Cloud (Mistral, Cohere-EU) und Open-Weight-Provider (Groq, Together, DeepInfra).

Der Unterschied: bei Ollama gibt es keinen Anbieter. Die Maschine steht im eigenen Büro oder im eigenen Rechenzentrum-Slot. Es gibt keine API-Logs in fremde Hände, keine Drittland-Frage, keine Verbrauchsabrechnung. Dafür gibt es: Hardware-Kosten, Strom-Kosten, Wartungsaufwand, Modell-Qualität auf dem Stand der besten Open-Weight-Modelle (Llama 3.3 70B, Llama 4 Scout, DeepSeek-V3.2, Mistral-Small-3, Qwen 2.5) – nicht das jeweils aktuelle GPT-Spitzenmodell oder Claude Opus.

Wichtig: technisch ist Ollama dasselbe wie der Topic "Ollama" im Tech-Stack – diese Seite betrachtet Ollama aber aus der Anbieter-Perspektive. Wann ersetzt eine eigene Ollama-Instanz einen Cloud-Anbieter? Welche Workloads passen? Wie rechnet sich das gegenüber USD 0.10 für Gemini Flash-Lite oder USD 0.30 für Llama 4 via Together?

Warum es wichtig ist

Self-Hosted Ollama löst drei Probleme, die kein Cloud-Anbieter lösen kann.

Erstens: revDSG/StGB Art. 321 ohne Drittland-Diskussion. Wenn die Inferenz physisch im eigenen Büro oder in einem Schweizer Rechenzentrum läuft, gibt es keinen Datenfluss, über den eine Datenschutz-Behörde diskutieren könnte. Für Mandanten-Korrespondenz in einer Anwaltskanzlei, für Lohnbuchhaltungs-Triage in einer Treuhand, für KYC-Daten in einer Vermögensverwaltung ist das oft die einzige saubere Variante.

Zweitens: Kosten-Vorhersagbarkeit ab Volumen. Wer monatlich 5 Mio Output-Tokens generiert, bezahlt bei OpenAI das jeweils aktuelle GPT-Spitzenmodell (USD 10/1M Output) rund USD 50 – bei Claude Sonnet (USD 15/1M Output) rund USD 75. Aber wer 50 Mio Output-Tokens braucht (was bei Hochvolumen-Klassifikation, Belegerkennung, Mandanten-Chat realistisch ist), zahlt USD 500-750 monatlich. Eine eigene Hetzner-GPU-Box mit A100 80GB kostet rund CHF 600/Monat fix, egal ob 5 oder 500 Mio Tokens. Die Break-Even-Linie liegt bei rund 2-5 Mio Output-Tokens pro Monat – darunter Cloud, darüber Self-Host.

Drittens: Kontrolle über das Modell-Verhalten. Ein Cloud-Modell wird ohne Vorwarnung aktualisiert; Eure Prompts brechen über Nacht. Bei Ollama bleibt das Modell genau das Modell, das ihr ausgewählt habt – bis ihr es selbst aktualisiert. Für revisionsfähige Workflows (Art. 957a OR) ist das ein nicht-trivialer Punkt: bei einer Audit-Frage in zwei Jahren könnt ihr genau das Modell wieder hochfahren, das die damalige Antwort gegeben hat.

Wie es funktioniert

Hardware-Sizing Mai 2026 nach Modell:

Kleine Modelle (CPU-fähig): Llama 3.3 8B, Mistral-Small-3 (8B), Qwen 2.5 7B. In Q4 quantisiert ~5-6 GB Speicher. Laufen auf einem starken CPU-Server (32 Kerne Intel Xeon oder AMD EPYC, 64 GB RAM) – Durchsatz 5-10 Tokens/Sekunde. Reicht für asynchrone Workloads (Belegerkennung im Batch, Klassifikation, Triage). Für interaktiven Chat zu langsam.

Mittlere Modelle (kleine GPU): Llama 3.3 8B + RAG, Mistral-Small-3 mit Reasoning, Qwen 2.5 14B. RTX 3060 12GB oder kleine Cloud-GPU (NVIDIA L4, A10). Durchsatz 30-50 Tokens/Sekunde. Reicht für interaktive Anwendungen mit 1-2 Benutzern.

Grosse Modelle (Production-GPU): Llama 3.3 70B, Llama 4 Scout (109B MoE), DeepSeek-R1-Distill-32B, Mistral-Large-3. A100 80GB, H100, oder Mac Studio M3 Ultra 192GB. Durchsatz 50-100 Tokens/Sekunde für 70B Q4. Reicht für 5-20 gleichzeitige Benutzer.

Enterprise-Modelle: Llama 4 Maverick 400B, DeepSeek-V3 671B. 8x H200 oder 16x H100. Kein KMU-Setup. Realistisch nur über Cloud-GPU-Miete oder Provider.

Kosten-Modell Hetzner GEX44 (A100 80GB): rund CHF 600-700/Monat. Bei einem Schweizer Anbieter (Infomaniak Public Cloud GPU, Exoscale GPU, Swiss Cloud Computing): CHF 1200-2000/Monat – dafür Daten physisch in der Schweiz. Büro-Lokal mit eigener H100: einmalig rund CHF 30-40k, plus Strom (250 W idle, 500 W unter Last = ca. CHF 30/Monat).

Deployment-Stack: Ollama installieren (curl-Script), Modell pullen (ollama pull llama3.3:70b-instruct-q4_K_M), Server starten (ollama serve), Reverse-Proxy davor (Nginx mit TLS + Auth-Token), LiteLLM-Gateway für Routing und Logging.

CIO-Entscheidung: Self-Host wirtschaftlich oder nicht?

  1. 01Monatliches Token-Volumen messen oder schätzen: Input und Output getrennt, über 90 Tage.
  2. 02Cloud-Kosten gegenrechnen: Bei aktuellem Volumen wie viel kostet Gemini Flash, Claude Sonnet, die aktuelle DeepSeek-V-Generation monatlich?
  3. 03Qualitäts-Test: Eine Sample-Aufgabe (10-30 typische Anfragen) gegen Llama 3.3 70B und Mistral-Small-3 laufen lassen. Reicht das?
  4. 04Hardware-Variante: Hetzner GEX44 (CHF 600-700/Monat, DE), Infomaniak/Exoscale GPU (CHF 1200-2000/Monat, CH), eigene H100 (CHF 30-40k einmalig + Strom).
  5. 05MLOps-Aufwand abschätzen: Wer betreibt die GPU? Wer macht Updates? Wer reagiert auf Ausfall um 02:00 Uhr?
  6. 06Pilot-Modell: 4 Wochen Llama 3.3 8B/70B oder Mistral-Small-3 auf einer Test-Maschine, parallel zur Cloud. Qualität und Latenz vergleichen.
  7. 07Routing-Entscheidung via LiteLLM: Welche Workloads zu Self-Host, welche zu Cloud? Tier-Modell aufschreiben und dokumentieren.

Wann Self-Host einsetzen

Self-Hosted Ollama ist die richtige Wahl, wenn (a) das Volumen über 2-5 Mio Output-Tokens pro Monat liegt UND eine 70B-Klasse-Qualität ausreicht, (b) Daten so vertraulich sind, dass jeder Cloud-Aufruf eine TIA braucht, oder (c) Budget-Planung wichtig wichtiger ist als Spitzenqualität.

Konkrete Anwendungen: Belegerkennung im Batch für eine Treuhand mit 500 Mandanten (Llama 3.3 8B + Tesseract auf CPU-Server, nächtlich, ohne Cloud-Kosten), Mandanten-FAQ einer Kanzlei (Llama 3.3 70B mit RAG auf eigener A100, Daten in der Schweiz), Mahnwesen-Triage einer KMU (Mistral-Small-3 auf RTX 3060, in-Office, ohne API-Quota-Sorgen), Code-Review-Bot für ein Entwickler-Team (DeepSeek-R1-Distill-32B auf Hetzner-GPU, ohne Code in fremde Cloud).

Im Mix mit Cloud: Self-Host Ollama als Default-Route für Tier-1-vertrauliche Workloads, Cloud (Gemini Flash, Claude Sonnet) als Eskalation für Workloads, die Spitzenqualität brauchen UND keine harten Datenschutz-Anforderungen haben. LiteLLM macht das Routing transparent – Anwendungscode kennt nur einen Endpoint.

Wann NICHT

Self-Hosted Ollama ist die falsche Wahl, wenn (a) das Volumen niedrig ist (unter 1 Mio Tokens/Monat) – dann ist Gemini Flash-Lite oder ein anderer günstiger Cloud-Anbieter wirtschaftlich besser, (b) der Workload Spitzenqualität braucht (juristische Spitzen-Argumente, mathematische Forschung, kreatives Schreiben auf höchstem Niveau) – Open-Weight-Modelle liegen 5-15% hinter Claude Opus und das jeweils aktuelle GPT-Spitzenmodell, (c) das Team keine MLOps-Routine hat.

MLOps-Routine heisst: GPU-Treiber-Updates ohne Down-Time, Monitoring der VRAM-Auslastung, A/B-Tests bei Modell-Versionen, Quantisierungs-Prüfung (Q4 vs Q5 vs Q8 – Qualität vs Speicher), Tokenizer-Konsistenz bei Migration, Inferenz-Server-Updates (vLLM/Ollama-Versionen). Wer das nicht hat, kauft sich mit Self-Host eine Vollzeit-Aufgabe.

Weitere Fälle: Live-Voice-Agenten mit unter-300ms-Latenz sind ohne dedizierte Optimierung schwer. Streaming auf 5+ gleichzeitige Benutzer mit 70B-Modell braucht ernsthafte GPU-Investition oder gestaffelte Anfragen. Multimodal (Bild, Audio, Video) ist mit Ollama eingeschränkt – die Cloud-Anbieter sind hier voraus.

In-Office-Server: vorsichtig. Klimatisierung (eine H100 macht 500-700 W Wärme), Strom-Absicherung, Diebstahl-Schutz, Backup-Strategie. Für KMU oft die schlechtere Variante als eine gemietete Schweizer Cloud-GPU.

Vor- und Nachteile

STÄRKEN

  • revDSG/StGB Art. 321 ohne Drittland-Diskussion bei Schweizer Hosting
  • Kosten-Fixum: ab 2-5 Mio Tokens/Monat wirtschaftlich gegenüber Cloud
  • Modell-Stabilität: keine unangekündigten Updates wie bei Cloud-Anbietern
  • OpenAI-kompatibler Endpoint – Code identisch zu Cloud-Aufrufen
  • Audit-tauglich: gleiche Modell-Version Jahre später wieder lauffähig

SCHWÄCHEN

  • Open-Weight-Qualität liegt 5-15% hinter Claude Opus und das jeweils aktuelle GPT-Spitzenmodell
  • MLOps-Aufwand: GPU-Treiber, Quantisierung, Inferenz-Server-Updates
  • Multimodal eingeschränkt im Vergleich zu Gemini 2.5 Pro oder das jeweils aktuelle GPT-Spitzenmodell
  • 70B-Klasse braucht echte GPU (A100 80GB+ oder Mac Studio Ultra)
  • Hardware-Ausfall-Risiko ohne Cloud-SLA – Failover muss bewusst gebaut werden

Häufige Fragen

Welches Modell soll ich auf einer Büro-GPU laufen lassen?

Bei einer einzelnen RTX 3060 12GB: Llama 3.3 8B oder Mistral-Small-3, Q4-quantisiert. Bei einer A100 80GB: Llama 3.3 70B als Default für interaktive Workloads, DeepSeek-R1-Distill-32B für Reasoning, Mistral-Large-3 für EU-Compliance-Fokus. Drei Modelle parallel auf einer A100 ist unrealistisch, eines aktiv plus ein zweites schnell ladbar ist die Praxis.

Lohnt sich ein Schweizer Hoster gegenüber Hetzner DE?

Wenn die Compliance-Anforderung "Daten verlassen die Schweiz nicht" lautet: ja. Mehrpreis liegt bei Faktor 2-3 (CHF 1200-2000 vs CHF 600-700), bringt aber die saubere revDSG-Antwort. Wenn die Anforderung "Daten verlassen die EU nicht" lautet, reicht Hetzner Falkenstein oder Helsinki. Pro Mandantengruppe entscheiden, nicht pauschal.

Wie messe ich, ob Self-Host sich rechnet?

Faustregel: Self-Host (CHF 600/Monat Hetzner-GPU) rechnet sich ab dem Punkt, wo Cloud-Kosten 600 CHF/Monat übersteigen. Bei einem Tier-1-Modell wie Claude Sonnet (USD 15/1M Output) sind das rund 40 Mio Output-Tokens. Bei Gemini Flash (USD 2.50/1M Output) sind es 240 Mio. Bei Flash-Lite (USD 0.40/1M Output) sind es 1.5 Mia – da wird Self-Host nie wirtschaftlich, ausser der Daten-Schutz erzwingt es.

Was passiert bei Hardware-Ausfall?

Bei Hetzner: SLA 99.9%, im Ausfallfall in der Regel 4-12h Wiederherstellung. Bei Infomaniak/Exoscale: vergleichbar. Bei eigener Büro-Hardware: kein SLA, abhängig von Ihrem Anbieter und Ihrer Lagerhaltung. Empfehlung: zweite Cloud-Route als Failover in LiteLLM konfigurieren – bei Self-Host-Ausfall fällt der Traffic auf eine bezahlte Cloud-Route, automatische Wiederherstellung in Sekunden.

Verwandte Themen

OLLAMA · TECHOllama: lokale LLMs auf eigener Hardware – wo es funktioniert und wo nichtSELF-HOSTED VS. CLOUD · AI-KONZEPTSelf-Hosted vs. Cloud-LLM: Entscheidungs-Framework für KMU und TreuhandMETA LLAMA · LLM-ANBIETERMeta Llama im Schweizer Einsatz: Open-Weight-Modell, Self-Host oder ProviderMISTRAL · LLM-ANBIETERMistral AI aus CH-Treuhand-Sicht: EU-Residency, Pricing, SouveränitätMULTI-LLM GATEWAY · SERVICEMulti-LLM Gateway: Acht Anbieter, ein Eingang, Compliance-RoutingrevDSG · COMPLIANCErevDSG / revFADP und KI: Was das revidierte Schweizer Datenschutzgesetz für LLM-Nutzung bedeutet

Quellen

  1. Ollama Documentation – Self-Hosted LLM Runtime · 2026-05
  2. Llama 3.1 Hardware Requirements: 8B, 70B, 405B · 2026-04
  3. Running LLMs Locally with Ollama and llama.cpp (2026 guide) · 2026-03
  4. GPU Requirements 2026 (Spheron) – Llama 4 / DeepSeek V3 / Qwen 3 · 2026-04
  5. Ollama VRAM Requirements: Complete 2026 Guide · 2026-02

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen