fairlane.systems

GPU-CLOUD · TOOL-VERGLEICH

GPU-Cloud-Anbieter im Vergleich: RunPod, Vast.ai, Lambda, CoreWeave, Paperspace, Exoscale, Hetzner, Together, Replicate, Modal

Zehn ernsthafte Optionen für GPU-Stunden, von Auction-Marktplatz bis Enterprise-Premium. Stand Mai 2026 mit aktuellen Preisen pro H100, A100 und RTX 4090.

Recherche & Faktencheck: · Stand: 2026-05

Was ist GPU-Cloud?

GPU-Cloud bezeichnet das stundenweise Mieten von Grafikprozessoren über das Internet. Statt eine eigene Workstation mit einer H100-Karte für rund USD 30.000 zu kaufen, mietet man die gleiche Karte für einige Stunden oder Tage und zahlt nur die tatsächliche Nutzung. Die Spannweite reicht von Hobby-Inferenz auf einer RTX 4090 für USD 0.18/Stunde bis zu Enterprise-Training auf einem H100-Cluster mit InfiniBand für USD 7/Stunde pro Karte.

Der Markt teilt sich Mai 2026 in vier Segmente. Erstens: Auction-Marktplätze (Vast.ai), bei denen private Anbieter Restkapazität versteigern – billig, aber unzuverlässig. Zweitens: Dedicated-GPU-Clouds (Lambda Labs, RunPod, CoreWeave) mit eigenen Rechenzentren, klaren SLAs und Reserved-Pricing. Drittens: Serverless-Inference-Provider (Together AI, Replicate, Modal), bei denen man kein Stunden-Modell, sondern Tokens oder Sekunden bezahlt. Viertens: Allzweck-Cloud mit GPU-Option (Hetzner, Exoscale) – interessant für Dauer-Workloads mit fixem Monatspreis.

Für Schweizer KMU mit revDSG-Anspruch ist die Region der wichtigste Filter. Nur Exoscale (Zürich, Lausanne) und Hetzner (Falkenstein, Helsinki, Nürnberg) bieten EU/CH-Hosting an. Alle anderen Anbieter sind primär USA-basiert, einige mit EU-Optionen (RunPod Sweden, CoreWeave UK/Spain, Paperspace EU). Bei Berufsgeheimnis-Daten (StGB Art. 321) ist das ein Drittlandtransfer-Problem, bei öffentlich nutzbarem Training (Open-Weight-Finetuning) eher nachrangig.

Warum die Wahl wichtig ist

Die GPU-Stunde ist der teuerste Posten in jedem ernsthaften AI-Projekt – nicht der Token, nicht der Datenwissenschaftler. Wer ein Open-Weight-Modell wie Llama 3.1 70B mit eigenen Daten finetunen will, braucht 8x A100 für 24–72 Stunden. Bei Lambda Labs sind das USD 8.80/h × 24h × 3 Tage = rund USD 633. Bei CoreWeave Premium-Setup das Dreifache. Bei Vast.ai Auction die Hälfte – wenn die Auktion nicht abbricht.

Drei Achsen entscheiden über die richtige Wahl. On-Demand vs Reserved vs Spot: On-Demand ist sofort verfügbar zum Listenpreis. Reserved ist 30–60% billiger, dauert aber Monatsvertrag. Spot/Community ist nochmal 40% billiger, kann aber jederzeit unterbrochen werden. Für ein 3-Tages-Finetuning ist On-Demand richtig, für einen Dauer-Inferenz-Server Reserved, für ein robustes Batch-Training Spot mit Checkpoint-Logik.

EU/CH-Region: Nur fünf der zehn Anbieter haben echte EU-Präsenz, nur einer (Exoscale) hat CH-Präsenz. Wer Mandantendaten für Embedding-Vorbereitung verarbeitet, braucht entweder EU/CH oder einen sauberen Transfer-Impact-Assessment-Pfad. Im Zweifel: Exoscale für CH-Compliance, Hetzner für EU mit Top-Preis-Leistung.

Workload-Typ: Dauer-Inferenz mit konstanter Last passt zu Hetzner/Exoscale (Monatsmiete). Bursty-Training-Jobs passen zu RunPod oder Lambda (Stundenmiete). Serverless-Inference (LLM-API ohne eigene Karte) passt zu Together oder Replicate. Eine Workstation-ähnliche Notebook-Erfahrung mit Jupyter passt zu Paperspace Gradient.

Die zehn Anbieter im Detail

RunPod (Hong Kong + USA + EU-Sweden): Sehr günstige Listenpreise – A100-80GB ab USD 1.69/h, H100 ab USD 2.59/h im Secure-Cloud-Modus, im Community-Cloud-Modus noch tiefer. Spot-Verfügbarkeit gut. Sehr beliebt für Hobby-AI und Startups. EU-Region Sweden seit 2025 stabil.

Vast.ai (verteilt weltweit): Auction-Marktplatz – private Anbieter mit Heimstations stellen ihre Karten zur Verfügung. RTX 4090 ab USD 0.18/h, A100 ab USD 0.40/h. Verfügbarkeit schwankt täglich. Kein SLA, keine Garantie auf Datenort. Geeignet für Experimente, ungeeignet für Produktion oder vertrauliche Daten.

Lambda Labs (USA): Dedicated GPU Cloud, der Klassiker für ML-Engineers. A100-40GB ab USD 1.10/h, H100 ab USD 2.49/h. Klare CLI, gute Reserved-Verträge für 1-Year/3-Year. Schwäche: keine EU-Region Mai 2026.

CoreWeave (USA-East/West + UK + Spain): Premium-Enterprise-GPU mit Top-Networking (InfiniBand) und grösseren Clustern. H100 ab USD 4.25/h, H200 USD 4.50–7/h. Teuer pro Stunde, aber bei Multi-Node-Training (32+ GPUs) durch besseren Throughput effektiv günstiger. Für ernsthafte Training-Workloads.

Paperspace (USA + EU, jetzt zu DigitalOcean): Gradient-Plattform mit guter Notebook-Erfahrung. A100 ab USD 3.18/h. Bequem für Forschung und Lehre, weniger für Produktion. EU-Region in Amsterdam.

Exoscale GPU (Zürich + Lausanne CH): A100-Verfügbarkeit Mai 2026 in CH, CHF-Preise, FINMA-konformes Hosting. Die einzige echte CH-GPU-Cloud. Pflicht-Option für Bank-/Versicherungs-Mandanten, die in der Schweiz bleiben müssen.

Hetzner GPU (Falkenstein DE): Reserved-only-Modell, keine On-Demand-Stunde. Preise ab EUR 600/Monat für Einzel-GPU bis EUR 1500+/Monat für Multi-GPU-Server. Bestes Preis-Leistungs-Verhältnis für 24/7-Workloads in EU. Schwäche: keine Spot-Option, keine Stundenmiete.

Together AI (USA): Serverless Inference für Open-Weight-Modelle. Pay-per-Token, nicht pay-per-hour. Llama 3.1 70B ab USD 0.88/M Tokens, 405B ab USD 5/M Tokens. Bequem für LLM-API-Wechsel ohne eigene Karte.

Replicate (USA): Public-Model-Hub mit Pay-per-Second-Inferenz. Tausende Open-Weight-Modelle hostbar mit einer URL. Ideal für Prototypen und Demo-Endpoints, weniger für Hoch-Last-Produktion.

Modal (USA): Serverless Python-First für ML. Dekorator-basierte Functions, die auf GPU laufen. H100 Spot ab USD 2/h, On-Demand bis USD 5/h. Sehr gute Developer Experience für Python-Teams, weniger Operator-Lock-in als Replicate.

Auswahl-Workflow in 6 Schritten

  1. 01Datenklassifikation festlegen: Berufsgeheimnis, revDSG-streng, normal, öffentlich. Daraus folgt die Region (CH/EU/USA).
  2. 02Workload-Profil bestimmen: Bursty Training, Dauer-Inferenz, Notebook-Forschung, Serverless-Inferenz. Daraus folgt das Preismodell (Stunden/Reserved/Token).
  3. 03Hardware-Bedarf rechnen: H100 für 70B-Modelle, A100-80GB für 13–34B, RTX 4090 für 7–13B und Hobby. VRAM-Bedarf bestimmt die Karte.
  4. 04Anbieter-Shortlist erstellen: 2–3 Optionen pro Use-Case (Standard, Premium, Spot/Budget). Listenpreise aus dieser Tabelle als Ausgangspunkt.
  5. 05Probe-Lauf: 4–8 Stunden bei jedem Shortlist-Anbieter. Echte Latenz und Verfügbarkeit messen, nicht nur Listenpreis vergleichen.
  6. 06Vertrag schliessen: bei On-Demand reicht Kreditkarte. Bei Reserved (Hetzner, Lambda 1-Year, CoreWeave) Vertragsmuster und Kündigungsfristen prüfen.

Empfehlung je Anwendungsfall

CH-Mandant mit revDSG-Anspruch, Daten unter Berufsgeheimnis: Exoscale Zürich oder Lausanne. Einziger Anbieter mit garantiertem CH-Standort und CHF-Rechnung. Bei Volumen ab CHF 2.000/Monat wirtschaftlich konkurrenzfähig.

EU-KMU, Dauer-Inferenz 24/7, Budget knapp: Hetzner GPU in Falkenstein. Monatsmiete schlägt jede Stundenmiete bei voller Auslastung. Beispiel: RTX 4090 für EUR 600/Monat = EUR 0.83/h, vs. Vast.ai-Auction die nur einen Bruchteil der Zeit lieferbar ist.

Bursty-Training, 3–7 Tage Finetune, beste Performance pro CHF: RunPod Secure Cloud EU-Sweden. A100-80GB ab USD 1.69/h ist Mai 2026 der niedrigste Listenpreis bei einem Anbieter mit echtem SLA. Lambda Labs eng dahinter mit USD 2.49 H100, falls US-Hosting akzeptabel.

Multi-Node-Training 32+ GPUs: CoreWeave. Teuer pro Stunde, aber InfiniBand-Networking reduziert die Gesamtdauer und damit die Gesamtkosten. Bei kleineren Clustern (< 8 GPUs) überteuert.

LLM-Inferenz ohne eigene Hardware: Together AI für Open-Weight-Modelle (Llama, Qwen, DeepSeek), Replicate für schnellen Prototypen-Hub. Beide US-gehostet, also nicht für Berufsgeheimnis-Daten ohne TIA.

Python-Team mit ML-Code, Serverless gewünscht: Modal. Dekorator-basiert, fühlt sich an wie lokales Python, skaliert auf Cluster. Gute Wahl, wenn Dev-Productivity wichtiger ist als der letzte Stunden-Rappen.

Notebook-Forschung, Jupyter im Vordergrund: Paperspace Gradient. EU-Region Amsterdam für DACH-Universitäten.

Reine Experiment-Workloads ohne sensible Daten: Vast.ai. Billigster Preis, schlechteste Verlässlichkeit. Mit Checkpoint-Logik und Auto-Resume erstaunlich tauglich für Reinforcement-Learning oder Hyperparameter-Suche.

Wann GPU-Cloud nicht passt

Wenn Sie nur LLM-Inferenz brauchen und kein eigenes Modell betreiben, ist GPU-Cloud falsch. Eine API-Anbindung an OpenAI, Anthropic, Mistral oder Cohere ist billiger und einfacher – kein Server-Management, keine Auslastungs-Optimierung, keine Capacity-Planung. Erst ab signifikanten Token-Volumen (>10M Tokens/Monat) lohnt das Selbstbetreiben.

Wenn das Workload weniger als 10 Stunden pro Monat braucht, ist eine eigene Workstation falsch – und auch eine Reserved-GPU-Cloud-Buchung. On-Demand-Stunden bei RunPod oder Lambda decken den Bedarf zu Bruchkosten. Wer monatlich CHF 100 ausgibt, statt CHF 600 für eine Hetzner-Karte, hat die richtige Wahl getroffen.

Wenn Datenschutz über allem steht und Daten unter StGB Art. 321 fallen, ist jeder US-Anbieter problematisch. Selbst mit Data Processing Agreement bleibt der CLOUD Act ein Risiko. In dem Fall: Exoscale CH oder lokaler GPU-Server auf eigenem Blech in einem CH-Rechenzentrum. Der Aufwand ist höher, die Compliance-Position eindeutig.

Wenn Sie Anfänger im ML sind und das Wort "CUDA out of memory" Sie noch verfolgt, ist Vast.ai gefährlich – Auctions können abbrechen, Daten gehen verloren, Lerneffekt geht in Frustration auf. Anfänger besser bei Paperspace Gradient oder RunPod Secure Cloud aufgehoben, wo Verfügbarkeit garantiert ist.

Vor- und Nachteile

STÄRKEN

  • Hetzner: bestes Preis-Leistungs-Verhältnis in EU bei Dauer-Workload
  • Exoscale: einzige echte CH-GPU-Cloud mit CHF-Rechnung
  • RunPod: tiefste Stundenpreise mit echtem SLA, EU-Region Sweden
  • Modal: Serverless Python-Erfahrung, gute DX für ML-Teams
  • Together: pay-per-Token Open-Weight ohne eigene Hardware

SCHWÄCHEN

  • Vast.ai: keine SLA-Garantie, ungeeignet für vertrauliche Daten
  • CoreWeave: nur Enterprise-Volumen wirtschaftlich, überzogen für KMU
  • Lambda: keine EU-Region Mai 2026 – Datenschutz-Risiko für CH
  • Hetzner: keine Stundenmiete, kein Spot – schlecht für Bursty Training
  • Paperspace: nach DigitalOcean-Übernahme Preis-Erhöhungen 2025

Häufige Fragen

Wie viel kostet ein 70B-Modell-Finetune wirklich?

Llama 3.1 70B mit LoRA-Finetuning auf eigenen Daten braucht 8x A100-80GB für rund 24 Stunden. Bei Lambda Labs USD 8.80/h pro Karte × 8 × 24h = USD 1.690. Bei RunPod Secure Cloud USD 1.69 × 8 × 24h = USD 325. Bei Vast.ai im günstigsten Fall USD 200, mit Risiko Aborts. Volles Pre-Training eines 70B-Modells from scratch wäre etwa 100x teurer und Mai 2026 wirtschaftlich unsinnig für einzelne KMU.

Lohnt sich eine eigene GPU-Workstation?

Bei mehr als 1.000 GPU-Stunden pro Jahr und voller Auslastung: ja. Eine RTX 4090 Workstation kostet rund CHF 4.500 einmalig, plus Strom. Bei einem GPU-Cloud-Preis von CHF 1/h wären das 4.500 Stunden Break-Even (etwa 5 Jahre bei 1.000h/Jahr). Bei H100-Klasse (Karte allein USD 30.000) lohnt sich Eigentum erst bei Konzern-Volumen. Für KMU-Volumen ist Cloud-Mieten Mai 2026 die rationale Wahl.

Welche GPU brauche ich für welches Modell?

Faustregel: VRAM-Bedarf = Parameter × 2 Bytes (FP16) + Overhead. Llama 3.1 8B braucht ca. 20 GB VRAM (eine A100-40GB oder RTX 4090 reicht). Llama 3.1 70B FP16 braucht ca. 160 GB (2x A100-80GB oder 1x H100-80GB mit Quantisierung). Llama 3.1 405B FP16 braucht ca. 850 GB (mehrere H100/H200, geht nur im Cluster). Mit Quantisierung (Q4, Q8) sinkt der Bedarf auf 25–50% der FP16-Werte.

Wie sicher sind Spot-Instances?

Spot-Instances können jederzeit unterbrochen werden, typischerweise mit 30–120 Sekunden Vorwarnung. Bei Training-Workloads mit Checkpointing (Modell alle 30 Minuten speichern) ist das kein Problem – verloren gehen maximal 30 Minuten Arbeit. Bei Inferenz-Workloads ist Spot ungeeignet, weil Service-Unterbruch sichtbar wird. Bei Vast.ai Auction-Modus liegt die mittlere Lebensdauer einer Instance bei wenigen Stunden bis Tagen, schwankt aber stark nach Anbieter.

Verwandte Themen

GPU-PREISE · KOSTENGPU-Kosten-Rechner 2026: T4, L4, A10, A40, A100, H100, H200 im VergleichHETZNER · TECHHetzner als EU-Hosting für CH-Treuhand und KMU: Rechenzentren, Verträge, KostenSELF-HOSTED VS. CLOUD · AI-KONZEPTSelf-Hosted vs. Cloud-LLM: Entscheidungs-Framework für KMU und TreuhandBREAK-EVEN · KOSTENCloud-API vs. Self-Host: ab welchem Token-Volumen lohnt sich was?EIGENES LLM · KOSTENWas kostet ein eigenes LLM? Total Cost of Ownership im Mai 2026

Quellen

  1. RunPod Pricing – GPU Cloud (Secure + Community) · 2026-05
  2. Lambda Labs On-Demand GPU Pricing · 2026-04
  3. CoreWeave Pricing – Enterprise GPU Cloud · 2026-04
  4. Hetzner GPU Dedicated Server Matrix · 2026-05
  5. Exoscale GPU Instances – Swiss Cloud · 2026-04
  6. Together AI – Inference Pricing · 2026-05

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen