GPU-PREISE · KOSTEN

GPU-Kosten-Rechner 2026: T4, L4, A10, A40, A100, H100, H200 im Vergleich

Welche GPU passt zu welchem Modell, was kostet sie bei welchem Anbieter, On-Demand vs. Reserved? Mai-2026-Preise von AWS, GCP, Azure, Hetzner, RunPod, Vast.ai.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Worum geht es?

Die Wahl der GPU ist die teuerste Einzelentscheidung im Aufbau eines eigenen LLM-Stacks. Falsche Auswahl bedeutet entweder Hardware, die das gewünschte Modell nicht laden kann (zu wenig VRAM), oder Hardware, die zu 90% im Leerlauf läuft (Overspec). Beide Fehler kosten je nach Klasse zwischen CHF 5'000 und CHF 40'000 in der ersten Generation.

Dieser Beitrag listet die acht relevanten GPU-Klassen im Mai 2026 mit ihrem typischen VRAM, dem zugehörigen Modell-Sweet-Spot und den On-Demand- sowie Reserved-Preisen bei sieben Anbietern: AWS, GCP, Azure, Hetzner, RunPod, Vast.ai, CoreWeave. Die Zahlen sind als Stand Mai 2026 zu lesen – sie ändern sich quartalsweise, oft nach unten.

Kurz die Faustregel: Wer Llama 3.1 8B oder kleinere Modelle (Phi-4, Gemma 9B) hostet, braucht VRAM 16-24GB – eine T4, L4 oder RTX 4090 reicht. Wer Mistral Large oder Llama 3.1 70B in 4-Bit-Quantisierung will, braucht 48-80GB – A40, A100-40 oder A100-80. Wer Llama 3.1 405B oder grosse Mixture-of-Experts-Modelle (die aktuelle DeepSeek-V-Generation, Qwen 3.5 235B) lokal laufen lassen will, kommt um H100-Cluster oder H200 nicht herum.

Warum die GPU-Wahl kritisch ist

Drei Fehler treiben die GPU-Kosten regelmässig in die Höhe.

Fehler 1: VRAM unterschätzt. Ein Modell lädt nur, wenn die gesamten Gewichte plus KV-Cache plus Aktivierungen ins VRAM passen. Llama 3.1 70B in 16-Bit-Float braucht 140GB VRAM – eine A100-80 reicht nicht. In 4-Bit-Quantisierung sinkt das auf 42GB – passt in eine A100-80 oder zwei RTX 4090 mit Tensor-Parallelism. In 8-Bit braucht 70GB – geht knapp auf A100-80, mit wenig Spielraum für Kontext. Wer falsch kalkuliert, kauft einen Server, der das Modell nicht starten kann.

Fehler 2: Throughput unterschätzt. Eine T4 (16GB) kann Llama 3.1 8B in 4-Bit laden, liefert aber nur 15-25 Tokens/Sekunde. Eine A100-80 schafft mit demselben Modell 80-200 Tokens/Sekunde. Wer interaktive Latenz unter 300ms haben will, braucht mehr GPU als nötig zum „nur Modell laden".

Fehler 3: Reserved vs. On-Demand falsch geplant. On-Demand-Preise sind 2-5x höher als 1-Jahr-Reserved. Wer 24/7 betreibt, aber on-demand zahlt, verbrennt Geld. Wer 6 Stunden pro Tag Last hat und Reserved kauft, verbrennt die andere Hälfte.

Die GPU-Preise im Mai 2026 sind volatil. H100 80GB ist gegenüber Mai 2025 um 20-30% gefallen, weil H200 und B100 im Markt sind. A100 ist um weitere 15% gefallen. Wer heute kauft, hat in 12 Monaten eine GPU, die 25-35% weniger wert ist als am Kauftag. Reservierte Cloud-Verträge können dieses Risiko abfedern.

GPU-Klassen und Preise im Detail

T4 (16GB VRAM, Turing) – Einstiegsklasse für Inference. Llama 3.1 8B in 4-Bit läuft, 15-25 Tok/s. On-Demand: AWS USD 0.526/h, GCP USD 0.35/h, Vast.ai USD 0.20-0.30/h, RunPod USD 0.20/h. Reserved 1-Jahr: ca. 40% Rabatt.

L4 (24GB VRAM, Ada Lovelace) – Effiziente Inference, niedriger Stromverbrauch (72W). Llama 3.1 8B flüssig, 30-50 Tok/s. On-Demand: GCP USD 0.7/h, RunPod USD 0.45/h, Vast.ai USD 0.30-0.45/h. Sweet spot für kostenoptimiertes 8B-Hosting.

A10 (24GB VRAM, Ampere) – Mittelklasse, oft für Embedding-Modelle oder kleinere LLMs. On-Demand: AWS USD 1.006/h, Azure USD 1.0/h, RunPod USD 0.60/h, Vast.ai USD 0.40-0.75/h.

A40 (48GB VRAM, Ampere) – Solider Mittelklasse-Spot. Mistral Large in 4-Bit möglich, Llama 3.1 70B in 4-Bit knapp möglich (tight). On-Demand: AWS USD 1.5/h, RunPod USD 0.85/h, Vast.ai USD 0.65-1.10/h.

A100 40GB (Ampere) – Standardklasse für kleinere Modelle. Llama 3.1 70B in 4-Bit möglich, in 8-Bit zu eng. On-Demand: AWS USD 3.06/h, GCP USD 3.67/h, Azure USD 3.4/h, RunPod USD 1.30/h, Vast.ai USD 0.80-1.30/h, Lambda Labs USD 1.10/h. Reserved 1-Jahr: 30-50% Rabatt.

A100 80GB (Ampere) – Workhorse für 70B-Klasse-Modelle. Llama 3.1 70B in 8-Bit komfortabel, in 16-Bit nicht (140GB nötig). On-Demand: AWS USD 4.10/h, GCP USD 4.95/h, Azure USD 5.05/h, RunPod USD 1.80/h, Vast.ai USD 1.07-1.80/h, Lambda Labs USD 1.79/h, CoreWeave USD 2.21/h. Reserved 1-Jahr Lambda: USD 1.20/h. Hetzner: EUR 850-1'200/Monat fix.

H100 80GB (Hopper) – High-End für Production-Inference und kleine Training-Loads. Llama 3.1 70B in 16-Bit möglich, sehr schnell (200-400 Tok/s). On-Demand: AWS USD 12.29/h (DGX), Azure USD 10.0/h, GCP USD 11.06/h, RunPod USD 2.79/h, Vast.ai USD 2.50-4.50/h, Lambda Labs USD 2.99/h, CoreWeave USD 4.25/h. Reserved 1-Jahr: USD 2.00-2.50/h. Hetzner: noch nicht im regulären Programm Mai 2026.

H200 141GB (Hopper Next) – Top-Klasse. Llama 3.1 70B in 16-Bit + langem Kontext, oder 405B in 4-Bit (mit Tensor-Parallelism über 4 GPUs). On-Demand: RunPod USD 4-7/h, Lambda Labs USD 4.50/h, CoreWeave USD 6.50/h. AWS/GCP/Azure noch limitiert, USD 8-15/h.

Modell-zu-GPU-Tabelle: - Llama 3.1 8B (4-bit): T4, L4, A10 ok. RTX 4090 perfekt. - Llama 3.1 70B (4-bit): A100-80 oder zwei RTX 4090. A40 knapp. - Llama 3.1 70B (16-bit): H100-80, H200-141. Zwei A100-80 mit NVLink. - Llama 3.1 405B (4-bit): 4x H100-80 oder 2x H200. Nicht KMU-relevant. - Mistral Large 2 (4-bit): A100-80 oder A40 knapp. - die aktuelle DeepSeek-V-Generation (MoE, 4-bit aktiv): A100-80 reicht (nicht alle Experten aktiv). - Qwen 3.5 32B (4-bit): A40, A100-40 ok. - Phi-4 14B: L4, A10, A40 alles ok.

GPU-Wahl in 6 Schritten

01Modell festlegen: Welches LLM (Name + Grösse + Quantisierung) werden Sie in den nächsten 12 Monaten betreiben?
02VRAM-Bedarf berechnen: Gewichte + KV-Cache + 20% Reserve. Faustregel: 4-bit = Parameter * 0.6 GB, 8-bit = Parameter * 1.1 GB, 16-bit = Parameter * 2 GB.
03Throughput-Bedarf: Anfragen pro Sekunde im Peak mal durchschnittliche Tokens pro Antwort = Tok/s nötig.
04GPU-Kandidaten matchen: Aus Tabelle oben passende Klassen mit ausreichend VRAM und Throughput auswählen.
05On-Demand vs. Reserved entscheiden: > 60% Auslastung 24/7 = Reserved oder Kauf. Sonst On-Demand bei RunPod/Vast.ai.
06Provider-Preise abfragen: Stundenpreise bei mindestens 3 Anbietern abrufen (Lambda Labs, RunPod, Vast.ai). Hetzner prüfen, wenn Fix-Preis erwünscht.

Wann welche GPU-Klasse

Die Wahl folgt vier Fragen.

Frage 1: Welches Modell? Das grösste Modell, das Sie in den nächsten 12 Monaten betreiben werden, bestimmt das VRAM-Minimum. Wer heute mit Llama 3.1 8B startet, aber in 6 Monaten auf 70B wechseln will, kauft besser direkt eine A100-80 statt einer L4.

Frage 2: Wieviel Throughput? Bei 200 Anfragen/Monat ist eine T4 ausreichend (Throughput nicht das Bottleneck). Bei 200 Anfragen/Stunde brauchen Sie A100-Klasse oder Tensor-Parallelism. Bei 200 parallelen Live-Sessions (Voice-Agent, Chat-Plattform) ist H100 minimum.

Frage 3: 24/7 oder Spitzen? Bei 24/7-Last lohnt sich Kauf oder Reserved. Bei < 8h/Tag Last ist On-Demand bei RunPod oder Vast.ai meist gleich teuer oder billiger.

Frage 4: Latenz-Vorgabe? Unter 200ms Time-to-First-Token brauchen Sie A100-80 oder besser. Unter 100ms nur H100/H200. Über 500ms reicht eine L4.

Typische Setups: - 10-Personen-Treuhand mit RAG über 5k Dokumente, 200 Anfragen/Monat: L4 oder A10 reicht. Hetzner GPU-Server EUR 600/Monat oder RunPod L4 USD 0.45/h x 200h = USD 90/Monat. - 80-Personen-Kanzlei mit Vertrags-Generator und Recherche, 5k Anfragen/Monat: A100-80 nötig. Hetzner EUR 1'100/Monat oder Lambda Labs Reserved USD 1.20/h x 720h = USD 864/Monat. - Voice-Agent mit 20 parallelen Sessions: H100 80GB, Lambda Labs USD 2.99/h x 720h = USD 2'150/Monat (kontinuierlich), oder Reserved USD 2.00/h = USD 1'440/Monat.

Wann gar keine GPU

Wenn das Token-Volumen unter 5 Mio pro Monat liegt und der Inhalt nicht sensitiv ist, brauchen Sie überhaupt keine GPU. Cloud-LLM-API (OpenAI, Anthropic, Mistral, DeepSeek) kostet bei dieser Last unter USD 20/Monat – keine GPU der Welt amortisiert sich darunter.

Wenn die Anwendung nur Embedding braucht (Vektor-DB-Aufbau, semantische Suche ohne Generative-Komponente), reicht ein CPU-Server. Embedding-Modelle wie BGE-large oder Multilingual-E5 laufen auf CPUs mit 100-300 Tokens/Sekunde – genug für alle KMU-Anwendungen.

Wenn die Anwendung nur Klassifizierung macht (z.B. Belegerkennung mit fixen Kategorien), reicht oft ein klassisches ML-Modell auf CPU statt eines LLMs. XGBoost, scikit-learn, sentence-transformers – alles ohne GPU produktiv.

Andere typische Fehler: GPU kaufen, um „Privacy" zu erreichen, ohne die Vertrags- und Audit-Voraussetzungen umzusetzen. Wer ein lokales Llama 3.1 70B betreibt, aber kein Audit-Log, keine RBAC und keine Backup-Strategie hat, hat keine Privacy, nur die Illusion davon. Cloud-LLM in EU-Region mit Vertragsklauseln und Audit-Trail ist in diesem Fall sauberer.

Vor- und Nachteile

STÄRKEN

Reserved-Preise 1-Jahr senken On-Demand um 30-50% – kalkulierbare monatliche Kosten
Hetzner GPU-Server fix bei EUR 600-1'400/Monat – keine Stunden-Buchhaltung, klare Budget-Linie
Vast.ai On-Demand für Spitzenlasten ab USD 0.20-1.07/h je nach Klasse – keine Bindung
Refurbished A100/H100 30-40% billiger als neu – sinnvoll bei begrenztem Kapital und 24/7-Last

SCHWÄCHEN

Wertverlust 30-40% im ersten Jahr – gekaufte GPU ist nach 12 Monaten ein Drittel weniger wert
Vast.ai-Reliability variabel – kein 99.9% SLA, für Production-Workloads riskant
AWS/GCP/Azure-Preise 2-3x über spezialisierten Anbietern – nur sinnvoll mit Free Credits oder spezifischer Integration
Hetzner H100/H200 Mai 2026 nicht regulär verfügbar – wer Top-Klasse braucht, muss zu Lambda Labs, RunPod, CoreWeave

Häufige Fragen

Was ist die billigste GPU für Llama 3.1 70B?

In 4-Bit-Quantisierung: zwei RTX 4090 (je CHF 1'800-2'200) mit Tensor-Parallelism oder eine A100-80GB. Cloud: Vast.ai A100-80 ab USD 1.07/h, Lambda Labs Reserved USD 1.20/h. Hetzner GPU-Server mit A100 EUR 1'100-1'400/Monat. Self-Host A100-80 amortisiert sich gegen Cloud-Reserved nach 14-16 Monaten 24/7-Betrieb.

AWS oder Hetzner – was ist günstiger?

Hetzner ist fast immer günstiger für dauerhafte Last. AWS A100-80 on-demand USD 4.10/h = USD 2'950/Monat. Hetzner GPU-Server A100 EUR 1'100-1'400/Monat = CHF 1'050-1'350. Selbst AWS Reserved 1-Jahr (USD 2.20/h = USD 1'585/Monat) ist teurer als Hetzner. AWS gewinnt nur bei spitzenartiger Last (< 10h/Tag) oder wenn Sie andere AWS-Services brauchen.

Spielt Vast.ai eine Rolle bei Produktion?

Für Production bedingt. Vast.ai bietet die günstigsten On-Demand-Preise (A100-80 ab USD 1.07/h, H100 ab USD 2.50/h), aber das GPU-Pool besteht aus Privatpersonen und kleinen Anbietern mit variabler Zuverlässigkeit. Für Batch-Jobs, Inference-Spitzen oder Entwicklungs-Setups gut. Für 99.9%-SLA-Production-Workloads ist Lambda Labs, RunPod, CoreWeave oder Hetzner sicherer.

Wie viel Wertverlust pro Jahr?

Erste Generation: 30-40% Wertverlust im ersten Jahr, 25-30% im zweiten. Beispiel: H100 80GB Mai 2025 CHF 48'000, Mai 2026 CHF 35'000-38'000, Mai 2027 erwartet CHF 24'000-28'000 (wenn B200 stark verbreitet). A100 80GB ist seit 2022 von CHF 28'000 auf CHF 17'000-22'000 gefallen. Refurbished-Markt ist 30-40% günstiger als neu, aber ohne Hersteller-Garantie.

Quellen

AWS – EC2 GPU Instance Pricing (P4/P5/G5/G6) · 2026-05
Lambda Labs – GPU Cloud Pricing (A100, H100, H200 on-demand & reserved) · 2026-05
RunPod – Secure Cloud GPU Pricing · 2026-05
Vast.ai – Marketplace GPU Pricing · 2026-05
CoreWeave – H100/H200 Pricing & SLA · 2026-05
Hetzner – Dedicated GPU Server Matrix · 2026-05

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen