fairlane.systems

TOKEN-PRICING · KOSTEN

Token-Kosten erklärt: Input, Output, Cache, Provider-Vergleich Mai 2026

Was ist ein Token, wie unterscheidet sich Input- von Output-Pricing, was kostet 1 Million Tokens bei welchem Anbieter? Tabelle mit allen relevanten Modellen.

Recherche & Faktencheck: · Stand: 2026-05

Was ist ein Token?

Ein Token ist die kleinste Einheit, in der ein Sprachmodell Text verarbeitet. Es ist nicht identisch mit einem Wort oder einer Silbe. Tokens entstehen durch ein Verfahren namens Byte-Pair-Encoding (BPE) oder verwandte Algorithmen, die häufige Buchstabenfolgen zu einer Einheit zusammenfassen. Faustregel für Deutsch: 1 Token entspricht etwa 0.65 bis 0.75 Wörtern. Für Englisch: 1 Token entspricht etwa 0.75 bis 0.8 Wörtern. Eine deutsche A4-Seite mit 450 Wörtern entspricht also rund 600-700 Tokens.

Wichtige Folge: Deutsche Texte verbrauchen pro Wort mehr Tokens als englische, weil deutsche Komposita (z.B. „Mandantenkorrespondenzverwaltung") oft in mehrere Tokens zerlegt werden. Wer eine Kalkulation auf Englisch macht und dann denselben Inhalt auf Deutsch fährt, zahlt typischerweise 25-40% mehr. Bei mehrsprachigen Pipelines (FR, IT, RU) verschiebt sich das Verhältnis weiter – Russisch und Chinesisch sind oft 2-3x teurer pro „Inhalt".

Tokens werden in zwei Klassen abgerechnet: Input-Tokens (was Sie ans Modell senden, inklusive System-Prompt, Kontext, Frage) und Output-Tokens (was das Modell zurückliefert). Output ist immer teurer, bei den meisten Anbietern Faktor 3-5. Grund: Output erfordert die volle Inferenz-Last (autoregressive Generierung), Input wird nur einmal durch das Modell geschoben.

Warum Token-Pricing entscheidend ist

Token-Kosten sind die laufenden Kosten jeder Cloud-LLM-Pipeline und damit das, was Sie zwölf Monate lang jeden Monat sehen. Im Gegensatz zum einmaligen Engineering-Aufwand oder zur Hardware-Anschaffung sind Token-Kosten variabel und skalieren mit dem Erfolg der Pipeline: Je mehr Sie nutzen, desto mehr zahlen Sie.

Drei Fehler verteuern Token-Bills regelmässig.

Fehler 1: Modell-Wahl ohne Pricing-Bewusstsein. Claude Opus kostet rund USD 15/75 (Input/Output) pro 1M Tokens. Claude Haiku kostet USD 0.80/4. Die aktuelle DeepSeek-V-Generation USD 0.30/0.50. Für einfache Klassifizierung Haiku oder DeepSeek zu nehmen statt Opus spart Faktor 20-50 – ohne Qualitätsverlust für die Aufgabe.

Fehler 2: System-Prompts mit voller Anleitung statt Cache. Ein 3'000-Token-System-Prompt, der bei jeder Anfrage mitgeht, kostet bei 1'000 Anfragen pro Tag 3 Mio Tokens – bei Claude Opus rund USD 45/Tag oder USD 1'350/Monat. Mit Prompt-Caching (Anthropic, OpenAI, Google) sinkt das auf 10% – USD 4.50/Tag, USD 135/Monat. Wer Cache nicht einsetzt, verbrennt Geld.

Fehler 3: Context-Window verschwenden. Manche Pipelines schieben ganze Dokumente in den Prompt, auch wenn nur 3 Sätze relevant sind. RAG (siehe Retrieval-Augmented-Generation) löst das: Statt 50'000 Tokens pro Anfrage werden nur 2'000-5'000 Tokens relevanter Passagen geschickt – Faktor 10-25 Einsparung.

Vierter Punkt: Context-Window-Pricing variiert zwischen Anbietern. Anthropic rechnet bei aktivem Cache für den ganzen Cache-Block die ersten 1024 Tokens als „cache write" (1.25x Standard-Preis) und alle nachfolgenden Reads bei 10%. OpenAI Prompt Caching: Reads bei 50% Standard-Preis. Google Gemini Context Caching: 25% Standard-Preis für Cached Tokens, plus Storage-Gebühr nach Stunde.

Provider-Preis-Tabelle Mai 2026

Alle Preise pro 1M Tokens, USD, Stand Mai 2026. Format: Input/Output. Quellen siehe unten.

OpenAI - GPT-4o (gpt-4o-2026): 2.50/10.00. Cache-Read: 1.25. - GPT-4o mini: 0.15/0.60. Cache-Read: 0.075. - GPT-4 Turbo: 10.00/30.00. - o1: 15.00/60.00 (reasoning, plus Reasoning-Tokens). - o1-mini: 3.00/12.00. - text-embedding-3-small: 0.02. text-embedding-3-large: 0.13.

Anthropic - Claude Opus: 15.00/75.00. Cache-Write: 18.75. Cache-Read: 1.50. - Claude Sonnet: 3.00/15.00. Cache-Write: 3.75. Cache-Read: 0.30. - Claude Haiku: 0.80/4.00. Cache-Write: 1.00. Cache-Read: 0.08.

Google - Gemini 2.5 Pro: 1.25/5.00 (bis 200k Kontext), 2.50/10.00 (>200k). Cache: 0.31. - Gemini 2.5 Flash: 0.075/0.30. Cache: 0.019. - Gemini 2.5 Flash-Lite: 0.0375/0.15.

Mistral - Mistral Large 2: 2.00/6.00. EU-Region verfügbar. - Mistral Medium: 0.40/2.00. - Mistral Small: 0.20/0.60. - Codestral: 0.20/0.60. - Mistral Embed: 0.10.

DeepSeek - die aktuelle DeepSeek-V-Generation: 0.30/0.50 (Cache-Read 0.07). Sehr aggressive Preise. - DeepSeek-R1 (Reasoning): 0.55/2.19. - Off-Peak-Discount: -50% zwischen 16:30-00:30 UTC.

xAI Grok - Grok 4: 3.00/15.00. - Grok 4-mini: 0.30/1.50.

Cohere - Command R+: 2.50/10.00. - Command R: 0.50/1.50. - Embed Multilingual v3: 0.10. - Rerank 3: 2.00 pro 1k Anfragen.

Self-Host (Llama 3.1 70B auf A100-80 Hetzner EUR 1'100/Monat) - Bei 50% Auslastung: ca. 30 Mio Tokens/Monat Throughput. Stückkosten: ca. USD 0.04 pro 1M Tokens, alles inklusive. Bei 90% Auslastung: USD 0.02 pro 1M.

Together AI (gehostete Open-Weight-Modelle) - Llama 3.1 70B: 0.88/0.88 (gleicher Preis für In/Out). - Llama 3.1 405B: 3.50/3.50. - Mixtral 8x22B: 1.20/1.20.

Beispiel-Rechnung: 200 Anfragen pro Monat, je 8'000 Input / 1'500 Output Tokens (Treuhand-Profil) Monatlich: 1.6M Input + 0.3M Output. - Claude Sonnet: 1.6 x 3 + 0.3 x 15 = USD 9.30 - GPT-4o: 1.6 x 2.50 + 0.3 x 10 = USD 7.00 - Mistral Large 2: 1.6 x 2 + 0.3 x 6 = USD 5.00 - die aktuelle DeepSeek-V-Generation: 1.6 x 0.30 + 0.3 x 0.50 = USD 0.63 - Self-host Llama 70B: 0.08

Die Spannweite ist Faktor 100. Wahl des Modells nach Aufgabe (siehe Multi-LLM-Routing-Strategien) ist die effektivste Kostenmassnahme.

Token-Kosten optimieren in 6 Schritten

  1. 01Pipeline-Logging einbauen: LiteLLM, Langfuse, oder OpenAI-Usage-Log. Pro Anfrage Input-Tokens, Output-Tokens, Modell, Dauer.
  2. 02Eine Woche messen: Welche Anfrage-Klassen gibt es? Welche könnten auf ein billigeres Modell?
  3. 03Routing einbauen: LiteLLM-Router mit Klassifizierer-Vorstufe, der Anfragen an Haiku/Mini, Sonnet/4o oder Opus/o1 leitet.
  4. 04Prompt-Caching aktivieren: Anthropic Cache, OpenAI Prompt Caching, Google Context Caching – System-Prompts und stabile Kontexte cachen.
  5. 05RAG einsetzen statt voller Dokumente in Kontext: Statt 50k Tokens pro Anfrage 2-5k Tokens relevanter Passagen.
  6. 06Off-Peak nutzen: die aktuelle DeepSeek-V-Generation Batch-Jobs zwischen 16:30-00:30 UTC laufen lassen – 50% Discount.

Welches Modell wann

Modell-Wahl folgt drei Kriterien: Aufgaben-Schwierigkeit, Latenz-Anforderung, Datenschutz.

Einfache Klassifizierung, Tagging, Extraktion: Claude Haiku, GPT-4o mini, Mistral Small, die aktuelle DeepSeek-V-Generation. Preisspanne USD 0.15-0.80 Input. Latenz unter 500ms. Qualität für diese Aufgaben praktisch identisch mit Top-Modellen.

Standard-Recherche, Zusammenfassungen, Vertragsprüfung: Claude Sonnet, GPT-4o, Mistral Large 2, Gemini 2.5 Pro. Preisspanne USD 1.25-3 Input. Latenz 800-1500ms. Sweet Spot für 80% der Treuhand- und Anwalts-Anwendungen.

Anspruchsvolle Recherche, juristische Analyse, mehrstufiges Reasoning: Claude Opus, OpenAI o1, DeepSeek-R1. Preisspanne USD 5-15 Input, USD 50-75 Output. Latenz 5-30 Sekunden (Reasoning). Nur einsetzen, wenn die Aufgabe es wirklich verlangt.

Datenschutz-sensible Anfragen (PII, Berufsgeheimnis): Mistral Large 2 in EU-Region (USD 2/6) oder Self-Host Llama 3.1 70B (USD 0.02-0.04/1M, alles inklusive). Falls Cloud, Vertragsklauseln mit „kein Modell-Training" verlangen – Standard bei OpenAI Enterprise, Anthropic API, Mistral La Plateforme.

Massen-Verarbeitung (Belegerkennung, Batch-Klassifizierung): die aktuelle DeepSeek-V-Generation mit Off-Peak-Discount (50% günstiger zwischen 16:30-00:30 UTC). Bei 100 Mio Tokens/Monat kostet das USD 30 Input + USD 50 Output = USD 80 bei voller Spitzenlast, USD 40 mit Off-Peak.

Empfehlung Routing-Strategie: 70% Haiku/Mini/Small (einfach), 20% Sonnet/4o (standard), 10% Opus/o1 (komplex). Spart gegenüber 100% Opus rund 80%.

Wann Token-Pricing irrelevant ist

Bei sehr kleinen Volumen – unter 500'000 Tokens pro Monat – ist Modell-Wahl nach Preis irrelevant. Der Unterschied zwischen Opus (USD 15) und Haiku (USD 0.80) bei 500k Tokens ist USD 7.10 – vernachlässigbar gegenüber dem Engineering-Aufwand der Pipeline. Bei solchen Volumen entscheiden Sie nach Qualität, nicht nach Preis.

Bei sehr grossen Volumen – über 1 Mrd. Tokens pro Monat – ist Cloud-Pricing nicht mehr das Entscheidende; dann zählen Volume-Verträge mit Provider (Anthropic Enterprise, OpenAI Enterprise) oder Self-Hosting. Listenpreise sind dort Verhandlungsbasis, nicht Endpreis.

Bei Reasoning-Modellen (o1, DeepSeek-R1, Claude Sonnet Extended Thinking) verbergen sich Reasoning-Tokens. Eine Anfrage „Erkläre mir Steuer-Fall X" kann intern 20'000-50'000 Reasoning-Tokens generieren, die zusätzlich zum sichtbaren Output abgerechnet werden. Preis pro Anfrage steigt um Faktor 3-10 gegenüber dem Standard-Modell-Output. Diese Modelle nur einsetzen, wenn die Genauigkeit den Aufpreis rechtfertigt.

Bei Embedding-Pipelines (RAG-Setup, semantische Suche) ist Token-Preis nahezu irrelevant. OpenAI text-embedding-3-small kostet USD 0.02 pro 1M Tokens – 100 Mio Tokens (komplette Indexierung von 40'000 langen Dokumenten) kostet USD 2. Wer hier optimiert, optimiert die falsche Stelle.

Vor- und Nachteile

STÄRKEN

  • Provider-Preisspanne Faktor 100 zwischen der aktuellen DeepSeek-V-Generation (USD 0.30) und Claude Opus (USD 75) – gezielte Modell-Wahl spart 80% Token-Kosten
  • Prompt-Caching reduziert wiederkehrende System-Prompts um 80-90% (Anthropic, OpenAI, Google)
  • Off-Peak-Discounts (die aktuelle DeepSeek-V-Generation -50% nachts UTC) für Batch-Workloads
  • Self-Host bei hohem Volumen unschlagbar: USD 0.02-0.04 pro 1M Tokens all-in

SCHWÄCHEN

  • Deutsche und mehrsprachige Texte tokenisieren ineffizienter – 25-40% mehr Tokens als Englisch für gleichen Inhalt
  • Reasoning-Modelle verbergen Tokens: o1, DeepSeek-R1, Claude Extended Thinking generieren intern viele Tokens, die abgerechnet werden
  • Anbieter ändern Preise und Rate-Limits quartalsweise – Pipeline darf nicht hart auf einen Anbieter gebaut sein
  • Datenschutz-Optionen verteuern: Mistral EU 4x DeepSeek China, Self-Host hat Engineering-Overhead

Häufige Fragen

Warum ist Output teurer als Input?

Output erfordert autoregressive Generierung – jedes neue Token braucht eine vollständige Vorwärts-Berechnung durch das Modell. Input wird einmal verarbeitet (Pre-Filling-Phase, hoch parallelisiert). Bei Claude Opus beträgt das Verhältnis Output/Input 5x, bei den meisten anderen 3-4x. Bei Together AI gleich (1x) – der Anbieter wirft eigenes Kapital auf das Pricing-Modell.

Was bringt Prompt-Caching konkret?

Bei Anthropic 90% Rabatt auf gecachete Tokens beim Read (Sonnet: 0.30 statt 3.00). Cache-Write ist 25% teurer als Standard. Beispiel: System-Prompt 3000 Tokens, 100 Anfragen pro Tag. Ohne Cache: 100 x 3000 = 300k Tokens x USD 3/M = USD 0.90/Tag. Mit Cache: 3000 Tokens als Write (USD 0.01) + 99 Reads (297k x 0.30/M = USD 0.09) = USD 0.10/Tag. Einsparung 89%.

Wie viele Tokens passen in ein Modell?

Context-Window Mai 2026: GPT-4o 128k, Claude Sonnet/Opus 200k (1M experimentell), Gemini 2.5 Pro 2M, Mistral Large 128k, die aktuelle DeepSeek-V-Generation 64k, Llama 3.1 128k. Praxis: Auch wenn 200k passen, kostet das viel Geld bei jeder Anfrage. RAG mit 5k aktivem Kontext ist meist günstiger und qualitativ gleichwertig.

Die aktuelle DeepSeek-V-Generation zu USD 0.30 – wo ist der Haken?

Drei Punkte. (1) Datenschutz: DeepSeek API läuft auf chinesischen Servern. Für Personendaten in EU/CH problematisch – DSFA + Drittland-Prüfung nötig (siehe Drittlandtransfer-TIA). (2) Modell-Training: Anfragen werden möglicherweise für Training genutzt, wenn nicht ausdrücklich opt-out. (3) Qualität: die aktuelle DeepSeek-V-Generation ist auf Englisch und Mathematik stark, im Deutsch-juristischen Bereich liegt es 10-20% hinter Claude Sonnet. Für EU-Treuhand selten erste Wahl, für Code-Generierung oder anonyme Batch-Klassifizierung sehr wohl.

Verwandte Themen

ROUTING · AI-KONZEPTMulti-LLM-Routing: Welches Modell wann, für wievielOPENAI · LLM-ANBIETEROpenAI GPT-Modelle aus CH-Treuhand-Sicht: Residency, Pricing, ComplianceANTHROPIC · LLM-ANBIETERAnthropic Claude aus CH-Treuhand-Sicht: Residency, Pricing, ComplianceDEEPSEEK · LLM-ANBIETERDeepSeek im Schweizer Einsatz: PRC-Anbieter, Self-Host-Option und revDSG-RealitätMISTRAL · LLM-ANBIETERMistral AI aus CH-Treuhand-Sicht: EU-Residency, Pricing, Souveränität

Quellen

  1. OpenAI – API Pricing (GPT-4o, o1, GPT-4o-mini, embeddings) · 2026-05
  2. Anthropic – Claude API Pricing (Claude Opus, Claude Sonnet, Claude Haiku, prompt caching) · 2026-05
  3. Google – Gemini API Pricing (2.5 Pro/Flash, context caching) · 2026-05
  4. Mistral – La Plateforme Pricing (Large 2, Medium, Small, Embed, EU regions) · 2026-05
  5. DeepSeek – API Pricing (V4, R1, off-peak discount) · 2026-05
  6. Together AI – Inference Pricing (Llama 3.1, Mixtral) · 2026-05

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen