fairlane.systems

TOKEN · AI-KONZEPT

Was ist ein Token? Tokenizer, Kosten, DE-vs-EN Mai 2026

Ein Token ist ein Wortteil – die kleinste Verrechnungs-Einheit eines LLMs. Erklärt: BPE, SentencePiece, Tiktoken, DE-Overhead, Preisbeispiele Mai 2026.

Recherche & Faktencheck: · Stand: 2026-05

Was ist ein Token?

Ein Token ist die kleinste Einheit, in der ein Sprachmodell Text verarbeitet – und zugleich die Verrechnungs-Einheit der meisten LLM-APIs. Modelle lesen und schreiben nicht buchstabenweise und nicht wortweise, sondern in Tokens, die zwischen ein paar Buchstaben und einem ganzen kurzen Wort liegen können.

Faustregeln Mai 2026: in englischen und deutschen ASCII-Texten entspricht 1 Token etwa 3.5-4.5 Zeichen oder 0.5-0.8 Wortern. Umlaute, Akzente, Sonderzeichen, Code-Symbole und chinesische/japanische Zeichen erhöhen den Token-Verbrauch deutlich – für einen einzelnen Umlaut sind 1-3 Tokens normal. Eine A4-Seite deutscher Standard-Text (ca. 350 Worter) hat typisch 500-700 Tokens. Ein DIN-A4-Brief mit Anrede, Absatz, Signatur kostet zwischen 200 und 400 Tokens.

Der Zweck der Token-Granularität ist ein Kompromiss. Buchstabenweise Verarbeitung wäre zu fein – Sequenzen würden extrem lang, das Modell müsste Buchstaben-Kompositionen jedes Mal neu lernen. Wortweise Verarbeitung wäre zu grob – ein deutsches Vokabular mit allen Konjugationen und Komposita hätte Millionen Einträge, was Speicher und Statistik sprengt. Tokens als Mittelweg: häufige Wortteile bekommen ein eigenes Token, seltenere werden aus mehreren Tokens zusammengesetzt. Das gewählte Vokabular umfasst typisch 30000-300000 Tokens, abhängig vom Modell und Tokenizer.

Für ein KMU sind Tokens vor allem aus zwei Gründen wichtig: sie bestimmen die Kosten jedes Modell-Aufrufs, und sie begrenzen, wie viel Text in eine Anfrage passt (siehe was-ist-context-window). Wer mit Tokens nicht rechnen kann, überschätzt Kosten oder unterschätzt Kapazität.

Warum Tokens praktisch wichtig sind

Tokens berühren drei Geschäfts-Entscheidungen direkt: Kosten, Latenz und Kapazität.

Kosten Mai 2026. Anbieter rechnen Input- und Output-Tokens getrennt ab. Typische Preise pro 1 Million Tokens: OpenAI GPT-4.1 USD 2.50 Input / USD 10 Output; OpenAI GPT-4o-mini USD 0.15 / USD 0.60; Anthropic Claude Sonnet USD 3 / USD 15; Anthropic Claude Opus USD 15 / USD 75; Google Gemini 2.5 Pro USD 1.25-2.50 / USD 5-15 (gestaffelt); Mistral Large 2 EUR 2 / EUR 6; die aktuelle DeepSeek-V-Generation USD 0.27 / USD 1.10. Output-Tokens sind in der Regel 3-5x teurer als Input-Tokens – das ist Mai 2026 die universelle Faustregel.

Konkretes Beispiel: ein Treuhand-Chatbot beantwortet pro Tag 80 Mandanten-Anfragen. Pro Anfrage typisch 2000 Tokens Input (System-Prompt, RAG-Kontext, Frage) und 600 Tokens Output (Antwort). Mit Claude Sonnet sind das 80 * (2000 * USD 3 + 600 * USD 15) / 1.000.000 = USD 1.20 pro Tag, ca. USD 36 pro Monat. Mit die aktuelle DeepSeek-V-Generation sind das USD 0.10 pro Tag, ca. USD 3 pro Monat. Mit Claude Opus sind das USD 6 pro Tag, ca. USD 180 pro Monat. Faktor 60 zwischen günstigstem und teuerstem Anbieter – bei nahezu identischer Qualität für Standard-Treuhand-Fragen.

Latenz. Output-Tokens werden token-weise generiert. Bei typischer Generations-Geschwindigkeit von 50-200 Output-Tokens pro Sekunde (Mai 2026) bedeutet eine 600-Token-Antwort 3-12 Sekunden Wartezeit. Input-Tokens hingegen werden parallel verarbeitet – eine 10000-Token-Eingabe braucht typisch 0.5-3 Sekunden bis zum ersten Output-Token (Time-to-First-Token, TTFT). Wer Latenz minimieren will, kürzt Output (klare Anweisung "Antworte in maximal 200 Tokens") und reduziert Input (RAG statt komplettem Dokument).

Kapazität. Das Context Window misst Tokens, nicht Worter oder Zeichen. Wer 128k Tokens hat (ca. 180-250 A4-Seiten deutscher Text), kann nicht "etwas mehr" reinpacken, ohne dass die Anfrage abgelehnt wird. Im Code-Bereich oder bei sehr formatierten Dokumenten (Tabellen, JSON, XML) ist die Tokens-pro-Seite-Rate höher – 1500-3000 Tokens pro Seite sind nicht ungewöhnlich.

Strategische Konsequenz. Mai 2026 ist die wichtigste Kosten-Stellschraube nicht "billigster Anbieter", sondern "richtige Modell-Stufe pro Anfrage". Ein Multi-LLM-Gateway (siehe was-ist-llm-gateway) erlaubt es, einfache Anfragen (Sprache-erkennen, kurze Klassifikation) auf billige Modelle (DeepSeek, Gemini Flash, GPT-4o-mini) zu routen und nur komplexe Anfragen auf teure Modelle. Das senkt die Token-Kosten typisch um Faktor 3-10 ohne Qualitätsverlust an den richtigen Stellen.

Tokenizer im Detail

Drei Tokenizer-Familien dominieren Mai 2026 die Branche. Wer die Unterschiede kennt, vermeidet böse Überraschungen beim Anbieter-Wechsel.

Byte-Pair-Encoding (BPE). Aelteste der drei, ursprünglich aus der Daten-Kompression. Idee: zerlege Text in Buchstaben-Paare, finde die häufigsten Paare, fasse sie zu neuen Tokens zusammen, wiederhole. Ergebnis: häufige Wortteile bekommen kompakte Tokens, seltene werden aus kleineren Teilen aufgebaut. OpenAI nutzt BPE (Tiktoken-Implementation, Open-Source seit 2023). Tiktoken kennt mehrere Encodings: cl100k_base (GPT-3.5/4-Familie), o200k_base (GPT-4o, GPT-4.1). Das o200k-Encoding hat ein grösseres Vokabular und erreicht in mehrsprachigen Texten 5-15% weniger Tokens als cl100k.

SentencePiece. Google-Entwicklung (2018). Behandelt Text als Byte-Strom, ist sprach-agnostisch und enthält Whitespace als reguläres Token. Gemini, Llama, Mistral und viele Open-Source-Modelle nutzen SentencePiece-Varianten. Vorteil: kein Vorab-Sprachen-Wissen nötig, gut für mehrsprachige Modelle. Llama 3/4 hat ein SentencePiece-Vokabular von 128000-256000 Tokens – eines der grössten Mai 2026.

WordPiece. Älter (BERT-Familie, Google 2018), Mai 2026 vor allem in Encoder-Modellen (BERT, DistilBERT, mBERT) noch präsent. Ähnlich BPE, aber mit Wahrscheinlichkeits-Modell statt reiner Häufigkeit. Für Generierungs-Modelle Mai 2026 nicht mehr Hauptstrom.

Praktische Konsequenz für Deutsch. Deutsche Texte brauchen typisch 20-30% mehr Tokens als gleich-lange englische Texte. Grund: Umlaute (oe, ae, ue, sz) sind in den Trainings-Korpora seltener als englische Standardbuchstaben, also werden sie nicht zu eigenen Tokens – ein "oe" kostet oft 2 Tokens. Komposita ("Aktiengesellschaftsversammlungsbeschluss") werden in viele Teile zerlegt. Lange Genitiv- und Plural-Endungen ebenso. Anbieter wissen das und haben in den letzten Jahren ihre Tokenizer dahingehend optimiert (o200k_base bei OpenAI, Llama-3-Tokenizer, Gemini-Tokenizer): die Mai-2026-Generation ist 10-25% effizienter für Deutsch als die 2022-Generation.

Code und JSON. Code-Tokens sind oft sehr fein, weil Programmier-Sprachen-Syntax viele Sonderzeichen enthält (`{`, `}`, `(`, `)`, `;`, `=>`). Eine 100-Zeilen-JavaScript-Funktion kann 1000-2500 Tokens haben. JSON ist ähnlich verbose. Bei strukturierten Datenformaten gilt: 1 Zeile = 8-25 Tokens, Faustregel.

Praktische Token-Zählung. Mai 2026 stehen mehrere Tools zur Verfügung: tiktoken (Python/JS-Library, für OpenAI-Modelle), Anthropic Token-Counter API (HTTP-Endpoint, für Claude), Hugging-Face-Tokenizer (Python, für Open-Source-Modelle), Google AI Studio Token-Counter (Web-UI, für Gemini), platform.openai.com/tokenizer (Web-UI). Jedes Modell hat seinen eigenen Tokenizer – eine Eingabe mit 2000 GPT-4-Tokens hat NICHT zwingend 2000 Claude-Tokens. Mai 2026 sind die Unterschiede in der Praxis 5-15% – kalkulieren Sie mit Sicherheits-Aufschlag.

Wann Token-Wissen aktiv wird

Drei konkrete Anlässe machen Token-Wissen unverzichtbar.

Anlass 1: Kosten-Schätzung vor Projekt-Start. Bevor Sie einen RAG-Assistenten, einen Email-Triage-Agent oder eine Voicebot-Pipeline beauftragen, brauchen Sie eine realistische Schätzung der monatlichen Token-Kosten. Faustregel: nehmen Sie das Volumen aus einer typischen Woche, multiplizieren mit Tokens pro Anfrage (geschätzt oder gemessen) und mit dem Token-Preis des Ziel-Anbieters. Realistische KMU-Zahlen Mai 2026: eine Treuhand mit 5-30 Mandanten-Chats pro Tag kommt auf USD 20-150 pro Monat AI-Tokens, bei mittlerer RAG-Tiefe und Claude-Sonnet-Klasse. Eine grosse Anwaltskanzlei mit Dokumenten-Auswertung kommt auf USD 500-3000 pro Monat. Wer 10x mehr Anfragen erwartet, hat 10x höheres Token-Budget. Lineare Skalierung ist die Realität, nicht "Volumenrabatt-Magie".

Anlass 2: Anbieter-Wechsel. Wenn Sie heute Claude-Sonnet nutzen und auf die aktuelle DeepSeek-V-Generation wechseln wollen (Faktor 10 Kosten-Vorteil), bedeutet das nicht zwingend Faktor 10 Kosten-Senkung. Verschiedene Tokenizer geben dasselbe Dokument unterschiedlich viele Tokens. DeepSeek tokenisiert Deutsch leicht weniger effizient als Claude (Mai 2026 Stand). Realistischer Vorteil: Faktor 8-9, nicht 10. Nur ein konkreter Test mit Ihren echten Texten gibt die exakte Zahl.

Anlass 3: Kontextfenster-Planung. Wenn Sie einen RAG-Assistenten bauen, der pro Anfrage 10-20 Dokumenten-Schnitte einspeist plus System-Prompt plus Frage plus Konversations-Verlauf, müssen Sie zählen können, ob das in den 128k-Token-Standard passt oder den Long-Context-Modus erfordert. Faustregel: System-Prompt 200-2000 Tokens, RAG-Schnitt 200-1500 Tokens je nach Strategie, Konversations-Verlauf 0-30000 Tokens, Frage 50-500 Tokens. Ein realistischer Mandanten-Chat braucht 8000-25000 Tokens Input – komfortabel in 128k.

Anlass 4: Output-Budget. Output-Tokens sind 3-5x teurer als Input. Wer Antworten begrenzt ("Antworte in maximal 150 Tokens"), spart spürbar. Faustregel: 150 Tokens = 1 Absatz, 500 Tokens = 1 A4-Seite. Für Chat-Antworten reichen meist 200-400 Tokens, für Berichts-Generierung 1000-3000 Tokens, für Lang-Texte 4000-8000 Tokens. Hartes max_tokens-Limit in der API setzen ist Pflicht – vergisst man es, kann ein abgehobenes Modell 4000+ Tokens generieren und die Kosten verdreifachen.

Anlass 5: Compliance-Dokumentation. Mai 2026 verlangen EU-AI-Act-Artikel 12-Logging und revDSG-DSFA-Auflagen das Festhalten der pro-Anfrage-verbrauchten Tokens (zur Kosten-Rechenschaft) und der Modell-Wahl. Token-Verbrauch im Audit-Log ist Mai 2026 Pflicht-Information für revisionsfähige AI-Anwendungen.

Token-Mikrooptimierung ist oft Zeitverschwendung

Drei Fällen, in denen Token-Geknibbel keinen Mehrwert bringt – oder Schaden anrichtet.

Erstens: Mikro-Optimierung um wenige Prozent. Wer 30 Minuten investiert, um einen System-Prompt von 400 auf 350 Tokens zu kürzen, spart bei 1000 Anfragen pro Monat ca. USD 0.15. Diese Zeit ist anderswo besser investiert (Datenqualität, RAG-Tuning, Eval-Suite).

Zweitens: aggressives Komprimieren bis zur Unklarheit. Ein klarer 600-Token-System-Prompt mit Rolle, Aufgabe, Verbot, Format-Anweisung kann zu einem 250-Token-Prompt komprimiert werden – aber dann fehlt dem Modell oft Kontext. Halluzinations-Risiko steigt, Refusal-Verhalten wird unsauber. Faustregel: System-Prompt darf 5-10% des typischen Anfrage-Tokens-Budgets sein, dann ist Klarheit wichtiger als Token-Sparen.

Drittens: Tokens optimieren statt Modell-Wahl. Wer den teuersten Claude-Opus für eine einfache Klassifikations-Aufgabe nutzt und dann an 200 Tokens spart, hat die falsche Achse optimiert. Wechsel auf Claude-Haiku oder DeepSeek bringt 10-50x Einsparung gegenüber Tokens-Tweaking innerhalb des Opus-Aufrufs. Zuerst Modell-Stufe prüfen, dann optimieren.

Falle "wir bauen einen eigenen Tokenizer". Mai 2026 macht das für KMU keinen Sinn. Tokenizer sind im Modell mit-trainiert; eigener Tokenizer bedeutet eigenes Modell-Training, was Millionen-Budget braucht. Wer Token-Kosten senken will, wechselt Modell oder reduziert Anfrage-Volumen, nicht "baut eigenen Tokenizer".

Falle "wir können Tokens reverse-engineeren". Anbieter ändern Tokenizer-Versionen still (OpenAI hat 2024 cl100k zu o200k umgestellt für GPT-4o). Token-Zählungen, die auf Drittanbieter-Tokenizern (z.B. tiktoken-Estimate für Claude) basieren, sind 5-15% danebenliegend. Für harte Budget-Berechnung immer den offiziellen Tokenizer des Ziel-Modells nutzen.

Vor- und Nachteile

STÄRKEN

  • Klare, vorhersagbare Verrechnungs-Einheit für LLM-Kosten
  • Tokenizer-Effizienz für Deutsch wurde 2022-2026 verdoppelt
  • Token-Counter-Tools aller Anbieter offiziell und kostenlos
  • Erlaubt präzise Kapazitäts- und Budget-Planung

SCHWÄCHEN

  • Verschiedene Anbieter zählen Tokens unterschiedlich (5-15% Streuung)
  • Deutsch braucht 20-30% mehr Tokens als Englisch
  • Output-Tokens 3-5x teurer als Input – leicht unterschätzt
  • Tokenizer-Versionen ändern sich still beim Anbieter

Häufige Fragen

Wie zähle ich Tokens praktisch?

OpenAI: platform.openai.com/tokenizer (Web-UI für Klick-Tests) und die Python/JS-Library "tiktoken". Anthropic: HTTP-Endpoint /v1/messages/count_tokens (Token-Zähler-API, kostenlos, offiziell seit 2024). Google: AI Studio Token-Counter im Studio-UI sowie SDK-Funktion. Open-Source-Modelle (Llama, Mistral, Qwen, DeepSeek): Hugging-Face-Library "transformers" (AutoTokenizer.from_pretrained). Faustregel ohne Tool: 1 Token = 3.5-4.5 Zeichen Deutsch/Englisch, mit Umlaut-Aufschlag 20-30%.

Warum kostet Deutsch mehr Tokens als Englisch?

Tokenizer werden statistisch auf Trainings-Korpora trainiert. Englisch ist 6-10x stärker vertreten als Deutsch, weshalb häufige englische Wortteile eigene Tokens bekommen und deutsche Komposita, Umlaute und lange Endungen in mehrere Tokens zerlegt werden. Mai 2026 ist der Overhead in modernen Tokenizern (o200k, Llama-4, Gemini-2) bei ca. 20-30% gegenüber Englisch; alte Tokenizer (cl100k, GPT-3-Aera) hatten 50-100% Overhead. Praktische Konsequenz: Token-Budgets für deutschsprachige Anwendungen mit 25%-Sicherheits-Aufschlag rechnen.

Sind Output-Tokens wirklich teurer als Input-Tokens?

Ja, Mai 2026 bei allen grossen Anbietern. Faktor typisch 3-5x. Grund: Input wird einmal verarbeitet, Output muss Token für Token autoregressiv generiert werden – das kostet pro Token deutlich mehr GPU-Zeit. Anthropic Claude Sonnet: USD 3 Input / USD 15 Output (Faktor 5). OpenAI GPT-4.1: USD 2.50 / USD 10 (Faktor 4). Google Gemini 2.5 Pro: USD 1.25 / USD 5 (Faktor 4). Konsequenz: Output begrenzen, klare Output-Formate vorgeben, max_tokens hart setzen.

Sind Tokens und Worter dasselbe?

Nein. Ein durchschnittliches englisches Wort hat 1.2-1.4 Tokens, ein durchschnittliches deutsches Wort 1.5-2.5 Tokens (wegen Komposita, Endungen, Umlauten). Sehr kurze Worter ("der", "die", "und") sind oft 1 Token. Sehr lange Worter ("Aktiengesellschaftsversammlungsbeschluss") können 6-12 Tokens haben. Wer auf Anhieb in Worter rechnet, unterschätzt Tokens typisch um 30-50% – vor allem im Deutschen.

Verwandte Themen

CONTEXT WINDOW · AI-KONZEPTWas ist das Context Window? Token-Limit, Kosten, Recall-Kurve Mai 2026TOKEN-PRICING · KOSTENToken-Kosten erklärt: Input, Output, Cache, Provider-Vergleich Mai 2026TRANSFORMER · AI-KONZEPTWas ist die Transformer-Architektur? Grundlagen, Varianten, Marktstand Mai 2026ATTENTION · AI-KONZEPTWas ist der Attention-Mechanismus? Query, Key, Value erklärt Mai 2026LLM-GATEWAY · AI-KONZEPTWas ist ein LLM-Gateway? Aufgabe, Bestandteile, Marktstand Mai 2026RAG · AI-KONZEPTRetrieval-Augmented Generation (RAG): Wie KI aus eigenen Dokumenten antwortetEMBEDDINGS · AI-KONZEPTEmbeddings und Vektoren: Wie Sprache zu Mathematik wird

Quellen

  1. OpenAI – Tiktoken Library and Tokenization Documentation · 2026-04
  2. Anthropic – Token Counting API Reference · 2026-05
  3. Kudo and Richardson – SentencePiece: A Simple and Language-Independent Subword Tokenizer (arXiv:1808.06226) · 2018-08
  4. Sennrich, Haddow, Birch – Neural Machine Translation of Rare Words with Subword Units (BPE) (arXiv:1508.07909) · 2015-08
  5. Hugging Face – Tokenizer Documentation and Comparison · 2026-03

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen