CONTEXT WINDOW · AI-KONZEPT
Was ist das Context Window? Token-Limit, Kosten, Recall-Kurve Mai 2026
Das Context Window ist die maximale Token-Menge pro LLM-Anfrage (Input + Output). Mai 2026: 128k-2M je Anbieter, mit klarer Recall-Verlustkurve ab Mitte.
Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05
Was ist das Context Window?
Das Context Window – auch Kontextfenster oder Context Length – ist die maximale Anzahl Tokens, die ein Sprachmodell in einer einzelnen Anfrage verarbeiten kann. Sie zählt alles zusammen: System-Prompt, Mandanten-Daten, früheren Verlauf, aktuelle Frage UND die zu generierende Antwort. Wird das Fenster überschritten, lehnt der Anbieter die Anfrage ab oder schneidet sie ab.
Die Grösse ist Mai 2026 ein Hauptverkaufsargument der Anbieter. Stand der Top-Modelle: OpenAI GPT-4.1 erlaubt 128k Tokens (Standard), in der Long-Context-Variante 1 Mio. Tokens. Anthropic Claude Sonnet und Opus arbeiten standardmässig mit 200k Tokens, mit Beta-Zugang bis 1 Mio. Tokens (Sonnet) bzw. 500k Tokens (Opus). Google Gemini 2.5 Pro bietet 2 Mio. Tokens, Gemini 2.5 Flash 1 Mio. Tokens. Mistral Large 2 bleibt bei 128k Tokens. Die aktuelle DeepSeek-V-Generation hat 128k Tokens. Llama 4 (Meta, April 2025) reicht je Variante von 128k bis 10 Mio. Tokens (Llama 4 Scout).
Die reine Fenster-Grösse ist nur die halbe Wahrheit. Die zweite Hälfte ist die Frage, wie gut das Modell innerhalb dieses Fensters tatsächlich Information findet. Diese Frage hat Mai 2026 eine klare, kürzlich verfeinerte Antwort: nicht so gut, wie die Marketing-Zahl vermuten lässt.
Ein Token ist ein Wortteil (siehe was-ist-token). Faustregel für Deutsch: 1.3 Tokens pro Wort, 500-700 Tokens pro A4-Seite. 128k Tokens entsprechen also ca. 180-250 A4-Seiten Text, 1 Mio. Tokens ca. 1400-2000 A4-Seiten. In der Theorie genug für einen ganzen Mandanten-Akt; in der Praxis mit Einschränkungen.
Warum die Grösse – und die Grenzen – zählen
Die Context-Window-Frage entscheidet über Architektur, Kosten und Qualität Ihrer AI-Anwendung. Drei Effekte sind Mai 2026 entscheidend.
Erstens: was passt rein, ohne Splitting. Eine 30-Seiten-Steuer-Anfrage mit Anlagen passt in 128k Tokens komfortabel. Ein 600-Seiten-Mandanten-Dossier überfordert klassische Fenster, passt aber in Gemini 2.5 Pro (2 Mio.) oder in die 1-Mio.-Beta-Varianten. Wer Long-Context hat, kann auf manche RAG-Schritte verzichten und das ganze Dokument durchreichen – bequem, aber teuer.
Zweitens: Kosten. Anbieter rechnen Tokens ab, Input und Output getrennt. Mai 2026 typische Preise: GPT-4.1 USD 2.50 pro Mio. Input-Tokens / USD 10 pro Mio. Output-Tokens; Claude Sonnet USD 3 / USD 15; Claude Opus USD 15 / USD 75; Gemini 2.5 Pro USD 1.25-2.50 / USD 5-15 (gestaffelt nach Input-Grösse); Mistral Large 2 EUR 2 / EUR 6; die aktuelle DeepSeek-V-Generation USD 0.27 / USD 1.10. Eine 100k-Token-Anfrage an Claude Opus kostet allein im Input USD 1.50; an die aktuelle DeepSeek-V-Generation USD 0.027 – Faktor ~55. Bei täglich tausenden solcher Anfragen wird der Unterschied real spürbar.
Drittens: Recall-Verlust ab Mitte. Das wichtigste, oft übersehene Detail. Needle-in-Haystack-Tests (Greg Kamradt, 2023; verfeinert in den arxiv-Papers "Lost in the Middle" von Liu et al. 2023 und "RULER" von Hsieh et al. 2024) zeigen: Modelle finden Information am Anfang und am Ende eines Kontexts zuverlässig, aber in der Mitte sinkt die Recall-Rate. Bei langen Kontexten verstärkt sich dieser Effekt drastisch. Ab etwa 50-60% des Maximal-Fensters sinkt der Recall messbar, ab 80-90% deutlich. Mai 2026 sind die besten Modelle (das aktuelle Claude-Spitzenmodell, Gemini 2.5, GPT-4.1) bei diesem Test deutlich besser als die Generation 2023, aber kein Modell ist immun. Praktische Konsequenz: in einer 1-Mio.-Token-Anfrage werden Information aus den mittleren 400k Tokens häufiger übersehen als die ersten oder letzten 100k.
Vierter Effekt: Latenz. Long-Context-Anfragen brauchen mehr Zeit. Eine 200k-Token-Anfrage bei Claude Sonnet braucht 5-30 Sekunden vom Senden bis zum ersten Output-Token (Time-to-First-Token, TTFT). Eine 10k-Token-Anfrage typisch 0.5-2 Sekunden. Für interaktive Anwendungen ist das spürbar.
Für ein KMU sind die Konsequenzen klar: grössere Kontextfenster sind nützlich, ersetzen aber RAG nicht. RAG bleibt Mai 2026 die wirtschaftlichere und qualitativ stabilere Methode für Wissensbasen über 30-50k Tokens (siehe retrieval-augmented-generation).
Wie das Fenster technisch funktioniert
Das Context Window ist eine Begrenzung der Attention-Berechnung. Self-Attention skaliert mit O(n^2) in der Sequenzlänge (siehe was-ist-attention-mechanismus): doppelte Länge = vierfache Berechnung. Anbieter haben drei Techniken kombiniert, um die Mai-2026-Grössen wirtschaftlich darstellbar zu machen.
Technik 1: effiziente Attention-Algorithmen. FlashAttention (Dao et al., 2022/24) reduziert den Speicher-Overhead und beschleunigt die Berechnung um den Faktor 2-4. Sliding-Window-Attention (Mistral) und Sparse-Attention (Longformer-Stil) brechen die O(n^2)-Komplexität, indem nicht jedes Token jedes andere sieht – sondern nur ein lokales Fenster plus ein paar globale Tokens. Ring-Attention (Liu et al. 2023, in Gemini 1.5/2.5 zentral) verteilt die Berechnung auf viele GPUs, was 1-Mio.-Token-Fenster überhaupt erst praktikabel macht.
Technik 2: Positional-Encoding-Erweiterung. Modelle werden meist auf einer bestimmten Max-Länge trainiert (z.B. 8k oder 32k Tokens) und dann auf längere Kontexte erweitert. Methoden wie YaRN (Yet another RoPE extensioN), Position-Interpolation und Dynamic-NTK ermöglichen die Erweiterung ohne komplettes Neu-Training. Qualitativ ist das Modell auf den erweiterten Bereich aber meistens weniger gut justiert als auf den Trainings-Bereich – eine Ursache für den Recall-Verlust im oberen Bereich.
Technik 3: Caching. Anthropic Prompt-Caching (GA 2024), OpenAI Prompt-Caching (2024) und Google Cached-Content (2024) erlauben es, einen grossen statischen Kontext (z.B. ein 100k-Token-Dokument) einmal teurer einzulegen und dann für viele Anfragen günstiger wiederzuverwenden. Mai 2026 reduziert Caching die Input-Kosten auf 10-50% des Normalpreises, je Anbieter und Cache-Strategie. Das macht Long-Context für wiederholte Auswertungen desselben Dokuments wirtschaftlich attraktiver.
Recall-Verhalten verstehen. Der Needle-in-Haystack-Test ist Mai 2026 ein etablierter Benchmark: man verteilt einen kleinen, spezifischen Fakt ("Karl Brunner wohnt in Aarau, Postleitzahl 5000") an verschiedenen Positionen in einem grossen Kontext und prüft, ob das Modell ihn auf direkte Frage wiederfindet. Die Recall-Heatmap eines Modells zeigt typisch: > 95% an den ersten 10% und letzten 10% der Position, dann ein Tal in der Mitte, mit Höhepunkt in den letzten 5%. Hsieh et al. (RULER, 2024) haben den Test in 13 Varianten verfeinert (Multi-Needle, NIAH-Variants, Variable-Tracking, Aggregation) und zeigen: selbst Top-Modelle Mai 2026 liefern bei "schweren" Tests ab 32k-64k Tokens deutlich schlechtere Ergebnisse als am Marketing-Maximum.
Praktische Faustregel. Nutzen Sie effektiv 50-60% des angegebenen Fensters und behalten Sie wichtige Informationen am Anfang oder am Ende. Wenn Sie 200k Tokens an das aktuelle Claude-Spitzenmodell senden, packen Sie die System-Anweisung und die akute Aufgabe ans Ende – dort findet das Modell sie am sichersten.
Wann Long-Context sinnvoll ist
Drei Szenarien, in denen ein grosses Context Window die richtige Wahl ist – gegen RAG abgewogen.
Szenario 1: Einzelne, geschlossene Dokumente. Ein 80-Seiten-Mandanten-Vertrag, ein 200-Seiten-Pflichtenheft, ein quartalsweiser Audit-Report. Die Aufgabe lautet: "fasse zusammen", "finde Widerspruechlichkeit", "extrahiere alle Klauseln des Typs X". Das Dokument passt in 128k-200k Tokens, die Antwort kommt aus dem Dokument selbst. Hier ist Long-Context elegant und schnell – RAG wäre Overhead.
Szenario 2: Code-Review und grössere Refactorings. Ein Software-Modul mit 5000-30000 Zeilen Code passt in 200k-1M Tokens. Aufgabe: "überprüfe diese Funktion auf Konsistenz mit dem Rest des Moduls", "schlage eine Refactoring-Strategie vor". Claude Code, Cursor Agent und Anthropic Computer Use nutzen diesen Modus Mai 2026 produktiv.
Szenario 3: Many-Shot-Prompting für Klassifikation. Statt eines Few-Shot-Prompts mit 5 Beispielen ein Many-Shot-Prompt mit 200-500 Beispielen. Wirksam für schwierige Klassifikations-Aufgaben (Domän-Sprache, seltene Kategorien). Brown et al. und Anthropic-Research (2024) haben gezeigt, dass die Qualität mit der Anzahl Beispiele bis in den 100k-Bereich kontinuierlich steigt – für manche Aufgaben besser als Fine-Tuning.
Wirtschaftlich: wann passt es. Faustregel Mai 2026: wenn das gleiche grosse Dokument > 50-mal abgefragt wird, lohnt Caching, dann ist Long-Context auch wirtschaftlich. Wenn es nur 1-3 mal abgefragt wird, ist RAG meist günstiger. Wenn der Korpus dynamisch wächst (z.B. eine Wissensbasis mit täglich neuen Einträgen), passt RAG strukturell besser – Long-Context müsste bei jeder Anfrage neu eingespeist werden.
Hybrid-Strategie. Mai 2026 bauen viele Anwendungen einen Hybrid: RAG findet die 10-30 relevantesten Dokumente, packt sie in 50-150k Tokens Long-Context und lässt das Modell synthesisch antworten. Diese Kombination kombiniert die Skalierbarkeit von RAG (Korpus kann beliebig gross sein) mit der Kohaerenz von Long-Context (Modell sieht alle relevanten Quellen auf einmal).
Wann Long-Context die falsche Antwort ist
Vier Fälle, in denen Long-Context Kosten produziert ohne Qualitätsgewinn.
Erstens: wachsende Wissensbasis. Eine Treuhand-Wissens-Sammlung wächst monatlich um Hunderte neue Antworten, Beleg-Beispiele, Mandanten-Aktennotizen. Long-Context müsste bei jeder Anfrage die gesamte Wissensbasis erneut einspeisen – quadratische Kosten, lange Latenz, schlechter Recall in der Mitte. RAG mit einer Vektor-Datenbank (Qdrant, pgvector) skaliert hier linear und liefert genau die relevanten Stücke.
Zweitens: kleine Anfragen. Eine einfache Frage "wie hoch ist der MWST-Satz für Coiffeur-Dienstleistungen?" braucht keine 100k Tokens Kontext. Direkter Aufruf mit knappem Prompt ist 10-100x billiger und schneller.
Drittens: Anfragen mit hohem Recall-Anspruch in der Mitte. Wenn Ihre Anwendung sicher jeden Fakt im Kontext finden muss (z.B. "extrahiere ALLE Datum-Nennungen aus diesem 500-Seiten-Vertrag"), ist Long-Context riskant, weil der Recall in der Mitte sinkt. Sicherer: das Dokument in 5-10 Chunks teilen, jeden separat verarbeiten, Ergebnisse aggregieren – Map-Reduce-Stil. Langsamer, aber zuverlässiger.
Viertens: Compliance-sensible Dokumente, die nicht im Klartext zum Anbieter sollen. Long-Context bedeutet: das ganze Dokument geht im Klartext an OpenAI/Anthropic/Google. Für Mandanten-Daten unter Berufsgeheimnis (StGB 321) oder unter revDSG-Empfindlichkeit ist das ohne ausdrückliche Zustimmung der Betroffenen oder ohne EU/CH-Hosting des Anbieters kritisch. Hier RAG mit Maskierung oder lokales Modell (siehe self-hosted-vs-cloud-llm).
Fallstrick "wir nehmen einfach das grösste Fenster". Mai 2026 verkaufen Anbieter Long-Context als Lösung gegen RAG-Komplexität. Für ein KMU stimmt das selten. Long-Context löst ein anderes Problem (einzelne grosse Dokumente, Code-Reviews, Many-Shot), nicht das RAG-Problem (wachsende Wissensbasen, dynamische Quellen). Wer beide Fälle hat – und das ist der Normalfall – baut beide Ansätze und kombiniert sie.
Vor- und Nachteile
STÄRKEN
- Ganze Dokumente, ganzer Code, viele Beispiele in einer Anfrage
- Einfache Architektur – kein RAG-Stack nötig für Einzeldokumente
- Many-Shot-Prompting für Klassifikations-Qualität
- Caching macht wiederholte Auswertungen wirtschaftlich
SCHWÄCHEN
- Recall sinkt ab ~50% der Fenster-Grösse (Lost-in-the-Middle)
- Quadratisch höhere Kosten und Latenz bei grossen Inputs
- Compliance-Risiko: ganzes Dokument im Klartext zum Anbieter
- Ersetzt RAG nur in Sonderfällen – für wachsende Korpora ungeeignet
Häufige Fragen
Wie viele Seiten Text passen in 128k Tokens?
Faustregel: 1 A4-Seite deutscher Text ca. 500-700 Tokens, je nach Schriftgrösse und Inhaltsdichte. 128k Tokens entsprechen ca. 180-250 A4-Seiten. 1 Mio. Tokens ca. 1400-2000 A4-Seiten – etwa ein 4-bändiges Werk. Achtung: Tabellen, Belege und PDFs mit OCR liegen oft höher in Tokens pro sichtbarem Inhalt, weil Formatierungs-Zeichen und Layout-Tokens mitzählen.
Was ist Prompt-Caching und lohnt es sich?
Prompt-Caching lässt Sie einen grossen statischen Kontext (Wissensbasis, Dokument, System-Prompt) einmal teurer einlegen und dann für Folgeanfragen mit 10-50% Rabatt wiederverwenden. Anthropic (2024 GA), OpenAI (2024) und Google (2024) bieten es. Lohnt sich, wenn der gleiche Kontext > 10 mal pro Stunde abgefragt wird (Cache-TTL typisch 5 Minuten bei Anthropic, länger bei Google). Bei seltenen Anfragen bringt Caching nichts, weil der Cache abgelaufen ist.
Brauche ich bei Long-Context noch RAG?
In den meisten KMU-Fällen: ja. Long-Context ersetzt RAG nur, wenn Ihre Wissensbasis a) klein genug ist (passt in 50-200k Tokens nach Caching), b) statisch ist (wächst nicht ständig), und c) die Recall-Mitte-Falle akzeptabel ist. Sobald die Wissensbasis dynamisch oder gross wird, ist RAG strukturell überlegen. Mai 2026 ist der Hybrid (RAG filtert auf 50-150k Tokens, Long-Context synthesisiert) die dominante Architektur.
Welcher Anbieter hat das beste Long-Context-Verhalten Mai 2026?
Auf RULER-Benchmark Mai 2026 führen Claude Opus und Gemini 2.5 Pro für "schwere" Long-Context-Aufgaben (Multi-Needle, Aggregation). GPT-4.1 ist nahe dran. Llama 4 Scout mit 10 Mio. Tokens Fenster hat in der Marketing-Spitze die grösste Zahl, in den Recall-Tests aber spürbare Schwächen ab 1 Mio. Tokens. Faustregel: für reine Grösse nehmen Sie Gemini 2.5 Pro (2 Mio., günstigste Long-Context-Preise), für hohe Recall-Anforderungen Claude Opus.
Verwandte Themen
Quellen
- Liu et al. – Lost in the Middle: How Language Models Use Long Contexts (arXiv:2307.03172) · 2023-07
- Hsieh et al. – RULER: What's the Real Context Size of Your Long-Context LMs? (arXiv:2404.06654) · 2024-04
- Anthropic – the current top Claude model Documentation, Context Limits and Prompt Caching · 2026-05
- Google DeepMind – Gemini 2.5 Long-Context Technical Report · 2026-04
- OpenAI – GPT-4.1 Pricing and Context Window Documentation · 2026-05
PASSEND ZU IHREM STACK?