ATTENTION · AI-KONZEPT

Was ist der Attention-Mechanismus? Query, Key, Value erklärt Mai 2026

Attention ist das Herzstück moderner Sprachmodelle: jede Position einer Sequenz darf auf alle anderen achten. Erklärt: Q/K/V, Self vs Cross, Multi-Head.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Was ist Attention?

Attention ist ein Berechnungs-Mechanismus, der jeder Position in einer Sequenz erlaubt, Information aus allen anderen Positionen aufzunehmen – gewichtet danach, wie relevant sie zueinander stehen. Er ist seit dem Paper "Attention is all you need" (Vaswani et al. 2017) das Herzstück der Transformer-Architektur und damit die Grundlage aller modernen Sprachmodelle (siehe was-ist-transformer-architektur).

Das Grundprinzip ist einfacher als die mathematische Notation suggeriert. Stellen Sie sich vor, Sie lesen den Satz "Anna gab Bob das Buch, das sie gestern gekauft hatte". Beim Wort "sie" muss Ihr Sprachverständnis entscheiden: bezieht sich "sie" auf Anna, auf Bob, auf das Buch? Klassische sequentielle Modelle (RNN, LSTM) haben dafür einen verschlungenen Verlust- und Wiederherstellungs-Mechanismus durch viele Schritte hindurch. Ein Attention-Mechanismus löst das in einem Schritt: das Token "sie" "schaut" auf alle anderen Tokens des Satzes, gewichtet sie nach Relevanz, und sammelt die passende Information ein – hier mit hohem Gewicht auf "Anna".

Formal gibt es drei abgeleitete Grössen pro Token: Query, Key und Value. Aus dem Token-Vektor werden über lineare Transformationen drei neue Vektoren erzeugt. Die Query stellt die Frage ("wer bin ich, worauf will ich achten?"), der Key bietet sich als potenzielle Antwort an ("ich bin folgender Bezug verfügbar"), der Value enthält die eigentliche Information, die übertragen wird. Die Ähnlichkeit zwischen Query und Key (typisch Skalarprodukt mit anschliessendem Softmax) bestimmt das Gewicht, mit dem der Value in die Antwort einfliesst.

Mai 2026 ist Attention nicht nur in Sprachmodellen Standard, sondern auch in Bild-Modellen (Vision Transformers, DiT), Audio-Modellen (Whisper, AudioLM) und Multi-Modal-Modellen (CLIP, GPT-4V, Gemini, Claude mit Bild-Eingabe). Das Konzept überspannt die gesamte moderne AI-Landschaft.

Warum es bedeutsam ist

Attention löst drei Probleme, an denen ältere Architekturen gescheitert sind – und schafft gleichzeitig eine konkrete praktische Konsequenz, die KMU spüren.

Erstens: lange Abhängigkeiten. Sprache ist voll von Bezügen über Distanz. Eine Klausel auf Seite 12 eines Vertrages bezieht sich auf eine Definition auf Seite 2. Ein Pronomen am Ende eines langen Absatzes bezieht sich auf das Subjekt am Anfang. Klassische RNNs und LSTMs verlieren solche Bezüge durch "vanishing gradients" – die Information verblasst auf dem Weg. Attention sieht alle Positionen direkt, kann jede beliebige Distanz modellieren, solange das Context Window reicht (siehe was-ist-context-window). Diese Fähigkeit erklärt, warum heutige Modelle Dokumente verstehen können, an denen Modelle der 2018-Aera scheitern.

Zweitens: Parallelisierbarkeit. Attention berechnet alle Positions-Paare auf einmal – Matrix-Operationen, die GPUs lieben. RNNs müssten Schritt für Schritt rechnen, weil jeder Schritt vom vorherigen abhängt. Auf modernen GPU-Clustern ist Attention 10-100x schneller im Training. Das ist der Hauptgrund, warum Sprachmodelle in den letzten acht Jahren so dramatisch besser wurden: schnellere Iteration auf grösseren Daten mit grösseren Modellen.

Drittens: Interpretierbarkeit (bedingt). Attention-Gewichte sind sichtbar. Man kann visualisieren, welche Tokens stark aufeinander aufmerksam waren – was bei Pronomen-Auflösung, Korreferenz oder Syntax-Bezügen Einblicke gibt. Mai 2026 ist die Forschung nicht mehr so euphorisch wie 2018-2020: Attention-Gewichte sind nicht zwingend Kausal-Erklärungen ("attention is not explanation", Jain & Wallace 2019), aber sie sind ein nützliches Werkzeug für Modell-Debugging.

Praktische Konsequenz für KMU: O(n^2)-Kosten. Attention skaliert quadratisch mit der Sequenzlänge. Doppelte Eingabe = vierfache Rechenzeit. Das ist Mai 2026 die wichtigste praktische Implikation. Wer ein 100k-Token-Dokument einspeist, bezahlt nicht das 10-fache einer 10k-Token-Anfrage – sondern eher das 30-50-fache, abhängig vom Anbieter. Praktische Faustregel: Long-Context (siehe was-ist-context-window) ist eine wirtschaftliche Entscheidung, kein Default. Wer Geld sparen will, kürzt Eingaben durch RAG, statt das ganze Korpus durchzureichen.

Mai 2026 ist die Branche dabei, die O(n^2)-Komplexität durch Algorithmus-Tricks zu daempfen. FlashAttention (Dao et al. 2022, FA-3 Juli 2024) macht die Berechnung speichereffizient und 2-4x schneller. Sliding-Window-Attention (Mistral seit 2023) bricht O(n^2), indem nicht jedes Token mit jedem anderen verbunden ist – nur lokal plus ein paar globale Tokens. Sparse Attention (Longformer, BigBird, Reformer) wählt eine dünne Menge globaler Verbindungen. Ring-Attention (Gemini 1.5/2.5) verteilt die Berechnung über viele GPUs. Diese Tricks ermöglichen die 1-2-Mio.-Token-Fenster, sind aber nicht kostenlos: bestimmte Bezugs-Muster gehen verloren, der Recall in der Mitte sinkt (siehe was-ist-context-window).

Mechanik im Detail

Attention besteht aus drei Stufen, die in jedem Transformer-Block laufen.

Stufe 1: Q, K, V ableiten. Aus dem Eingangs-Vektor jedes Tokens (typisch 768-12288 Dimensionen) werden drei neue Vektoren erzeugt – Query (Q), Key (K), Value (V). Mathematisch sind das drei lineare Transformationen: Q = X * W_Q, K = X * W_K, V = X * W_V. Die Matrizen W_Q, W_K, W_V sind Lern-Parameter, die im Training gefunden werden. Q und K haben typisch die gleiche Dimension d_k; V kann eine andere Dimension haben, ist meist aber gleich gross.

Stufe 2: Ähnlichkeit berechnen und gewichten. Für jedes Token-Paar (i, j) wird das Skalarprodukt Q_i * K_j gebildet – ein Ähnlichkeits-Score. Anschliessend durch sqrt(d_k) geteilt (Skalierungs-Trick für Trainings-Stabilität) und durch Softmax in eine Wahrscheinlichkeits-Verteilung umgewandelt. Ergebnis: Attention-Gewicht alpha_ij – wie viel Aufmerksamkeit Token i auf Token j legt. Die Summe der Gewichte für eine bestimmte Quell-Position ist 1.

Stufe 3: Werte mischen. Der Output an Position i ist die gewichtete Summe der Values: output_i = sum_j(alpha_ij * V_j). Jedes Token bekommt eine neue Repräsentation, die Mischung aus allen Tokens des Inputs ist, gewichtet nach Relevanz.

Self-Attention vs Cross-Attention. Bei Self-Attention kommen Q, K, V alle aus derselben Sequenz – das ist der Standard-Fall in Decoder-only-Modellen (GPT, Claude, Llama) und in Encoder-only-Modellen (BERT). Bei Cross-Attention kommt Q aus einer Sequenz (z.B. der bisher generierte Output) und K, V aus einer anderen (z.B. dem zu übersetzenden Input). Cross-Attention ist zentral in klassischen Encoder-Decoder-Modellen (T5, BART, Whisper). Mai 2026 ist Self-Attention der dominante Fall.

Multi-Head-Attention. Statt eines einzelnen Attention-Aufrufs werden 8-128 Heads parallel berechnet. Jeder Head hat eigene W_Q, W_K, W_V mit kleinerer Dimension. Die Outputs aller Heads werden konkateniert und durch eine weitere lineare Schicht projiziert. Effekt: jeder Head kann ein anderes Bezugsmuster lernen – einer achtet auf Syntax, einer auf Pronomen-Auflösung, einer auf semantische Nähe, einer auf Reihenfolge. Empirische Studien (Clark et al. 2019, "What does BERT look at?") zeigen, dass bestimmte Heads tatsächlich konsistent bestimmte Bezugs-Typen abdecken. Diese Vielfalt ist ein zentraler Grund für die Verständnis-Tiefe moderner Modelle.

Causal Mask in Decoder-Modellen. GPT-artige Modelle generieren Token für Token – Position t darf nur auf Positionen <= t schauen, nicht in die Zukunft. Eine Maske setzt alpha_ij = 0 für alle j > i, bevor Softmax angewendet wird. Das erzwingt die autoregressive Eigenschaft.

FlashAttention. Dao et al. (2022) haben gezeigt, dass die naive Attention-Implementierung den GPU-Speicher mit grossen Zwischen-Ergebnis-Matrizen befüllt. FlashAttention berechnet Attention in Blöcken im schnellen GPU-SRAM, ohne die volle nxn-Matrix je zu materialisieren. Ergebnis: 2-4x schneller, dramatisch geringerer Speicher-Bedarf, identisches mathematisches Resultat. FA-2 (2023) und FA-3 (Juli 2024) haben weitere Effizienz-Gewinne durch Asynchron-Verarbeitung gebracht. Mai 2026 sind FA-2/FA-3 Standard in jedem ernsthaften Inference-Stack (vLLM, TGI, SGLang, llama.cpp).

Sub-Quadratische Tricks. Sliding-Window-Attention (Mistral, Longformer) lässt jedes Token nur auf ein lokales Fenster (z.B. 4096 vorherige Tokens) schauen. Sparse Attention (BigBird) mischt globale, lokale und zufällige Bezüge. Linear Attention (Performer, Linformer) approximiert Attention mit linearer statt quadratischer Komplexität – Mai 2026 in einigen Open-Source-Modellen, in Top-Frontier-Modellen aber nicht durchgesetzt, weil die Qualität leicht leidet. Mamba und State-Space-Modelle (Gu & Dao 2023, Mamba-2 2024) sind eine alternative Architektur ohne Attention, die für sehr lange Sequenzen interessant ist – Mai 2026 noch experimentell in der Frontier-Klasse.

Wann das Wissen praktisch wird

Sie implementieren Attention nicht. Frameworks (Hugging-Face-Transformers, PyTorch nn.MultiheadAttention, vLLM, TGI, SGLang) erledigen das. Aber drei praktische Konsequenzen gehen Sie als KMU direkt an.

Erstens: Inferenz-Stack-Auswahl. Wenn Sie Open-Source-Modelle selbst hosten (Llama, Mistral, Qwen, DeepSeek), entscheiden Sie zwischen Stacks wie vLLM, TGI (HuggingFace), SGLang oder llama.cpp. Alle implementieren FlashAttention in der aktuellen Version. Mai 2026 sind die Performance-Unterschiede typisch 10-30%, abhängig von Modell-Grösse, Batch-Verhalten und Hardware. vLLM ist der populärste Stack für GPU-Server, llama.cpp für kleinere Self-Host-Szenarien auf CPU oder Apple-Silicon. Siehe vergleich-lokale-llm-runtimes.

Zweitens: Long-Context-Auswahl. Wenn Sie Long-Context brauchen, fragen Sie den Anbieter konkret: welche Attention-Variante läuft im Long-Context-Modus? Gemini 2.5 (Ring-Attention) liefert Mai 2026 die besten Long-Context-Recall-Werte. Mistral mit Sliding-Window ist effizient, aber bei manchen Bezugs-Mustern weniger genau. OpenAI und Anthropic verraten ihre Attention-Implementierung nicht im Detail, liefern aber per RULER-Benchmark messbar.

Drittens: Hardware-Planung. Attention-Speicher wächst quadratisch. Eine 200k-Token-Sequenz bei einem 70-Mrd.-Modell braucht je nach Stack 20-80 GB GPU-Speicher allein für Attention-Zwischen-Ergebnisse (vor FlashAttention waren es 100-400 GB – FA spart hier dramatisch). Wer Long-Context self-hostet, plant GPU-RAM mit Sicherheits-Aufschlag.

Vierter Anwendungs-Fall: Multi-Modal-Modelle. Modelle wie GPT-4V, Gemini, Claude mit Bild-Eingabe nutzen Cross-Attention zwischen Bild-Tokens (vom Vision-Encoder) und Text-Tokens. Wer Multi-Modal-Anwendungen baut (Belegerkennung mit Vision-LLM siehe ai-belegerkennung-ocr, Produkt-Bild-Klassifikation), sollte verstehen: das Modell mischt zwei Token-Ströme. Latenz und Kosten skalieren mit der Summe beider – Bilder werden je nach Auflösung in 85-2000 Tokens umgerechnet.

Wo Attention NICHT die richtige Erklärung ist. Wenn das Modell falsche Antworten gibt, ist die Ursache fast nie "die Attention ist schlecht trainiert". Ursachen sind: Trainings-Daten-Lücken (Halluzinationen, siehe halluzinationen-begrenzen), Prompt-Klarheit (siehe prompt-engineering-grundlagen), RAG-Qualität (siehe retrieval-augmented-generation). Wer auf Attention-Ebene sucht, sucht meist am falschen Ort.

Wann Attention-Tiefe nicht hilft

Drei Fälle, in denen sich KMU mit Attention nicht beschäftigen sollten.

Erstens: Sie suchen den Grund für schlechte Modell-Antworten. Mai 2026 sind 95% der Qualitäts-Probleme im KMU-Bereich: schlechte Prompts, schlechte RAG-Qualität, schlechte Daten, falsche Modell-Wahl. Nur sehr wenige sind Attention-bezogen. Wer "wir müssen die Attention besser tunen" sagt, hat in 19 von 20 Fällen das falsche Problem identifiziert.

Zweitens: Sie wollen ein vorhandenes Modell "feinjustieren", um Attention-Muster zu ändern. Das ist Forschungs-Arbeit, kein KMU-Projekt. Selbst LoRA-Fine-Tuning (effizientere Variante) erreicht meist nur 5-15% Qualitäts-Verbesserung gegenüber gutem Prompt-Engineering plus RAG – bei hohem Engineering-Aufwand und neuen Compliance-Pflichten (siehe was-ist-fine-tuning-vs-rag).

Drittens: Sie wollen einen "Attention-freien" Stack wählen. Mai 2026 sind Mamba-/State-Space-Modelle interessant, aber noch nicht im Mainstream. Die Frontier-Klasse (GPT-4.1, das aktuelle Claude-Spitzenmodell, Gemini 2.5, Llama 4) ist attention-basiert. Wer ohne Attention auskommen will, muss in der Open-Source-Welt nach speziellen Modellen (Mamba-Codestral, RWKV-7) suchen – und akzeptieren, dass die Qualitäts-Kurve für KMU-Standard-Aufgaben hinter den Mainstream-Modellen liegt.

Empfehlung. Lesen Sie Vaswani et al. einmal, schauen Sie eine 20-Minuten-Erklärung (3Blue1Brown auf YouTube oder Karpathy "Let's build GPT") – und dann lassen Sie Attention in Frieden. Sie haben Daten zu sortieren, Prompts zu schreiben und Eval-Suiten zu bauen.

Vor- und Nachteile

STÄRKEN

Modelliert beliebige Distanz-Bezüge ohne Verlust
Parallelisierbar – passt zu modernen GPU-Architekturen
Interpretierbar (bedingt) durch sichtbare Gewichte
Universell einsetzbar für Text, Bild, Audio, Multi-Modal

SCHWÄCHEN

O(n^2)-Komplexität – Long-Context teuer und langsam
Speicher-Bedarf wächst quadratisch – FlashAttention daempft, beseitigt nicht
Sub-quadratische Tricks verlieren manche Bezugs-Muster
Attention-Gewichte sind keine zuverlässigen Kausal-Erklärungen

Häufige Fragen

Was ist der Unterschied zwischen Self-Attention und Cross-Attention?

Bei Self-Attention kommen Query, Key und Value alle aus derselben Sequenz. Token achtet auf andere Tokens des gleichen Inputs. Standard in Decoder-only-Modellen (GPT, Claude, Llama) und Encoder-only-Modellen (BERT). Bei Cross-Attention kommt die Query aus einer Sequenz (z.B. dem bisher generierten Output), während Key und Value aus einer anderen kommen (z.B. dem zu übersetzenden Input). Standard in Encoder-Decoder-Modellen (T5, BART, Whisper). Mai 2026 ist Self-Attention der dominante Fall in Text-Modellen; Cross-Attention bleibt zentral in Übersetzung, Bild-zu-Text und Audio-zu-Text.

Was bedeutet O(n^2)-Komplexität praktisch?

Doppelte Eingabe-Länge bedeutet vierfache Rechenzeit und vierfachen Speicherbedarf für die Attention-Schicht. Eine Anfrage mit 20k Tokens kostet rechnerisch viermal so viel wie eine mit 10k Tokens – und 16-mal so viel wie eine mit 5k Tokens. Mai 2026 daempfen FlashAttention und Sliding-Window-Tricks den Effekt, beseitigen ihn aber nicht. Praktisch: Long-Context ist eine wirtschaftliche Entscheidung. Wenn Sie häufig 100k Tokens senden, ist RAG (Wissens-Filter auf 10-20k Tokens vor Modell-Aufruf) typisch 5-15x billiger als Long-Context.

Warum gibt es viele Heads in Multi-Head-Attention?

Jeder Head lernt ein eigenes Bezugs-Muster. Empirische Studien (Clark et al. 2019, "What does BERT look at?") zeigen: bestimmte Heads decken konsistent bestimmte linguistische Phänomene ab – Pronomen-Auflösung, Subjekt-Verb-Bezüge, semantische Nähe, Korreferenz. Mit 8-128 parallelen Heads kann ein Modell viele verschiedene Bezugs-Muster gleichzeitig modellieren. Erhöhung der Head-Zahl bringt nicht beliebig viel – ab 16-32 Heads bei mittelgrossen Modellen ist die Skalierungs-Kurve flacher.

Löst Mamba die Attention-Probleme?

Mamba (Gu und Dao 2023, Mamba-2 2024) ist eine State-Space-Architektur ohne Attention, mit linearer statt quadratischer Komplexität. Mai 2026 interessant für sehr lange Sequenzen (Genom-Analyse, sehr lange Code-Basen) und in einigen Hybrid-Modellen (Jamba von AI21, Mamba-Codestral). In der KMU-Praxis aber Stand Mai 2026 nicht im Hauptstrom – die Top-Modelle (GPT-4.1, das aktuelle Claude-Spitzenmodell, Gemini 2.5, Llama 4) bleiben attention-basiert mit FlashAttention plus Long-Context-Tricks. Beobachten lohnt sich, einsetzen noch nicht.

Quellen

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen