TRANSFORMER · AI-KONZEPT
Was ist die Transformer-Architektur? Grundlagen, Varianten, Marktstand Mai 2026
Die Transformer-Architektur ist das technische Fundament aller modernen Sprachmodelle. Erklärt: Self-Attention, Encoder-Decoder, Multi-Head, MoE-Trend Mai 2026.
Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05
Was ist die Transformer-Architektur?
Die Transformer-Architektur ist ein Neuronales-Netz-Design für Sequenz-Verarbeitung, das 2017 im Paper "Attention is all you need" von Vaswani et al. (Google Brain und Google Research) vorgestellt wurde. Sie ist Mai 2026 das technische Fundament jedes nennenswerten Sprachmodells – GPT, Claude, Gemini, Llama, Mistral, DeepSeek, Qwen – und auch die Grundlage vieler Bild- und Audio-Modelle.
Das zentrale Bauteil ist der Attention-Mechanismus. Statt Wort für Wort sequentiell zu verarbeiten wie ältere RNNs und LSTMs, betrachtet ein Transformer alle Positionen einer Sequenz parallel und entscheidet über Self-Attention, welche Positionen aufeinander Bezug nehmen. Das hat zwei praktische Konsequenzen: die Berechnung ist parallelisierbar (was massives GPU-Training erst ermöglicht), und das Modell kann lange Abhängigkeiten besser modellieren als die alten rekurrenten Architekturen.
Ursprünglich wurde der Transformer für maschinelle Übersetzung entwickelt – ein klassisches Encoder-Decoder-Setup. Die Branche hat seither drei Hauptvarianten ausgeprägt. Encoder-only-Modelle (BERT, RoBERTa, DeBERTa) verstehen Eingaben und liefern Embeddings oder Klassifikationen. Decoder-only-Modelle (GPT-Familie, Claude, Llama, Mistral) generieren Text token-für-token und sind Mai 2026 die dominante Variante für Chat- und Agent-Anwendungen. Encoder-Decoder-Modelle (T5, BART, mT5) bleiben relevant für Übersetzung, Zusammenfassung und strukturierte Sequence-to-Sequence-Aufgaben.
Für ein KMU ist der Begriff "Transformer" weniger eine Architektur-Wahl als eine Hintergrund-Information. Die praktische Frage ist nicht "soll ich einen Transformer einsetzen?" – alle modernen LLMs sind welche – sondern "welches Transformer-basierte Modell über welche API?".
Warum es relevant ist
Die Transformer-Architektur erklärt, warum die letzten acht Jahre an LLM-Fortschritt möglich waren – und warum bestimmte Einschränkungen Mai 2026 immer noch gelten.
Parallelisierbarkeit. RNNs und LSTMs mussten Token für Token verarbeiten, weil jeder Schritt vom vorherigen abhing. Auf modernen GPUs konnten sie ihre Rechenleistung nicht voll nutzen. Transformer berechnen alle Positionen parallel und nutzen die GPU-Architektur effizient. Training eines Modells mit hundert Milliarden Parametern dauert auf einem GPU-Cluster Wochen statt Jahre. Ohne diesen Effizienz-Sprung gäbe es kein GPT-4, kein Claude, kein Gemini.
Lange Abhängigkeiten. RNNs hatten Probleme mit Bezügen über lange Distanzen – der Zusammenhang zwischen Satz 1 und Satz 50 ging verloren ("vanishing gradient"). Transformer mit Self-Attention sehen alle Positionen direkt und können prinzipiell Bezüge über beliebige Distanzen modellieren. In der Praxis ist das durch das Kontextfenster (siehe was-ist-context-window) und durch O(n^2)-Speicherkosten begrenzt, aber qualitativ ist es eine andere Welt als bei RNN/LSTM.
Skalierungs-Gesetz. Mit der Transformer-Architektur wurde sichtbar, dass grössere Modelle, mehr Daten und mehr Rechen-Aufwand zu vorhersagbar besserer Qualität führen (Kaplan et al. 2020, Chinchilla 2022). Das Skalierungs-Gesetz hat die Branche durch die GPT-3-zu-GPT-4-Welle getragen und ist Mai 2026 noch immer eine wirksame Heuristik, wenn auch mit deutlicher Verlangsamung in der reinen Parameterzahl.
Heutige Architektur-Trends. Mai 2026 dominiert eine Variante des klassischen Transformers, die Mixture-of-Experts (MoE) genannt wird. Statt eines dichten Netzwerks aus 70-400 Milliarden Parametern, das bei jedem Token komplett aktiv ist, hat ein MoE-Modell viele "Experten" – Teilnetze, die je nach Token aktiviert werden. Llama 4 (Meta, April 2025), Mistral 8x22B und 8x141B, DeepSeek V3/V4 und GPT-4-Turbo nutzen MoE-Varianten. Vorteil: gleiche oder bessere Qualität bei deutlich weniger aktiver Rechenleistung pro Token. Nachteil: Speicherbedarf steigt (alle Experten müssen geladen sein), Engineering-Komplexität steigt.
Für ein KMU bedeutet der MoE-Trend praktisch: die Preise für hochwertige Modelle sinken weiter (OpenAI hat im Mai 2026 GPT-4o um 25% gesenkt; ein Trend, der bis Ende 2026 anhalten dürfte). Self-Hosting von Modellen mit > 100 Milliarden Parametern bleibt aufwendig, weil der RAM-Bedarf hoch ist, aber Cloud-API-Kosten werden zunehmend KMU-tauglich.
Mechanik des Transformers
Ein Transformer-Block hat vier zentrale Komponenten. Das Verständnis hilft beim Bewerten von Modell-Datenblättern und beim Sprechen mit technischen Partnern.
1. Tokenisierung und Embeddings. Eingehender Text wird zuerst in Token zerlegt (siehe was-ist-token) und jedes Token auf einen Vektor abgebildet (Embedding, typisch 768-12288 Dimensionen). Diese Vektoren sind die Sprache, in der der Transformer rechnet.
2. Positional Encoding. Da Self-Attention selbst keine Reihenfolge kennt, wird die Position jedes Tokens in den Vektor einkodiert. Vaswani et al. nutzten Sinus-Funktionen mit verschiedenen Frequenzen; moderne Modelle nutzen Lern-basierte oder rotatorische Varianten (RoPE – Rotary Position Embedding, in Llama, Mistral, DeepSeek Standard). Ohne Positional Encoding wäre für den Transformer "Anna kuesst Bob" und "Bob kuesst Anna" identisch.
3. Self-Attention mit Multi-Head. Das Herz. Aus jedem Token-Vektor werden drei Vektoren abgeleitet: Query, Key, Value. Für jedes Token-Paar wird die Ähnlichkeit zwischen Query und Key berechnet – das ist das "Attention-Gewicht" zwischen den Positionen. Die Value-Vektoren werden mit diesen Gewichten gemischt. Ergebnis: jedes Token bekommt eine neue Repräsentation, die Informationen aus relevanten anderen Positionen enthält. Multi-Head bedeutet: das passiert nicht einmal, sondern 8-128 Mal parallel mit unterschiedlichen Projektionen. Jeder "Head" lernt ein anderes Bezugsmuster – Syntax, Korreferenz, semantische Nähe, Reihenfolge. Diese Vielfalt erklärt die Verständnis-Tiefe moderner Modelle.
4. Feed-Forward-Netz und Residual-Verbindungen. Nach der Attention-Schicht läuft jedes Token-Embedding durch ein Feed-Forward-Netz (zwei lineare Schichten mit Aktivierung). Residual-Verbindungen und Layer-Normalisierung halten das Training stabil. Ein Transformer besteht aus N solcher Blöcke gestapelt (typisch 24-96), wobei jede Schicht abstraktere Bezüge lernt.
Decoder-only-Detail. Bei GPT-artigen Modellen ist die Self-Attention maskiert – jedes Token darf nur auf vorherige Positionen zugreifen, nicht auf zukuenftige. Das macht den autoregressiven Charakter aus: das Modell generiert Token für Token, jeder neue Token baut auf der bisherigen Sequenz auf.
MoE-Detail Mai 2026. Bei Mixture-of-Experts ersetzt eine Routing-Schicht das einzelne Feed-Forward-Netz. Das Routing entscheidet pro Token, welche 2 von z.B. 8 Experten aktiviert werden. Das spart Rechenleistung pro Token. Llama 4 Maverick (2025) hat 17 Mrd. aktive von 400 Mrd. Gesamt-Parametern; Mistral 8x141B aktiviert zwei Experten pro Token. Mai 2026 ist MoE der De-facto-Standard für neue Frontier-Modelle.
Effizienz-Tricks. FlashAttention (Dao et al. 2022, FA-2 2023, FA-3 2024) reduziert den Speicherbedarf der Self-Attention durch geschicktes Block-Mapping auf GPU-SRAM und ist Mai 2026 Standard in vLLM, TGI und allen ernstzunehmenden Inference-Stacks. Sliding-Window-Attention (Mistral) und Sparse-Attention (Longformer, BigBird) brechen die O(n^2)-Komplexität für sehr lange Kontexte. Diese Tricks erklären, warum 1-Million-Token-Kontextfenster Mai 2026 technisch und wirtschaftlich machbar sind.
Wann das Wissen praktisch wird
Ein KMU baut keinen Transformer von Grund auf – das ist eine Aufgabe für Forschungs-Labs mit Hunderten von Millionen Dollar Budget. Trotzdem gibt es vier Situationen, in denen Architektur-Verständnis konkret nützt.
Erstens: Modell-Auswahl. Wenn Sie zwischen Modellen entscheiden, helfen Architektur-Kategorien. Decoder-only-Modelle (GPT, Claude, Llama) sind die Wahl für Chat, Generierung, Agents. Encoder-only-Modelle (BERT-artig, E5, BGE) sind die Wahl für Embeddings, semantische Suche, Klassifikation – siehe embeddings-und-vektoren. Encoder-Decoder (T5-artig) ist Mai 2026 ein Nischenfall für strukturierte Sequence-to-Sequence-Aufgaben. Wer Embeddings braucht, nimmt kein GPT-4; wer Chat braucht, nimmt kein BERT.
Zweitens: Kosten und Latenz verstehen. Long-Context-Anwendungen kosten quadratisch mehr – O(n^2) ist nicht nur Theorie, sondern auf der API-Rechnung sichtbar. Wer 200k Tokens Input schickt, zahlt nicht nur für die Tokens, sondern für die quadratisch gewachsene Berechnung. FlashAttention und Tricks daempfen das, aber der Grundeffekt bleibt. Praktische Konsequenz: überall, wo Kontext > 50k Tokens steht, RAG statt Long-Context prüfen (siehe retrieval-augmented-generation).
Drittens: Self-Hosting beurteilen. Wer mit dem Gedanken spielt, Llama oder Mistral selbst zu hosten, sollte wissen: MoE-Modelle brauchen RAM für ALLE Experten, auch wenn pro Token nur wenige aktiv sind. Llama 4 Maverick mit 17 Mrd. aktiven Parametern braucht trotzdem 400 Mrd. Parameter im GPU-RAM. Das macht Self-Hosting schwieriger, nicht einfacher als bei klassischen dichten Modellen. Wer self-hosten will, schaut auf "active params" UND "total params" – siehe vergleich-lokale-llm-runtimes.
Viertens: Anbieter-Roadmaps deuten. Wenn Anthropic, OpenAI oder Mistral neue Architektur-Eigenheiten ankündigen (lange Kontexte, Speed-ups, neue Attention-Varianten), hilft das Basis-Verständnis, einzuschätzen, welche Änderungen Marketing-Sprache und welche echte Verbesserungen sind. Beispiel Mai 2026: "1 Million Tokens Kontextfenster" ist real – aber die Recall-Qualität fällt im oberen Bereich (siehe was-ist-context-window). "Neue MoE-Architektur" ist real – aber bringt KMU-Praxis weniger als die Marketing-Kurve suggeriert.
Faustregel: Architektur-Wissen ist Hintergrund, nicht Tagesgeschäft. Sie brauchen es, um Anbieter-Datenblätter, Benchmarks und technische Vorschläge Ihrer Berater zu prüfen – nicht, um selbst Modelle zu trainieren.
Wann das Wissen nicht hilft
Drei Situationen, in denen Architektur-Vertiefung Zeit und Aufmerksamkeit verbrennt, ohne Mehrwert.
Erstens: Sie wollen ein Modell von Grund auf trainieren. Das ist Mai 2026 ein Forschungs-Projekt mit Budgets im Bereich CHF 5-500 Mio. Selbst die Feinjustierung (Fine-Tuning) eines existierenden Modells ist für 95% der KMU-Anwendungen die falsche Wahl – RAG erreicht in der Regel bessere Ergebnisse mit Bruchteil des Aufwands (siehe was-ist-fine-tuning-vs-rag). Wer über Modell-Architektur diskutiert, ohne diese Vorfrage beantwortet zu haben, geht den falschen Weg.
Zweitens: Sie wollen ein vorhandenes Modell "tunen" durch Architektur-Eingriffe. Eine Treuhand-Kanzlei, die fragt "soll der Transformer mehr Heads haben für unsere Belege?", stellt die falsche Frage. Modelle sind, was sie sind – die Variablen liegen in Prompts, RAG, Daten, Workflow. Architektur ist die Wahl des Anbieters, nicht des Kunden.
Drittens: Sie diskutieren Architektur statt Anwendungs-Qualität. Es ist verlockend, sich in MoE-Aktivierungs-Mustern und Attention-Head-Spezialisierung zu verlieren. Für ein KMU zählt aber: erreicht das Modell die Qualität, die mein Use-Case braucht, bei akzeptablen Kosten und Latenz, mit ausreichender Compliance? Diese vier Fragen beantwortet ein Benchmark mit Ihren echten Daten besser als jede Architektur-Analyse.
Empfehlung. Lesen Sie das Vaswani-Paper einmal, lesen Sie Karpathys "Let's build GPT" als 1-Stunden-Video – und dann lassen Sie Architektur in Frieden. Sie haben Wichtigeres zu tun: Daten ordnen, Use-Case formulieren, Eval-Suite bauen.
Vor- und Nachteile
STÄRKEN
- Parallelisierbar – massives Training auf GPU-Clustern möglich
- Lange Abhängigkeiten durch Self-Attention modellierbar
- Einheitliche Basis für Text, Bild, Audio, Multi-Modal
- MoE-Variante senkt Inferenz-Kosten bei gleicher Qualität
SCHWÄCHEN
- O(n^2)-Komplexität in Sequenzlänge – Long-Context teuer
- Hoher RAM-Bedarf, vor allem bei MoE-Modellen
- Trainings-Kosten in Millionenbereich – kein Eigenbau für KMU
- Architektur löst Halluzinations- und Daten-Qualitäts-Probleme nicht
Häufige Fragen
Warum hat der Transformer die LSTM/RNN-Architektur abgelöst?
Zwei Gründe. Erstens Parallelisierbarkeit: Transformer rechnen alle Positionen gleichzeitig, RNNs sequentiell. Auf GPUs ist das ein Faktor 10-100 schnelleres Training. Zweitens lange Abhängigkeiten: Self-Attention sieht jede Position direkt, RNNs verlieren Information über lange Distanzen ("vanishing gradient"). Zusammen erklären beide Gründe, warum 2018-2020 die gesamte Branche auf Transformer umgestellt hat und Mai 2026 praktisch kein Production-Sprachmodell mehr auf RNN/LSTM basiert.
Was bedeutet "decoder-only" gegen "encoder-only"?
Encoder-only-Modelle (BERT, E5, BGE) lesen einen ganzen Text und produzieren eine Verdichtung – entweder einen Vektor (Embedding) für Suche/Klassifikation oder Wahrscheinlichkeiten pro Token. Sie generieren keinen neuen Text. Decoder-only-Modelle (GPT-4, Claude, Llama) generieren Text Token für Token, jeder neue Token wird auf der bisherigen Sequenz aufgebaut. Mai 2026 sind 90% der Chat- und Agent-Anwendungen decoder-only, 90% der semantischen Suche encoder-only. Encoder-Decoder (T5, BART) sind selten und werden meist von decoder-only mit besseren Prompts ersetzt.
Sollte ich MoE-Modelle bevorzugen?
Als API-Nutzer: das interessiert Sie meist nicht. Sie sehen Preis pro Million Tokens und Qualität im Benchmark – egal ob das Modell dicht oder MoE ist. Indirekt profitieren Sie, weil MoE-Modelle bei vergleichbarer Qualität günstiger sind; Mai 2026 sind viele neue Modelle (Llama 4, Mistral 8x*, die aktuelle DeepSeek-V-Generation) MoE und die Preise sinken entsprechend. Als Self-Hoster: MoE-Modelle brauchen mehr RAM (alle Experten müssen geladen sein), aber weniger Rechenleistung pro Token. Das verschiebt die Hardware-Optimierung von GPU-Compute zu GPU-Speicher – ein wichtiger Punkt für Hardware-Auswahl.
Löst die Transformer-Architektur das Halluzinations-Problem?
Nein. Halluzinationen sind keine Architektur-Eigenschaft, sondern eine Trainings- und Anwendungs-Eigenschaft. Transformer lernen Wahrscheinlichkeits-Verteilungen über Text – ob das gelernte Wissen korrekt ist, hängt vom Trainings-Korpus ab. Halluzinationen reduzieren Sie nicht durch Architektur-Wahl, sondern durch RAG (Quellen-Beweise), durch klare Refusal-Politiken in Prompts und durch Eval-Loops. Siehe halluzinationen-begrenzen.
Verwandte Themen
Quellen
- Vaswani et al. – Attention Is All You Need (arXiv:1706.03762) · 2017-06
- Dao et al. – FlashAttention-3: Fast and Accurate Attention with Asynchrony · 2024-07
- Meta AI – Llama 4 Model Card and Architecture Notes · 2025-04
- Mistral AI – Mixtral 8x22B and Mixture-of-Experts Documentation · 2026-03
- Stanford CRFM – State of Foundation Models 2026 Report · 2026-04
PASSEND ZU IHREM STACK?