TEMPERATURE / TOP-P · AI-KONZEPT

Was sind Temperature und Top-p? LLM-Sampling-Parameter erklärt Mai 2026

Temperature, Top-p und Top-k steuern, wie deterministisch oder kreativ ein LLM antwortet. Faustregeln Mai 2026: 0-0.3 für Fakten, 0.7 für Standard, 1.0+ für Kreativ.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Was sind Temperature und Top-p?

Temperature, Top-p und Top-k sind Sampling-Parameter, die steuern, wie ein Sprachmodell den nächsten Token aus seinen Wahrscheinlichkeits-Verteilungen auswählt. Jedes LLM gibt Mai 2026 pro Schritt eine Verteilung über alle Vokabular-Tokens aus – typisch 50000 bis 300000 mögliche Tokens. Aus dieser Verteilung muss der nächste Token gewählt werden. Wie diese Wahl getroffen wird, steuern Sampling-Parameter.

Temperature. Die wichtigste Stellschraube. Sie wärmt oder kühlt die Wahrscheinlichkeits-Verteilung. Mathematisch wird vor dem Softmax durch den Temperature-Wert geteilt. Höhere Temperature = flachere Verteilung = mehr Zufall in der Wahl. Niedrige Temperature = spitzere Verteilung = das wahrscheinlichste Token gewinnt fast immer. Typische Werte Mai 2026: 0 (rein deterministisch, immer das Top-Token), 0.3 (sehr konzentriert), 0.7 (Standard-Chat-Wert bei OpenAI und vielen anderen), 1.0 (klassischer "normaler" Wert), 1.5+ (deutlich kreativer, mehr Zufall), 2.0 (sehr zufällig, oft inkonsistent). Achtung: die genaue Skala ist anbieter-spezifisch – Claude und GPT verhalten sich bei Temperature 1.0 nicht identisch.

Top-p (Nucleus Sampling). Ein zusätzlicher Filter. Statt aus allen Tokens zu samplen, sortiert das Modell die Tokens nach Wahrscheinlichkeit und behält nur die top-p Prozent der Wahrscheinlichkeitsmasse. Beispiel: Top-p = 0.9 bedeutet "behalte nur die Tokens, deren kumulierte Wahrscheinlichkeit 90% ausmacht – die übrigen 10% Long-Tail-Tokens werden ignoriert". Holtzman et al. (2019) haben Top-p als Verbesserung gegenüber Top-k vorgeschlagen – der "Nucleus" passt sich dynamisch an die Verteilung an.

Top-k. Älterer Filter. Behaltet nur die k wahrscheinlichsten Tokens, ignoriert den Rest. Typisch k = 40 oder 50. Mai 2026 weniger gebraeuchlich als Top-p, weil die Wahl von k für alle Kontexte fix ist und nicht so gut zur Verteilung passt.

Die Parameter wirken zusammen. Temperature ist multiplikativ auf die Logits, Top-p und Top-k schneiden danach den Long-Tail ab. Mai 2026 setzen die meisten Anbieter Defaults: Temperature 0.7-1.0, Top-p 0.9-1.0, Top-k nicht aktiv. Wer ein konsistentes, faktentreues Ergebnis braucht, setzt Temperature auf 0 und ignoriert Top-p und Top-k.

Warum die Werte praktisch wichtig sind

Sampling-Parameter sind die Stellschrauben zwischen "Antwort jeden Tag identisch" und "Antwort jeden Tag anders". Drei Geschäfts-Effekte zählen.

Effekt 1: Reproduzierbarkeit. Eine Treuhand-Anwendung, die Mandanten-Anfragen klassifiziert, soll bei gleicher Eingabe morgen das gleiche Ergebnis liefern. Mit Temperature 0.7 (Default vieler Modelle) bekommen Sie 70-85% gleiche Klassifikation. Mit Temperature 0 bei nahezu allen Anbietern 95-100% – die kleine Restvarianz kommt aus Floating-Point-Effekten in der GPU-Berechnung. Für revisionsfähige Anwendungen (Art. 957a OR, EU AI Act Art. 12-Logging) ist Reproduzierbarkeit nicht "nice to have", sondern Audit-Voraussetzung. Auch für Eval-Suites: ohne Temperature 0 sind Test-Ergebnisse nicht stabil und Regressions-Tests schwerer zu deuten.

Effekt 2: Halluzinations-Wahrscheinlichkeit. Höhere Temperature aktiviert Long-Tail-Tokens – also unwahrscheinliche, ungewöhnliche Fortsetzungen. Bei Fakten-Aufgaben ("nenne MWST-Satz für Coiffeur-Dienstleistungen") erhöht das die Wahrscheinlichkeit von Halluzinationen, weil das Modell sich von der "richtigen" Antwort wegbewegt. Für Fakten-Aufgaben gilt: Temperature 0 oder maximal 0.3. Top-p auf 0.9 als zusätzlicher Schutz. Bei kreativen Aufgaben ist das umgekehrt – hohe Temperature liefert vielfältigere Texte, die "menschlich" wirken statt mechanisch.

Effekt 3: Konsistenz vs Vielfalt in der Produktion. Eine Kundensupport-Anwendung, die immer den gleichen Wortlaut liefert, wirkt unnatürlich (jeder Mandant bekommt wortwörtlich die gleiche Antwort). Eine Anwendung, die zu unterschiedlich antwortet, wirkt instabil. Mai 2026 Faustregel: Temperature 0.3-0.5 für KMU-Support-Bots – leichte Variation in der Formulierung, aber gleiche Substanz. Höher nur, wenn Marketing-Texte oder kreative Texte gefragt sind.

Wirtschaftlicher Aspekt. Temperature und Top-p kosten NICHTS – sie ändern nur das Sampling, nicht die Modell-Rechenleistung. Anders gesagt: Sie zahlen den gleichen Token-Preis bei Temperature 0 und Temperature 1.5. Das ist gut: Sie können experimentieren ohne Kostenfolge. Aber: bei hoher Temperature kann die Antwort länger oder kürzer ausfallen (das Modell wählt unterschiedlich oft das Stop-Token), was die Output-Kosten beeinflusst. Im Schnitt aber kein signifikanter Effekt.

Compliance- und Sicherheits-Aspekt. Bei sicherheitskritischen Anwendungen (Zahlungs-Generierung, Buchungs-Vorschlag, Mandanten-Daten-Auskunft) sollten Sie Temperature 0 setzen und das im Audit-Log festhalten. Bei einer Behörde-Anfrage zur Reproduzierbarkeit ("zeigen Sie, dass das Modell konsistent antwortet") brauchen Sie sonst die Kombination aus Temperature 0, fixem Modell-Version-Lock und Prompt-Versionierung. Mai 2026 ist das im EU AI Act Art. 26-Deployer-Pflichten zunehmend relevant.

Mechanik im Detail

Drei Schritte erklären, wie Sampling-Parameter wirken.

Schritt 1: Logits. Das Sprachmodell berechnet pro Position einen Vektor von Logits – eine reelle Zahl pro Vokabular-Token. Höherer Logit-Wert = wahrscheinlicheres Token. Logits sind das Roh-Ergebnis der letzten Modell-Schicht.

Schritt 2: Temperature. Die Logits werden durch den Temperature-Wert geteilt: scaled_logits = logits / temperature. Bei Temperature = 1 bleibt alles unverändert. Bei Temperature < 1 werden Unterschiede zwischen Logits verstärkt (das wahrscheinlichste Token wird relativ noch wahrscheinlicher). Bei Temperature > 1 werden Unterschiede abgeflacht (alle Tokens werden ähnlicher wahrscheinlich). Bei Temperature = 0 (mathematisch eigentlich nicht definiert wegen Division durch null, in der Praxis als Greedy-Sampling implementiert) wird einfach das Token mit dem höchsten Logit gewählt.

Schritt 3: Softmax und Filter. Auf die skalierten Logits wird Softmax angewendet – das ergibt eine Wahrscheinlichkeits-Verteilung. Anschliessend kann Top-p oder Top-k die Verteilung beschneiden. Top-p: sortiere Tokens absteigend, behalte solange Tokens, bis ihre kumulierte Wahrscheinlichkeit p überschreitet, setze den Rest auf 0, normalisiere neu. Top-k: behalte nur die k wahrscheinlichsten Tokens, Rest auf 0, normalisiere neu. Aus der verbleibenden Verteilung wird zufällig gezogen – und das ergibt den nächsten Token.

Wichtige Detail-Fragen.

Greedy vs Sampling bei Temperature 0. Mai 2026 ist die Konvention bei allen grossen Anbietern: Temperature 0 = greedy = immer das Top-Token. OpenAI, Anthropic, Google, Mistral verhalten sich identisch. DeepSeek auch. Bei einem winzigen Restanteil von Anwendungen (sehr lange Generierungen, exotische Stacks) gibt es Floating-Point-Abweichungen zwischen Runs – die Branche akzeptiert das als "nahezu deterministisch".

Seed-Parameter. OpenAI bietet seit 2024 einen seed-Parameter zur reproduzierbaren Generierung bei Temperature > 0 an. Idee: gleicher seed + gleiche Inputs + gleiche Parameter = gleicher Output. In der Praxis Mai 2026 nicht 100% zuverlässig (Hintergrund: Modell-Hardware-Variabilität, Anbieter-Updates), aber besser als kein seed. Anthropic, Google und Mistral haben ähnliche Mechanismen oder kein seed-Parameter.

Anbieter-spezifische Eigenheiten. OpenAI erlaubt Temperature 0-2, Top-p 0-1. Anthropic Claude (Mai 2026) erlaubt Temperature 0-1 (NICHT 0-2!) und Top-p 0-1; Werte über 1 werden ignoriert oder führen zu Fehler. Google Gemini: Temperature 0-2, Top-p und Top-k aktiv. Mistral: Temperature 0-1 empfohlen, technisch bis 1.5 möglich. Wer Code Anbieter-übergreifend baut, sollte Temperature auf 0-1 begrenzen und Anbieter-Mapping im LLM-Gateway pflegen.

Weitere Sampling-Parameter Mai 2026. "Min-p" (von Llama-Community 2024), "Mirostat" (in einigen Open-Source-Stacks), "Repetition Penalty" (verhindert, dass das Modell den gleichen Satz mehrfach generiert), "Frequency Penalty" und "Presence Penalty" (OpenAI). Diese sind für Spezialfälle wichtig, aber im KMU-Alltag selten relevant.

Faustregeln pro Anwendung

Mai 2026 haben sich pro Anwendungs-Typ klare Werte etabliert.

Temperature 0 (deterministisch). Code-Generierung, Fakten-Extraktion aus Belegen, MWST-Berechnung-Vorschläge, Klassifikation, Eval-Suite, Audit-fähige Anwendungen. Alle Fälle, wo gleiche Eingabe das gleiche Ergebnis liefern muss. Achtung: das Modell kann trotzdem halluzinieren – Temperature 0 verhindert Sample-Variation, nicht Inhalt-Fehler. Halluzinationen brauchen RAG (siehe halluzinationen-begrenzen).

Temperature 0.1-0.3 (sehr konzentriert). Strukturierte Antwort-Generierung, JSON-Outputs, Tool-Call-Argumente, Mandanten-Anfrage-Klassifikation mit leichter Variation. Top-p meist auf 1.0 oder 0.95.

Temperature 0.5-0.7 (Standard). Allgemeine Chat-Antworten, FAQ-Bots, Wissens-Assistenten mit RAG. Default vieler Anbieter Mai 2026 liegt hier. Liefert leicht variable, aber substantiell stabile Antworten. Top-p 0.9-0.95.

Temperature 0.8-1.2 (kreativ). Marketing-Texte, Slogan-Vorschläge, Brainstorming, freie Text-Generierung, "ideenreich" gewünscht. Top-p auf 0.95-1.0. Achtung: Halluzinations-Risiko steigt – nur für Aufgaben, wo Inhalt-Korrektheit nicht entscheidend ist oder wo ein Mensch reviewed.

Temperature 1.3-1.8 (sehr kreativ). Storytelling, Lyrik, experimentelle Texte. Sehr selten in KMU-Anwendungen.

Temperature 2.0+ (zufällig). Praktisch nie in Produktion. Nur für Demos oder Experimente.

Anwendungs-Beispiele.

*Treuhand RAG-Chatbot:* Temperature 0.3, Top-p 0.95. Antworten konsistent und faktentreu, leichte Sprach-Variation für natürliches Gefühl.

*Belegerkennung mit Vision-LLM:* Temperature 0. Extraktion muss deterministisch sein – gleicher Beleg = gleiche Daten.

*Marketing-Slogan-Generator:* Temperature 1.0-1.2, Top-p 0.95. Vielfältige Vorschläge, Mensch wählt.

*Code-Vorschlag in einer IDE:* Temperature 0.2, Top-p 0.95. Konzentriert auf wahrscheinlichste richtige Lösung, leichte Variation in Variablen-Namen erlaubt.

*Pflicht-Bericht-Generierung (Geschäftsbericht-Entwurf):* Temperature 0.5, Top-p 0.9. Konsistente Sprache, aber natürlich lesbar.

*Sentiment-Klassifikation:* Temperature 0. Klassifikations-Aufgaben sind diskret und sollten deterministisch sein.

Fällen, in denen Sampling-Tuning fehl am Platz ist

Drei Fällen, in denen das Sampling-Geknibbel den falschen Hebel adressiert.

Erstens: Wer Temperature 1.5+ in Produktion einsetzt, ohne expliziten Grund. Mai 2026 ist die Faustregel: NIE über 1.2 in produktiven KMU-Anwendungen, ausser bei reinen Kreativ-Aufgaben mit Mensch-Review. Hohe Temperature erhöht Halluzinations-Risiko, senkt Konsistenz, macht Eval-Suites unzuverlässig. Wer das tut, hat oft die Aufgabe falsch verstanden.

Zweitens: Wer Halluzinationen mit Sampling-Tuning lösen will. Temperature 0 macht die Antwort konsistent, aber nicht zwingend wahr. Wenn das Modell glaubt, dass die MWST in der Schweiz 19% beträgt (was falsch ist), wird es bei Temperature 0 IMMER 19% antworten – konsistent halluzinieren ist auch Halluzination. Halluzinationen löst man mit RAG, Refusal-Politik im Prompt, Cross-Check (siehe halluzinationen-begrenzen) – nicht mit Sampling.

Drittens: Wer Top-p und Temperature gleichzeitig aggressiv senkt. Manche kombinieren Temperature 0.2 mit Top-p 0.5 in der Hoffnung "ganz sicher korrekt". Effekt: das Modell hat fast keine Spielraum mehr, kann legitime alternative Formulierungen nicht wählen, gerade an Stellen wo Variation nötig ist (z.B. Stop-Token-Wahl bei Aufzählungen) wirkt das negativ. Faustregel: senken Sie EINEN Parameter (Temperature ODER Top-p), nicht beide aggressiv.

Fallstrick "Reasoning-Modelle". Mai 2026 haben OpenAI o1/o3, Claude Sonnet Thinking, Gemini 2.5 Pro Thinking und DeepSeek R1/V4 spezielle "Reasoning"-Modi. Bei diesen Modellen ist Temperature 0 NICHT immer die richtige Wahl – interne Reasoning-Schritte profitieren von etwas Temperature (typisch 0.6-0.7 in der OpenAI-Empfehlung). Anbieter-Dokumentation lesen!

Fallstrick "Anbieter-Default". Default-Werte sind nicht universal. OpenAI Default Temperature 1.0; Anthropic Claude Default Temperature 1.0; Google Gemini Default 1.0; Mistral 0.7. Wenn Sie ohne explizite Wahl arbeiten, bekommen Sie 1.0 – für Fakten-Anwendungen meist zu hoch. Setzen Sie Werte IMMER explizit.

Fallstrick "Floating-Point-Variation". Selbst bei Temperature 0 gibt es minimal verschiedene Outputs zwischen Anbieter-Hardware-Generationen oder bei Anbieter-Updates. Für harte Eval-Reproduzierbarkeit: Modell-Version explizit pinnen, Anbieter-Update-Verhalten testen, mehrere Anbieter parallel evaluieren.

Vor- und Nachteile

STÄRKEN

Kostenlose Stellschraube – kein Token-Mehrpreis für Änderungen
Temperature 0 liefert quasi-deterministische, reproduzierbare Outputs
Top-p schneidet Halluzinations-Risiko aus dem Long-Tail
Pro Anwendung klar etablierte Faustregeln Mai 2026

SCHWÄCHEN

Anbieter-Defaults unterschiedlich – Werte explizit setzen Pflicht
Temperature 0 garantiert Konsistenz, nicht Korrektheit
Höhe Temperature steigert Halluzinations-Risiko deutlich
Reasoning-Modelle haben eigene Empfehlungen – Anbieter-Doku nötig

Häufige Fragen

Welcher Wert ist der Default bei OpenAI, Anthropic und Google?

Mai 2026: OpenAI Default Temperature 1.0, Top-p 1.0. Anthropic Claude Default Temperature 1.0, Top-p 1.0. Google Gemini 2.5 Default Temperature 1.0 (Modell-spezifisch leicht abweichend), Top-p 0.95, Top-k 64. Mistral Default Temperature 0.7. Die aktuelle DeepSeek-V-Generation Default Temperature 1.0. Faustregel für KMU-Anwendungen: setzen Sie den Wert IMMER explizit, verlassen Sie sich nicht auf den Default – Defaults ändern sich bei Anbieter-Updates manchmal still.

Garantiert Temperature 0 100% gleiche Antworten?

In der Theorie ja, in der Praxis 95-99%. Floating-Point-Berechnungen auf verschiedenen GPU-Generationen können minimale Unterschiede in den Logits erzeugen, was selten zu anderen Top-Token-Wahlen führt. Bei kurzen Antworten (1-50 Tokens) typisch 99%+ identisch. Bei langen Generierungen (1000+ Tokens) kann sich eine kleine Abweichung am Anfang im weiteren Verlauf zu deutlichen Unterschieden aufschaukeln. Für harte Reproduzierbarkeit: Modell-Version pinnen, Anbieter-Updates monitoren, ggf. lokales Modell self-hosten (siehe self-hosted-vs-cloud-llm).

Sollte ich Temperature ODER Top-p anpassen?

Anthropic-Empfehlung und Mai-2026-Konsens: meistens nur einen Parameter aktiv tunen. Beginnen Sie mit Temperature; Top-p auf Default lassen. Wenn Sie Antworten konzentrieren wollen, senken Sie Temperature. Wenn Sie Antworten kreativer machen wollen, heben Sie Temperature. Top-p braucht man eigentlich nur, wenn man bei hoher Temperature trotzdem den Long-Tail abschneiden will – z.B. Temperature 1.2 mit Top-p 0.9 für kreative Texte ohne extreme Ausreisser.

Was ist mit Reasoning-Modellen wie o1 und Claude Thinking?

Reasoning-Modelle (OpenAI o1/o3, Claude Sonnet Thinking, Gemini 2.5 Pro Thinking, DeepSeek R1) führen interne Reasoning-Schritte aus, bevor sie die finale Antwort liefern. Anbieter-Empfehlungen Mai 2026: o1/o3 von OpenAI akzeptieren NICHT Temperature/Top-p (fest auf 1.0) – andere Sampling-Werte werden ignoriert. Claude Thinking lässt Temperature 0-1 zu, Anthropic-Empfehlung ist 0.7-1.0 für beste Reasoning-Qualität. DeepSeek R1 empfiehlt Temperature 0.5-0.7. Bei Reasoning-Modellen NICHT Temperature 0 setzen – die internen Reasoning-Schritte profitieren von Variation. Doku des Anbieters jeweils prüfen.

Quellen

Holtzman et al. – The Curious Case of Neural Text Degeneration (Nucleus Sampling, arXiv:1904.09751) · 2019-04
OpenAI – Reasoning Models Guide (Temperature Behavior in o1/o3) · 2026-04
Anthropic – Claude Sampling Parameters Reference · 2026-05
Google AI – Gemini Generation Parameters · 2026-05
DeepSeek – Reasoning Model V4/R1 Sampling Recommendations · 2026-04

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen