HALLUZINATIONEN · AI-KONZEPT

Halluzinationen begrenzen: Fünf Gegenmittel gegen erfundene KI-Antworten

Warum Sprachmodelle plausibel-falsche Antworten produzieren, welche fünf Mittel das eindaemmen und wie Sie Halluzinationen messbar machen.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Was ist eine Halluzination?

Eine Halluzination ist eine Antwort eines Sprachmodells, die statistisch plausibel klingt, aber faktisch falsch ist. Das Modell ist nicht „luegnerisch" – es ist ein Wahrscheinlichkeits-Generator für Folge-Tokens, kein Wissens-Index. Wenn das Trainingsmaterial zu einer Frage dünn ist, füllt das Modell die Lücke mit dem, was statistisch zur Frage „passen" würde. Das Ergebnis: erfundene Gerichtsentscheide, falsche Paragrafen-Nummern, nicht existierende Studien, falsche Personennamen – sprachlich tadellos, sachlich erfunden.

Die Forschung unterscheidet drei Typen. Faktische Halluzination: die Aussage ist objektiv falsch (BGE 4A_123/2024 existiert nicht). Kontext-Halluzination: die Aussage widerspricht den Quelltexten, die dem Modell mitgegeben wurden (RAG-Treffer sagt A, Modell antwortet B). Logische Halluzination: die Aussage widerspricht den eigenen vorigen Sätzen im selben Antwort-Verlauf.

Mai 2026 ist das Problem nicht gelöst, aber besser greifbar. Auf gerundeten Summarization-Tasks halluzinieren Top-Modelle wie GPT-4o um 1.5%, Claude Sonnet um rund 4%. Auf juristischen Spezial-Tasks steigen die Raten dramatisch – eine Stanford-Studie fand bei US-Gerichts-Recherche Halluzinations-Raten von über 75% bei nicht-spezialisierten Modellen. Selbst die stärksten Konfigurationen (Claude Opus oder das aktuelle GPT-Spitzenmodell mit Web-Suche) halten auf dem HalluHard-Benchmark rund 30% Fehlerquote.

Warum es wichtig ist

Eine Halluzination in einer Marketing-Mail ist peinlich. Eine Halluzination in einer Rechts-Auskunft, einer Steuermeldung oder einer medizinischen Empfehlung ist haftbar. Schweizer Anwälte sind seit 2024 mehrfach in Disziplinarverfahren geraten, weil sie KI-erfundene Bundesgerichtsentscheide in Eingaben zitierten. Treuhand-Büros, die KI-Buchungs-Vorschläge ohne Prüfung übernehmen, riskieren GeBüV-konformes Material, das auf erfundenen Belegen aufsetzt.

Die regulatorische Lage verstärkt das. Bei automatisierten Einzelentscheidungen nach Art. 21 revDSG müssen Sie die Logik offenlegen können – wenn die Logik „das Modell hat das einfach so gesagt" lautet, ist Ihre Position schwach. Bei der EU AI Act (anwendbar für Schweizer Anbieter, die in EU verkaufen) sind Hochrisiko-Anwendungen (Justiz, Personalauswahl, Kreditprüfung) ohne dokumentierte Halluzinations-Tests nicht zulässig.

Das Vertrauensargument: Mitarbeitende, die zweimal von einer KI in die Irre geführt wurden, nutzen das Tool danach nicht mehr – oder schlimmer, sie nutzen es ohne nachzuprüfen, weil es „meist stimmt". Beides ist schlecht. Wer Halluzinationen technisch begrenzt und transparent misst, baut nachhaltiges Vertrauen auf.

Fünf wirksame Gegenmittel

Es gibt keine einzelne Lösung – wirksam ist die Kombination. Wir setzen in jeder produktiven Pipeline mindestens drei der folgenden fünf Mittel ein.

1. RAG mit Citation-Required. Statt das Modell aus seinem Training-Gedächtnis antworten zu lassen, liefern Sie ihm bei jeder Anfrage die relevanten Passagen aus Ihrer Dokumenten-Bibliothek. Der System-Prompt erzwingt Zitate: „Jeder Tatsachen-Satz muss mit [Quelle-ID, Seite] enden. Sätze ohne Quelle sind nicht erlaubt." Eine Post-Processing-Schicht prüft, ob jede zitierte Quelle tatsächlich im Retrieval-Treffer war – wenn nicht, wird die Antwort verworfen oder zur Prüfung an einen Menschen geleitet. Wirkung: Halluzinations-Rate sinkt auf legalen Spezial-Tasks von 75% auf unter 10%, in einigen Setups unter 3%.

2. Refusal-Instruction im System-Prompt. „Wenn die Antwort nicht aus dem mitgegebenen Material klar hervorgeht, sage „nicht im Material" und schlage vor, welche Quelle ergänzt werden müsste." Das Modell ist ohne diese Instruktion auf „immer antworten" trainiert – das ist die Wurzel vieler Halluzinationen. Mit klarer Refusal-Erlaubnis sinkt die Rate erfundener Antworten um die Hälfte. Beispiel-Wording: „Wenn Sie nicht sicher sind oder die Information fehlt, sagen Sie es ausdrücklich. Spekulieren ist verboten."

3. Temperature unter 0.3 für Faktentreue. Die „Temperature" steuert die Zufälligkeit der Token-Auswahl. Bei kreativen Aufgaben (Marketing-Texte) ist 0.7 bis 0.9 sinnvoll. Bei Fakten-Antworten (Buchhaltung, Recht, Medizin) sollte sie zwischen 0.0 und 0.3 liegen. Wer Temperature 0 setzt, bekommt deterministische Antworten – gleicher Prompt, gleiches Modell, gleiche Antwort. Das macht Bugs reproduzierbar und reduziert „die KI hat heute anders geantwortet"-Effekte.

4. Cross-Check zwischen zwei Modellen. Bei kritischen Fragen lassen Sie zwei verschiedene Modelle parallel antworten (z.B. Claude Opus und das aktuelle GPT-Spitzenmodell). Eine dritte Instanz vergleicht die Antworten: stimmen sie überein, geht die Antwort durch; weichen sie ab, wird ein Mensch eingeschaltet. Diese „Self-Consistency"-Technik fundamental: stimmen zwei unabhängige Modelle in einer erfundenen Tatsache überein, ist das extrem unwahrscheinlich. Kostet doppelte Token-Gebühr, halbiert aber Halluzinations-Schäden in der Praxis.

5. Output-Validation gegen Schemas. Wenn die Antwort strukturiert sein muss (JSON, IBAN, Datum, BGE-Nummer), validieren Sie sie gegen ein Schema. Eine erfundene IBAN fällt durch die Prüfziffer, ein erfundener BGE-Hinweis durch eine Format-Regex, eine erfundene HGB-Norm durch einen Lookup gegen den echten Gesetzes-Index. Das schiebt einer ganzen Klasse von Halluzinationen den Riegel vor.

Halluzinations-Begrenzung in 7 Schritten

01Risiko-Klassifizierung: Bewerten Sie jeden KI-Workflow nach Schadens-Potenzial (gering / mittel / hoch / haftungsrelevant).
02Test-Set bauen: 50 bis 200 Fragen mit bekannten korrekten Antworten, abgedeckt sind die häufigsten Anfrage-Muster.
03Refusal-Instruction in den System-Prompt: explizit „Wenn unsicher, sage es. Spekulation verboten."
04Temperature auf 0 bis 0.2 für alle Faktentreue-Pipelines setzen.
05RAG aufsetzen mit Citation-Required + Post-Processing-Validierung der Quellen.
06Output-Schemas für strukturierte Felder (IBAN, Datum, BGE-Nummer, Steuernummer): Validierung in der Pipeline.
07Bei haftungsrelevanten Workflows: Cross-Check mit zweitem Modell und Human-in-the-Loop bei Abweichung.

Wann welches Mittel

Die Mittel sind nicht alle gleich teuer. Wir empfehlen folgende Reihenfolge: Erst Refusal-Instruction (Aufwand: 30 Minuten, kostet nichts), dann Temperature-Reduktion (Aufwand: 5 Minuten), dann Output-Validation für strukturierte Felder (Aufwand: ein paar Stunden pro Schema), dann RAG-mit-Citation (Aufwand: 5 bis 10 Tage Setup), zuletzt Cross-Check (Aufwand: Pipeline-Erweiterung plus doppelte Modell-Kosten).

Für Recherche-Tools in Anwaltskanzleien und Steuerbüros sind alle fünf Mittel Pflicht. Für Buchhaltungs-Klassifizierung reichen Refusal + Temperature + Output-Validation. Für Marketing-Texte reicht Temperature-Steuerung – Halluzination ist hier oft Feature, nicht Bug. Für Medizin-Software gelten zusätzliche regulatorische Vorgaben (MDR, MepV), das geht über Halluzinations-Reduktion hinaus.

Messen Sie immer. Ein typisches Pre-Production-Test-Set hat 50 bis 200 Fragen mit bekannten korrekten Antworten. Sie lassen das Modell antworten und vergleichen automatisch – wie viele Antworten enthalten erfundene Quellen, wie viele widersprechen den RAG-Treffern, wie viele weichen vom Soll-Output ab? Wenn die Rate über 5% liegt, geht die Pipeline nicht produktiv.

Wann Halluzinations-Toleranz okay ist

Nicht jeder KI-Einsatz braucht den vollen Schutz. Bei Brainstorming, kreativem Schreiben, Headline-Generierung, Code-Skizzen, Ideen-Sortierung ist eine gewisse „Halluzinations-Bereitschaft" Teil des Werts. Wer Marketing-Slogans generiert, will absichtlich Texte, die so nirgendwo stehen. Wer ein Bild-Konzept beschreibt, profitiert von freier Assoziation.

Die Faustregel: Wenn der Output direkt in einen externen Adressaten-Kanal geht (Mandat, Behörde, Patient, Kunde) ohne menschliche Prüfung dazwischen, brauchen Sie die volle Halluzinations-Begrenzung. Wenn der Output als Input für einen Menschen dient, der ihn ohnehin redaktionell bearbeitet, können Sie Mittel sparen.

Gefahr-Bereich: Halluzinations-Mittel wirken nur, wenn sie konsequent durchgesetzt werden. Eine RAG-Pipeline, die die Citation-Prüfung nur „warnt" statt „blockiert", liefert in der Praxis trotzdem erfundene Antworten – Mitarbeitende ignorieren Warnungen routinemässig nach 14 Tagen. Halten Sie die Mittel hart: was den Schema-Check nicht besteht, wird nicht ausgeliefert.

Vor- und Nachteile

STÄRKEN

RAG mit Citation-Required reduziert Halluzinations-Rate in Recht/Treuhand auf unter 10%
Temperature und Refusal-Instruction sind kostenlos und in Stunden umsetzbar
Schema-Validation blockiert eine ganze Klasse von Fehlern (erfundene IBANs, falsche Datums-Formate)
Cross-Check halbiert die Schadens-Fälle bei haftungsrelevanten Workflows
Messbarkeit: Pre-Production-Test-Sets liefern harte Zahlen statt Bauchgefühl

SCHWÄCHEN

Cross-Check verdoppelt die Modell-Kosten – nur für kritische Pipelines sinnvoll
Refusal-Instruction kann das Modell „zu defensiv" machen – sagt „nicht im Material" auch dann, wenn die Antwort eigentlich da war
RAG-Citation-Check braucht Disziplin in der Indexierung – schludrige Chunks führen zu schludrigen Quellen
Vollständige Eliminierung ist Mai 2026 nicht möglich – Restrisiko bleibt
Test-Set-Pflege ist Daueraufgabe – jedes Modell-Update braucht neue Validierung

Häufige Fragen

Halluziniert Claude weniger als GPT?

Nicht generell. Bei gerundeten Summarization-Tasks hatte GPT-4o im Vectara-Leaderboard zeitweise die niedrigere Rate (rund 1.5%), Claude Sonnet lag bei rund 4%, Claude Opus etwas höher. Bei juristischen Spezial-Tasks ist das Bild umgekehrt: Claude Opus zeigt in unseren eigenen Tests bei Schweizer Rechts-Fragen weniger erfundene BGE-Hinweise als GPT-4o-mini. Faustregel Mai 2026: Für Recht und Treuhand Claude Opus mit RAG, für allgemeine Sachverhalte ist das aktuelle GPT-Spitzenmodell oder Claude Sonnet ebenbuertig.

Wie erkenne ich eine Halluzination automatisch?

Drei Techniken kombinieren: (a) Citation-Check – jede Quelle, die das Modell zitiert, gegen die Retrieval-Treffer prüfen; (b) Self-Consistency-Sampling – dasselbe Modell 3 mal mit Temperature 0.7 fragen, Stimmen die Antworten nicht überein, ist Misstrauen angebracht; (c) Confidence-Scoring – moderne Modelle liefern auf Anfrage einen Sicherheits-Wert pro Aussage. Keine Technik ist perfekt; in Kombination fangen Sie 80-90% der Halluzinationen vor Auslieferung.

Was kostet die Cross-Check-Methode?

Sie verdoppeln die Token-Kosten plus brauchen einen dritten, kleineren Modell-Aufruf für den Vergleich (typisch GPT-4o-mini oder Haiku, kostet rund USD 0.50 pro 1M Tokens). Bei einer Pipeline mit 1000 kritischen Anfragen pro Monat zu je 5000 Tokens reden wir von ca. USD 50 zusätzlich pro Monat – Peanuts gegenüber dem Risiko einer falschen Rechts-Auskunft. Wir empfehlen Cross-Check nur für haftungsrelevante Workflows, nicht für Marketing.

Hilft Fine-Tuning gegen Halluzinationen?

Begrenzt. Fine-Tuning auf Domänen-Daten reduziert Halluzinationen in der eigenen Domäne um 20 bis 40%, führt aber in anderen Bereichen oft zu schlechterer Leistung („Catastrophic Forgetting"). RAG plus die fünf Mittel oben sind in den meisten Fällen kosten- und qualitätsgünstiger als Fine-Tuning. Fine-Tuning lohnt sich, wenn Sie eine sehr spezifische Output-Form brauchen, die ein generisches Modell nicht zuverlässig liefert (z.B. ein bestimmtes Rechts-Gutachten-Format).

Quellen

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen