HALLUZINATIONS-MESSUNG · AI-KONZEPT

Halluzinationen erkennen und messen: Metriken, Benchmarks und Self-Consistency

Wie Sie Halluzinationen in KI-Antworten reproduzierbar messen: TruthfulQA, HaluEval, FActScore, Selbstkonsistenz und Citation-Grounding-Checks.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Was ist Halluzinations-Messung?

Halluzinations-Messung ist die quantitative Auswertung, wie oft ein Sprachmodell sachlich falsche, erfundene oder kontextwidrige Aussagen produziert. Das Ziel ist nicht, ob eine einzelne Antwort stimmt, sondern die Rate: Wie viele Antworten unter 1000 enthalten mindestens einen erfundenen Fakt, eine falsche Quellenangabe oder einen Widerspruch zum mitgegebenen Kontext?

Die Forschung unterscheidet drei Kategorien. Intrinsische Halluzinationen widersprechen der mitgegebenen Quelle (das Modell sagt B, obwohl im RAG-Chunk A steht). Extrinsische Halluzinationen sind erfundene Aussagen ohne Quellenbezug (eine BGE-Nummer, die es nicht gibt). Faithfulness-Verstösse betreffen die Treue zur Quelle bei Zusammenfassungen.

Mai 2026 stehen mehrere etablierte Messverfahren zur Verfügung. TruthfulQA prüft, ob ein Modell verbreiteten Fehlinformationen widerstehen kann. HaluEval ist ein Datensatz mit 35.000 generierten Halluzinations-Beispielen aus Dialog, Wissensfragen und Zusammenfassungen. FActScore zerlegt eine Antwort in atomare Fakten und prüft jeden gegen Wikipedia oder eine andere Wissensbasis. Selbstkonsistenz misst die Variation, wenn dasselbe Modell mehrfach mit Temperature über 0 antwortet. Citation-Grounding-Checks prüfen, ob jeder zitierte Beleg im Retrieval-Resultat tatsächlich existierte.

Warum es wichtig ist

Ohne Messung gibt es kein Management. Wer eine KI in der Treuhand, Anwaltskanzlei oder Versicherung einsetzt, trägt Verantwortung für die Output-Qualität. Bauchgefühl reicht nicht: Ein Modell-Update von dem aktuellen Claude-Modell auf 4.7 kann die Halluzinations-Rate in einem juristischen Spezial-Tasks von 8% auf 14% erhöhen, ohne dass es in alltäglichen Beispielen auffällt.

Die EU AI Act, die seit August 2026 vollständig anwendbar ist, verlangt für Hochrisiko-Anwendungen dokumentierte Evaluations-Verfahren. Art. 9 fordert ein Risikomanagement-System, Art. 15 verlangt nachweisbare Genauigkeit. Ohne Messmethodik können Sie diese Pflichten nicht erfüllen.

Kommerziell wirkt der Effekt direkt. Mandanten, die zweimal auf eine erfundene Quelle hereingefallen sind, kündigen das Mandat. Eine Kanzlei in Zürich hat 2025 ein Mandat im sechsstelligen Bereich verloren, weil ein junger Anwalt eine KI-Antwort mit erfundenem BGE-Hinweis ungeprüft an einen Geschäftskunden weiterleitete. Halluzinations-Messung ist die Versicherung gegen solche Vorfälle.

Intern liefert die Messung den entscheidenden Hebel für kontinuierliche Verbesserung. Statt zu raten, welcher Prompt-Tweak hilft, sehen Sie an der Halluzinations-Rate die Wirkung jeder Änderung. Das ist Engineering-Praxis statt Magie.

Wie es funktioniert

Eine vollständige Halluzinations-Messung kombiniert mehrere Methoden, da keine einzelne alle Halluzinations-Typen erkennt.

TruthfulQA-Score. Das von Lin et al. 2022 publizierte Benchmark enthält 817 Fragen zu verbreiteten Fehlinformationen (z.B. medizinische Mythen, urbane Legenden). Eine korrekte Antwort widersteht der intuitiv-falschen Antwort. Das aktuelle GPT-Spitzenmodell erreicht im Mai 2026 rund 75% Truthful + Informative, Claude Opus rund 71%, Mistral Large 2.1 rund 63%. Anwendung in der Praxis: Sie testen Ihr eingesetztes Modell vor Produktion, ob es bei kniffligen Fakten die korrekte Antwort gibt.

HaluEval. Tencent veröffentlichte 2023 ein Datensatz mit 5000 echten Beispielen plus 30.000 generierten Halluzinations-Antworten in den Domänen QA, Dialog und Zusammenfassung. Sie messen, wie oft Ihr Modell eine Halluzination als solche erkennt (Detektions-Genauigkeit) und wie oft es selbst halluziniert (Generations-Rate).

FActScore. Min et al. 2023 entwickelten ein Verfahren, das jede generierte Antwort in atomare Behauptungen zerlegt ("Albert Einstein wurde 1879 geboren", "Er erhielt 1921 den Nobelpreis") und jede gegen eine Wissensquelle prüft. Der FActScore ist der Anteil korrekter Atome. Mai 2026 erreichen die besten Modelle auf biografischen Texten rund 87%, mittlere Modelle 70%, einfache Modelle unter 60%.

Selbstkonsistenz (Multiple Sampling + Vote). Sie fragen dasselbe Modell drei- bis fünfmal mit Temperature 0.7 dieselbe Frage. Stimmen die Antworten in den Kernaussagen überein, ist Vertrauen berechtigt. Weichen sie ab, liegt vermutlich eine Halluzination vor. Wang et al. 2022 zeigten, dass diese Technik die Accuracy auf Reasoning-Benchmarks um 10-20 Prozentpunkte verbessert.

Citation-Grounding-Check. Speziell für RAG-Setups: Eine Post-Processing-Schicht prüft, ob jede vom Modell genannte Quelle (z.B. "[Steuergesetz Art. 13]") tatsächlich im Retrieval-Treffer war und ob die zitierte Aussage in diesem Chunk steht. Anthropic hat im April 2026 für Claude eine native `with_citations`-Option eingeführt, die diese Prüfung automatisch durchführt.

Halluzinations-Messung in 6 Schritten

01Domänen-spezifisches Test-Set bauen: 100-300 Fragen mit verifizierten korrekten Antworten und Quellen.
02Metrik-Set definieren: FActScore für atomare Fakten, Citation-Grounding für Quellen, TruthfulQA-Subset für Allgemein-Wissen.
03Selbstkonsistenz-Pipeline aufsetzen: dasselbe Modell 3 mal bei Temperature 0.7, automatischer Aussagen-Vergleich.
04Baseline mit aktuellem Modell messen und dokumentieren – das ist die Vergleichs-Schwelle.
05CI-Trigger für Regression: Bei jedem Prompt-Change oder Modell-Update Vollmessung durchführen, Abweichungen > 2% alarmieren.
06Quartalsweise Audit: Vollmessung, Report für Geschäftsleitung und Compliance, neue Real-World-Fälle integrieren.

Wann messen

Sie messen Halluzinationen in drei Situationen verpflichtend. Erstens: vor jedem Produktiv-Deployment. Ein Modell, dessen Halluzinations-Rate über Ihrer definierten Schwelle (typisch 3% für Recht/Treuhand, 8% für Marketing) liegt, geht nicht live.

Zweitens: nach jedem Modell-Update. Wechsel von dem aktuellen Claude-Modell auf 4.7, Wechsel von dem aktuellen GPT-Spitzenmodell auf 5.2, Wechsel des Embedding-Modells, Wechsel der Retrieval-Strategie – jede dieser Änderungen kann die Rate verschlechtern. Ohne Vorher-Nachher-Messung fliegen Sie blind.

Drittens: bei Verdachts-Fällen aus der Praxis. Wenn ein Mitarbeitender eine falsche Antwort meldet, fügen Sie diesen Fall ins Regression-Test-Set ein. So wächst Ihr Test-Set über die Zeit zu einem hochwertigen, projektspezifischen Benchmark.

Für Treuhand- und Anwaltskanzleien empfehlen wir eine quartalsweise Vollmessung: Sie laufen 200-500 Test-Fragen durch alle eingesetzten Pipelines und dokumentieren das Ergebnis. Das ist Ihre Compliance-Dokumentation gegenüber Mandanten, Aufsicht und Versicherung.

Wann der Aufwand nicht lohnt

Wenn KI-Outputs ausschliesslich als Inspiration für menschliche Endredaktion dienen – Brainstorming, Slogan-Generierung, Bild-Skizzen – ist eine systematische Halluzinations-Messung Overkill. Hier reicht eine qualitative Stichprobe quartalsweise.

Ebenso bei rein internen Tools mit geringem Risiko: ein internes Wissens-Lookup, das Mitarbeitende immer ohnehin gegen die Originalquelle prüfen, braucht keine FActScore-Pipeline. Das Risiko-Profil rechtfertigt die Messkosten nicht.

Vorsicht jedoch beim Selbstbetrug. Viele Firmen behaupten, ihre Mitarbeitenden würden "ohnehin prüfen", obwohl die Praxis nach 14 Tagen zeigt, dass das nicht passiert. Wenn Ihre KI-Outputs in einen Mandanten- oder Behörden-Kanal gehen, gelten sie als "extern" – Messung ist Pflicht, egal welche Prüf-Schritte dazwischen stehen sollen.

Auch nicht jeder Halluzinations-Test ist sinnvoll. TruthfulQA ist nicht auf Schweizer Steuerrecht trainiert. FActScore gegen Wikipedia bringt nichts, wenn Ihre Wissensbasis das interne Mandantenarchiv ist. Sie brauchen Tests, die auf Ihren tatsächlichen Anwendungsfall passen – generische Benchmarks alleine geben falsches Vertrauen.

Vor- und Nachteile

STÄRKEN

Reproduzierbare Zahlen statt Bauchgefühl bei Modell-Auswahl und Pipeline-Entscheidungen
Erfüllt EU-AI-Act Art. 9 und Art. 15 Anforderungen an dokumentierte Genauigkeit
Regression-Schutz: jede Modell- und Prompt-Änderung wird automatisch gegen Baseline geprüft
Compliance-Dokumentation gegenüber Mandanten, Aufsicht und Berufshaftpflicht
Konkreter Hebel für Verbesserung – Sie sehen, welche Prompt-Änderung welche Wirkung hat

SCHWÄCHEN

Test-Set-Aufbau ist zeitintensiv und braucht echte Fach-Experten, keine Praktikanten
Generische Benchmarks (TruthfulQA, HaluEval) bilden Domänen-Spezifika oft nicht ab
Judge-Modelle (FActScore) kosten zusätzliche Token-Gebühren bei jedem Durchlauf
Selbstkonsistenz erkennt nicht systematische Halluzinationen, bei denen das Modell konsistent falsch liegt
Pflege-Aufwand: jede Modell-Generation braucht Re-Validierung des Test-Sets

Häufige Fragen

Wie gross sollte mein Test-Set sein?

Statistisch belastbare Aussagen brauchen mindestens 100 Beispiele pro Anwendungsfall. Für Treuhand-Buchhaltung sind 200 Beispiele realistisch (Belege erfassen, MWST zuordnen, Mahnungen klassifizieren). Für eine Anwaltskanzlei 300-500 mit Schwerpunkt auf den häufigsten Rechtsgebieten. Wer mit 20 Beispielen misst, bekommt Bauchgefühl, keine Statistik.

Wer baut das Test-Set?

Die Fach-Experten – nicht die IT. Ein Senior-Treuhänder schreibt die Buchhaltungs-Fragen mit der korrekten Antwort und Quelle. Ein erfahrener Jurist die Rechts-Fragen. KI-Engineers helfen beim Formatieren (JSON-Schema, Spalten für erwartete Quelle), aber inhaltlich sind die Domänen-Experten verantwortlich. Sonst messen Sie, wie gut die KI die KI imitiert.

Was kostet eine Halluzinations-Messung?

Eine Vollmessung mit 300 Test-Fragen, FActScore-Atomzerlegung (durch ein gross-Modell wie das aktuelle GPT-Spitzenmodell), Citation-Check und Selbstkonsistenz kostet bei aktuellen Preisen Mai 2026 zwischen USD 5 und USD 40 pro Durchlauf. Hauptkostenpunkt sind die mehrfachen Modell-Aufrufe für Selbstkonsistenz und der Judge-Modell-Aufruf für FActScore. Initiales Test-Set bauen: 1-3 Personentage pro 100 Beispiele.

Sind Vendor-Halluzinations-Benchmarks vertrauenswürdig?

Mit Vorsicht zu geniessen. Vectara führt ein öffentliches Hallucination Leaderboard mit transparenter Methodik – das ist serioes. Andere Vendor-Berichte ("unser Modell halluziniert 40% weniger") nutzen oft enge, vorteilhafte Benchmarks. Vertrauen Sie nur Messungen, die Methodik, Datensatz und Skript offenlegen. Für Ihre Pipeline zählt ohnehin nur die Messung auf Ihrem eigenen Anwendungsfall.

Quellen

Vectara – Hallucination Leaderboard (grounded summarisation benchmark) · 2026-05
Lin et al. – TruthfulQA: Measuring How Models Mimic Human Falsehoods · 2022-05
Min et al. – FActScore: Fine-grained Atomic Evaluation of Factual Precision · 2023-10
Anthropic – Claude with_citations API documentation · 2026-04
Tencent – HaluEval Benchmark Dataset · 2026-02

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen