BIAS & FAIRNESS · AI-KONZEPT
Bias- und Fairness-Audits für KI: Schweizer Gleichstellung, EU AI Act Art. 10, BBQ und StereoSet
Wie KMU Bias in LLM-Outputs messen: Schweizer Gleichstellungsrecht, EU AI Act Art. 10, BBQ-Benchmark, StereoSet, CrowS-Pairs und ein Treuhand-Beispiel zu Sprach-Akzent.
Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05
Was sind Bias- und Fairness-Audits?
Bias- und Fairness-Audits prüfen, ob ein KI-System Menschen oder Gruppen systematisch unterschiedlich behandelt – bezogen auf Merkmale wie Geschlecht, Alter, Sprache, Herkunft, sozialer Status. "Bias" ist die statistische Verzerrung im Output, "Fairness" der normative Anspruch, dass diese Verzerrung nicht zu unrechtmässiger Diskriminierung führt.
Die Bias-Quellen in LLM-Pipelines sind vielfältig. Erstens: Trainingsdaten – wenn das Web 2023 männlich-westlich-englischsprachig dominiert war, internalisiert das Modell entsprechende Muster. Zweitens: Prompt-Design – Formulierungen können Erwartungen verstärken ("ein erfolgreicher CEO" wird häufiger als männlich beschrieben). Drittens: Retrieval-Setup in RAG – wenn die indexierten Dokumente überwiegend deutschsprachig sind, werden französischsprachige Mandanten benachteiligt. Viertens: Decision-Threshold – eine Klassifizierungs-Schwelle, die für eine Gruppe gut kalibriert ist, kann für eine andere Fehlklassifizierungen produzieren.
Mai 2026 stehen mehrere etablierte Bias-Benchmarks zur Verfügung. BBQ (Bias Benchmark for QA) von NYU prüft soziale Bias in Frage-Antwort-Settings über neun demographische Kategorien. StereoSet prüf t Stereotyp-Anfälligkeit über Geschlecht, Beruf, Rasse und Religion. CrowS-Pairs (Crowdsourced Stereotype Pairs) misst die Präferenz eines Modells für stereotype gegenüber anti-stereotypen Sätzen.
Für die Schweizer Praxis sind diese Tests Ausgangspunkt, nicht Endpunkt. Schweizer Gleichstellungsrecht (BV Art. 8, Gleichstellungsgesetz) und EU-AI-Act Art. 10 (Datenqualität, "free of biases") setzen den rechtlichen Rahmen. Konkrete Anwendungs-Tests müssen sprach- und kulturraum-spezifisch sein.
Warum es wichtig ist
Schweizer Recht setzt klare Grenzen. BV Art. 8 verbietet Diskriminierung wegen Herkunft, Rasse, Geschlecht, Alter, Sprache, sozialer Stellung, Lebensform, religiöser, weltanschaulicher oder politischer Überzeugung oder körperlicher, geistiger oder psychischer Behinderung. Das Gleichstellungsgesetz (GlG) konkretisiert das für das Arbeitsverhältnis. Bei automatisierten Einzelentscheidungen nach revDSG Art. 21 hat die betroffene Person das Recht auf Begründung – eine algorithmische Diskriminierung muss offenlegbar und korrigierbar sein.
EU AI Act Art. 10 verlangt für Hochrisiko-Systeme, dass Trainings-, Validierungs- und Test-Daten "free of biases" sind, soweit das technisch erreichbar ist. Der Aufsicht muss die Methodik der Bias-Prüfung dargelegt werden können.
Der Treuhand-Anwendungsfall: Mandanten-Routing. Wenn die KI eingehende Mandanten-Anfragen automatisch zu Sachbearbeitern weiterleitet und dabei nach "Sprach-Qualität" sortiert, kann das diskriminierend wirken – ein Mandant mit Tessiner Italienisch-Akzent in Deutschsprachigem Mail wird systematisch zu "kompliziert" eingestuft und an Junior-Mitarbeitende weitergereicht, während zürcher-deutscher Mandant zu Senior-Beratern geht. Das ist sowohl rechtlich problematisch (Art. 8 BV – Sprache) als auch geschäftlich (Mandate werden ungleich behandelt).
Kommerziell ist Fairness ein Vertrauens-Merkmal. Mandanten, Mitarbeitende und Aufsicht erwarten zunehmend dokumentierte Fairness-Tests. Wer das nicht hat, verliert Mandate an Konkurrenten, die es haben.
Wie es funktioniert – Methoden und Benchmarks
BBQ (Bias Benchmark for QA). Parrish et al. 2022 (NYU). Test-Set mit 58.000 Fragen über neun demographische Kategorien (Alter, Behinderung, Geschlechts-Identität, Nationalität, physische Erscheinung, Rasse/Ethnie, religiöse Präferenz, sozialer Status, sexuelle Orientierung). Jede Frage hat zwei Varianten: ambig (Information unzureichend, korrekte Antwort = "weiss nicht") und disambig (Information ausreichend). Bias wird gemessen, wenn das Modell im ambigen Fall stereotype Antworten gibt. Aktuelle Frontier-Modelle erreichen heute sehr niedrige Bias-Scores nahe 0 (dem Ziel), während ältere und offene Modelle deutlich höher liegen.
StereoSet. Nadeem et al. 2021 (Microsoft / Carnegie Mellon). Test mit Multiple-Choice: gegeben ein Kontext-Satz, drei mögliche Vervollständigungen: stereotyp-konform, anti-stereotyp, unzusammenhängend. Misst, ob das Modell stereotyp-konforme oder anti-stereotyp-konforme Vervollständigungen bevorzugt – beides ist Bias-Hinweis. Idealwert: 50/50 zwischen stereotyp und anti-stereotyp (das Modell hat keine systematische Präferenz).
CrowS-Pairs. Nangia et al. 2020. Crowdsourced Stereotype Pairs. 1500 Sätze, jeder als Paar (z.B. "He works as a doctor" / "She works as a doctor") – Bias-Score = Anteil der Modell-Präferenzen für das stereotype Paar. Einfacher als StereoSet, deshalb häufig als Quick-Check eingesetzt.
HELM (Holistic Evaluation of Language Models). Stanford CRFM, fortlaufend aktualisiert. Aggregiert mehrere Bias-Benchmarks (inkl. BBQ) plus Performance-Tests in einem standardisierten Framework. Mai 2026 die Referenz für akademisch-rigorose Bias-Bewertung.
Custom Bias-Tests für den Schweizer Kontext. Generische Benchmarks sind oft englischsprachig. Für DE-CH-Anwendungen bauen wir Custom-Tests, die schweizerische Realitäten abdecken: Behandelt die KI eine "Frau Müller" anders als einen "Herrn Müller"? Werden Anfragen mit französischem Vokabular im deutschsprachigen Mail gleich-qualitativ beantwortet? Klassifiziert die KI Anliegen mit dialektaler Faerbung als "weniger ernst"? Diese Tests baut man als Erweiterung des Golden Datasets – mit 20-50 Fällen pro Achse.
Disparate Impact Analyse. Für Klassifikations-Pipelines: Schwellenwert pro Subgruppe prüfen. Wenn die KI bei einer Gruppe 90% Genauigkeit erreicht und bei einer anderen 70%, ist das Disparate Impact. Bei legitimen Performance-Unterschieden (z.B. weniger Trainings-Daten für eine Sprache) muss das offen ausgewiesen und kompensiert werden – entweder mit zusätzlichem Training oder mit Human-Review-Stütze für die schwächer abgedeckte Gruppe.
Mitigations. Wenn Bias erkannt: (a) Prompt-Tuning ("Behandle alle Anfragen gleich, unabhängig von ..."), (b) Output-Filter mit Bias-Detektor, (c) Modell-Wechsel zu weniger biased Modell, (d) zusätzliche Trainings-Daten für die unter-repräsentierte Gruppe, (e) Human-in-the-Loop-Eskalation bei verdächtigen Fällen.
Bias-Audit in 6 Schritten
- 01Risiko-Achsen identifizieren: bei welchen Merkmalen (Geschlecht, Sprache, Alter, Region) ist Bias wahrscheinlich problematisch?
- 02Standard-Benchmarks ausführen: BBQ, StereoSet, CrowS-Pairs auf dem eingesetzten Modell – Baseline messen.
- 03Custom-Schweizer-Tests bauen: 20-50 Fälle pro Achse, sprach- und kulturraum-spezifisch.
- 04Disparate-Impact-Analyse auf realen Anwendungsdaten: Genauigkeit, Latenz, Quality pro Subgruppe.
- 05Funde priorisieren und mitigieren: Prompt-Tuning, Output-Filter, Modell-Wechsel, Human-Review-Stütze.
- 06Quartalsweise Wiederholung, Aufsichts-Report jährlich oder bei wesentlicher Pipeline-Änderung.
Wann Bias-Audits Pflicht sind
Bei automatisierten Einzelentscheidungen nach revDSG Art. 21 – immer. Wenn die KI über Mandat-Aufnahme, Lead-Bewertung, Kredit-Score oder Personal-Vorauswahl entscheidet, ist Fairness-Prüfung Pflicht.
Bei Anwendungen unter EU-AI-Act Hochrisiko-Liste (Anhang III) – immer. Justiz, HR, Bildung, Kredit, Versicherung, kritische Infrastruktur. EU AI Act Art. 10 ist hier zwingend.
Bei Mandanten-Routing- und Mandanten-Antwort-Pipelines in Treuhand und Anwaltskanzlei – empfehlenswert auch ohne harten regulatorischen Hebel. Reputations-Schaden bei aufgedeckter Diskriminierung ist hoch.
Bei mehrsprachigen Setups (DE/FR/IT/EN) – immer. Sprach-Disparität ist die häufigste Bias-Klasse in Schweizer Anwendungen. Was im Deutschen 92% Genauigkeit erreicht, schafft im Romand-Französisch oft nur 78%.
Bei Modell-Wechseln – Bias-Profil ändert sich. Verschiedene Modelle und Generationen haben unterschiedliche Bias-Muster. Vor Migration testen.
Für rein interne Tools ohne externe Entscheidungs-Wirkung (Brainstorming, Wissens-Lookup) reicht eine jährliche Prüfung.
Wann der Aufwand niedriger ausfällt
Für rein generative Use Cases ohne Entscheidungs-Wirkung (Slogan-Generator, Bild-Konzept-Skizzen, interne Notizen-Vorschläge) ist eine Voll-Bias-Audit-Suite Overkill. Hier reicht ein jährlicher Quick-Check mit CrowS-Pairs auf dem eingesetzten Modell.
Für Pipelines, deren Output ausschliesslich an Menschen mit voller Prüfkompetenz geht (Senior-Anwalt, Senior-Treuhänder) ohne weitergehende Automation: ein einmaliger Initial-Audit, danach jährlich. Der Mensch ist die Fairness-Sicherung.
Vorsicht: Bias-Mitigationen können neue Bias einführen. Eine Prompt-Instruktion "behandle alle Anfragen gleich" kann dazu führen, dass das Modell legitime Differenzierungen (z.B. wegen Rechts-Komplexität) nicht mehr macht und Qualität verliert. Bias-Mitigation muss immer messbar evaluiert werden, nicht nur "draufgeklatscht".
Benchmarks wie BBQ sind nicht voll-übertragbar. Sie sind in englischer Sprache und US-amerikanischer Demographie. Für Schweizer Use Cases sind sie Hinweis, nicht Beweis. Custom-Tests bauen ist Pflicht.
Vor- und Nachteile
STÄRKEN
- Erfüllt BV Art. 8, GlG, revDSG Art. 21 und EU AI Act Art. 10
- Erkennt subtile Diskriminierung, die manuelles Review übersieht
- Quartalsweise Wiederholung dokumentiert kontinuierliche Sorgfalt
- Custom-Schweizer-Tests decken DE-FR-IT-Spezifika ab, die generische Benchmarks ignorieren
- Disparate-Impact-Analyse liefert konkrete Verbesserungs-Hebel
SCHWÄCHEN
- Initial-Audit 5-12 Tage + CHF 7-18k bei mittelgrosser Pipeline
- Generische Benchmarks (BBQ) sind englisch-orientiert und nur teilweise übertragbar
- Fairness-vs-Accuracy-Trade-off: Mitigation kann Qualität leicht senken
- Bias-Profile ändern sich mit jedem Modell-Update – Pflege nötig
- Vollständige Bias-Eliminierung ist unmöglich – Restrisiko bleibt
Häufige Fragen
Was kostet ein vollständiger Bias-Audit?
Initial-Audit für eine mittelgrosse Pipeline: 5-12 Tage Engineer- und Domänen-Experten-Zeit, ca. CHF 7.000-18.000. Laufende Quartals-Re-Audits: 1-2 Tage. Tool-Kosten: BBQ, StereoSet, CrowS-Pairs sind Open Source und kostenfrei. Token-Kosten für einen Vollscan auf einem kommerziellen Modell: USD 50-200 pro Lauf.
Welches Modell ist am wenigsten biased?
Auf dem BBQ-Aggregat erreichen aktuelle Frontier-Modelle (jeweils neuste Generation von OpenAI, Anthropic, Google, Mistral) heute sehr niedrige Bias-Scores nahe 0, mit nur kleinen Abständen untereinander. Ältere und offene Modelle liegen deutlich höher. Konkrete Score-Werte ändern sich mit jeder Modell-Generation – prüfen Sie die aktuelle HELM-/BBQ-Bestenliste vor der Auswahl. Wichtig: BBQ misst englischsprachige Bias-Muster – für Schweizer Use Cases muss ein Custom-Test ergänzen.
Wie prüfe ich Sprach-Akzent-Bias konkret?
Beispiel Mandanten-Routing-Pipeline. Sie nehmen 50 echte Mandanten-Mails und erstellen jeweils zwei Varianten: Standard-Deutsch und mit dialektalen oder fremdsprachlichen Beimischungen (Schweizerdeutsch-Vokabular, französische Anleihen, italienische Phrasen). Identischer Inhalt, nur Sprach-Präsentation unterschiedlich. Sie laufen beide Varianten durch die Pipeline und vergleichen: gleiche Klassifizierung? Gleiche Priorität? Gleiche Sachbearbeiter-Zuteilung? Unterschiede über 5% sind Bias-Verdacht.
Was, wenn die Bias-Mitigation die Qualität senkt?
Klassisches Fairness-vs-Accuracy-Trade-off. Drei Optionen: (a) Akzeptieren des leichten Qualitäts-Drops als Preis für Fairness (Pflicht bei Hochrisiko-Systemen, Art. 10 EU AI Act); (b) zusätzliche Daten für die unter-repräsentierte Gruppe, sodass Fairness und Qualität steigen; (c) hybride Pipeline mit gruppen-spezifischen Schwellen plus transparenter Dokumentation. Eine 1-2% Qualitäts-Senkung gegen Diskriminierungs-Verbot ist juristisch immer geboten.
Verwandte Themen
Quellen
- Parrish et al. – BBQ: A Hand-Built Bias Benchmark for Question Answering · 2022-05
- Nadeem et al. – StereoSet: Measuring stereotypical bias in pretrained language models · 2021-08
- Nangia et al. – CrowS-Pairs: A Challenge Dataset for Measuring Social Biases · 2020-11
- Stanford CRFM – HELM (Holistic Evaluation of Language Models) · 2026-04
- EU AI Act, Article 10 – Data and Data Governance · 2024-07
- EDÖB – Leitfaden zu automatisierten Einzelentscheidungen · 2025-11
PASSEND ZU IHREM STACK?