KI-KPIS · AI-KONZEPT

KI-Qualität messen: KPIs für RAG, Latenz, Kosten und User-Satisfaction

KMU-Dashboard für KI-Qualität: Faithfulness, Answer Relevancy, Context Precision, Context Recall, Latency, Cost-per-Query, User-Satisfaction.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Was sind KI-Qualitäts-KPIs?

KI-Qualitäts-KPIs sind quantitative Kennzahlen, die produktive KI-Pipelines kontinuierlich messen. Sie ersetzen das "Funktioniert die KI noch?" durch konkrete Zahlen wie "Faithfulness liegt bei 0.91, Median-Latency 1.4s, Kosten 0.018 CHF pro Anfrage, Nutzer-Zufriedenheit 4.2 von 5".

Vier Kategorien dominieren Mai 2026 die Dashboards. Erstens: Qualitäts-Metriken (Faithfulness, Answer Relevancy, Hallucination-Rate, Bias-Score). Zweitens: Performance-Metriken (P50/P95-Latenz, Tokens-pro-Sekunde, Erfolgsrate). Drittens: Kosten-Metriken (Cost-per-Query, Monthly-Burn, Cost-per-User). Viertens: Satisfaction-Metriken (User-Rating, Thumb-Up/Down-Rate, Eskalations-Rate zu Menschen).

Für RAG-Pipelines speziell hat sich eine Vier-Metriken-Suite etabliert, die Ragas (das führende RAG-Eval-Framework) standardisiert: Faithfulness (Antwort durch Quelle gedeckt?), Answer Relevancy (Antwort beantwortet die Frage?), Context Precision (sind relevante Chunks im Top-k retrieved?), Context Recall (wurden alle relevanten Chunks gefunden?).

Für KMU-Treuhand und -Anwalts-Setups Mai 2026 empfehlen wir ein Dashboard mit 8-12 KPIs. Mehr überfordert das Management. Weniger lässt zu viel Drift unentdeckt. Die Auswahl hängt vom Use Case ab: ein Belegerfassungs-System hat andere Pflicht-KPIs als ein Mandanten-Antwort-Bot.

Warum es wichtig ist

Ohne KPIs ist KI ein Black Box. Mitarbeitende beschweren sich gelegentlich, dass die Antworten "schlechter geworden" sind, aber niemand kann sagen, ob es Einbildung ist oder ein echter Drift. Mit Dashboard sehen Sie: Faithfulness ist von 0.91 auf 0.84 gefallen seit dem Modell-Update letzte Woche. Das ist Fakt, kein Bauchgefühl.

Für Geschäftsleitung und Verwaltungsrat sind KPIs die Sprache. Ein Quartalsreport mit "Faithfulness 0.91, Latency P95 2.1s, Cost-per-Query 0.014 CHF, NPS 42" ist diskutierbar. "Die KI läuft" ist nicht diskutierbar. Wer KI-Investitionen rechtfertigen muss, braucht KPIs.

Regulatorisch: EU AI Act Art. 17 verlangt Post-Market-Monitoring mit dokumentierten Metriken. revDSG Art. 24 verlangt bei Datenpannen Berichtspflicht – KPI-Dashboards mit Anomalie-Alarm sind die technische Grundlage. FINMA Operational-Resilience-Rundschreiben verlangt für kritische Anwendungen kontinuierliche Performance-Messung.

Kommerziell: Mandanten und Auftraggeber fragen zunehmend nach KPI-Reports zu KI-Tools. Eine Schweizer Treuhand-Kammer hat 2025 in ihrem Berufsstandard "AI-Quality-KPI-Dokumentation" als erwartete Praxis aufgenommen. Wer das nicht hat, verliert Mandate an Wettbewerber, die es haben.

Intern liefern KPIs die Diskussionsbasis für Optimierung. Statt zu raten, ob ein Prompt-Tweak oder ein Modell-Wechsel besser ist, sehen Sie die KPI-Bewegung nach 7 Tagen Beobachtung. Das macht KI-Engineering datengetrieben statt meinungsgetrieben.

Wie es funktioniert – Pflicht-KPIs Mai 2026

Faithfulness (RAG-Pflicht). Misst, ob jede Aussage in der Antwort durch die mitgegebenen Quellen gedeckt ist. Berechnung via Ragas oder DeepEval: LLM-Judge zerlegt die Antwort in atomare Aussagen, prüft jede gegen die Retrieval-Chunks. Score zwischen 0 und 1. Treuhand-Ziel: > 0.90.

Answer Relevancy. Misst, wie gut die Antwort die gestellte Frage adressiert. LLM-Judge generiert aus der Antwort hypothetische Fragen und vergleicht mit der echten Frage (Embedding-Ähnlichkeit). Score 0 bis 1. Ziel: > 0.85.

Context Precision. Prüf t, welcher Anteil der Top-k-Chunks tatsächlich relevant für die Frage war. Hoher Score = wenig "Lärm" im Retrieval. Ziel: > 0.75.

Context Recall. Prüf t, ob die wirklich nötigen Chunks unter Top-k waren – verglichen gegen das Golden Dataset, das die richtige Antwort plus Quell-Chunks enthält. Ziel: > 0.85.

Hallucination Rate. Anteil der Antworten mit mindestens einer erfundenen Aussage. Gemessen via FActScore oder via Citation-Grounding-Check. Treuhand-Ziel: < 3%. Marketing-Toleranz: < 10%.

Latency P50 und P95. Median und 95-Percentile Antwortzeit. P50 zeigt das typische Erlebnis, P95 zeigt den "schlechten Tag". Treuhand-Ziel: P50 < 2s, P95 < 6s. Bei Mandanten-Chat-Bots strenger: P50 < 1s, P95 < 3s.

Cost-per-Query. Token-Kosten pro Anfrage, inklusive Retrieval-Embedding plus LLM-Call plus Judge-Modell. Mai 2026 typischer Wert bei RAG-Pipeline: USD 0.005-0.030. Tracking via OpenLLMetry oder eigene Telemetrie.

Throughput. Anfragen pro Sekunde, Stunde oder Tag – wichtig für Capacity-Planning. Bei grösseren Treuhand-Setups: 100-500 Anfragen pro Tag normal, 5000+ bei automatisierter Belegerfassung.

User Satisfaction (Thumbs-Up/Down). Die einfachste UX-Metrik: Thumbs-Down-Rate. Akzeptable Marke: unter 8%. Über 15% ist Alarm-Signal.

Escalation Rate. Anteil der Anfragen, die zur menschlichen Bearbeitung eskaliert werden mussten (KI-Refusal, Confidence-Score zu niedrig, User-Wunsch). Hohe Rate = KI-Pipeline nicht ausreichend; niedrige Rate (< 5%) bei kritischen Use-Cases verdächtig (KI antwortet, wo sie eskalieren sollte).

Drift-Indikator. Mittelwert der Qualitäts-Metriken über 7-Tages-Fenster vs 30-Tages-Fenster. Mehr als -3% Abfall = Drift-Alarm an Engineering.

Tooling Mai 2026. Ragas für RAG-spezifische Metriken. DeepEval für allgemeine. Arize Phoenix oder TruLens für Live-Dashboards. Grafana mit Prometheus für eigene Telemetrie. Treuhand-KMU mit < 5000 Anfragen/Tag fahren gut mit Grafana plus wöchentlichen Ragas-Reports.

KPI-Dashboard in 6 Schritten aufbauen

01Use-Case-spezifische KPIs auswählen: 8-12 Metriken, davon mindestens 3 Qualität, 2 Performance, 1 Kosten, 2 User-Satisfaction.
02Ziel-Schwellen definieren: Faithfulness > 0.90, P95-Latency < 6s, Hallucination-Rate < 3%, Thumbs-Down < 8%.
03Telemetrie instrumentieren: OpenLLMetry oder eigene Wrapper um LLM-Aufrufe – sammelt Latency, Tokens, Cost, Output.
04Eval-Pipeline einrichten: Ragas/DeepEval läuft täglich gegen Golden Dataset, schreibt Resultate in DB.
05Dashboard aufbauen: Grafana (KMU) oder Phoenix/TruLens (grösser) – alle KPIs visualisiert, Drill-Down per Anfrage möglich.
06Alerting wirde: Slack/Teams-Webhook bei Drift > 3%, P95-Latency > Ziel, Hallucination-Spike > 5%.

Wann KPI-Dashboard Pflicht ist

Bei jeder produktiv eingesetzten KI-Pipeline mit externen Adressaten (Mandant, Behörde, Kunden) ist KPI-Tracking Pflicht. Konkret:

Belegerfassungs-Pipelines: Faithfulness, Field-Accuracy, Cost-per-Beleg, Throughput pro Tag.

Mandanten-Antwort-Bots: Answer Relevancy, Hallucination Rate, User-Satisfaction (Thumbs), Escalation Rate, Latency.

RAG-Wissens-Suche: alle vier Ragas-Metriken plus User-Satisfaction.

Klassifikations-Pipelines (Mahnstufe, Lead-Score): Accuracy pro Klasse, Disparate-Impact pro Subgruppe, Confidence-Distribution.

Für EU-AI-Act-Hochrisiko-Systeme: KPI-Reporting in nutzbarer Form gegenüber Aufsicht.

Für FINMA-relevante Anwendungen: kontinuierliches Performance-Monitoring nach Rundschreiben 2024/4.

Mindest-Setup für KMU-Treuhand: Grafana + Prometheus + wöchentliche Ragas-Reports + Slack/Teams-Alerts bei Anomalien. Aufwand: 5-10 Tage Initial, danach 0.5 Tage pro Woche Pflege.

Grosse Setups (Anwaltskanzleien, über 50 Mitarbeiter, mehrere parallele Pipelines): Arize Phoenix oder TruLens Hosted. Kosten USD 500-2000/Monat, dafür rund-um-die-Uhr-Dashboard plus Alarmierung.

Wann minimaler Aufwand reicht

Bei Pilot-Projekten unter 4 Wochen ist ein voll-Dashboard Overhead. Ein simples CSV-File mit "Datum, Anfragen, Fails, Avg Latency" und wöchentliches Slack-Update reicht.

Bei rein internen Tools mit weniger als 50 Anfragen/Woche (z.B. internes Wissens-Lookup, das nur Senior-Mitarbeitende nutzen) ist tagliches Tracking übertrieben. Monatlicher Stichproben-Report durch Engineer reicht.

Für Brainstorming-Tools, Slogan-Generatoren oder andere "Inspiration"-Use-Cases sind die meisten KPIs irrelevant. Hier zählt User-Satisfaction und Throughput, nicht Faithfulness.

Falle: "wir bauen das Dashboard später". Das passiert nicht. Wer ohne KPI-Tracking live geht, fliegt blind. Bauen Sie zumindest die Basis-Metriken (Throughput, Latency, Error-Rate) vor Production ein.

Noch eine Falle: zu viele KPIs. Ein Dashboard mit 30 Metriken wird nicht gelesen. 8-12 fokussierte KPIs sind effektiver als 30 "comprehensive" ones. Reduzieren Sie monatlich, was niemand anschaut.

Kostenpunkt: ein Vollstack-Dashboard (Phoenix/TruLens/eigenes Grafana) kostet 5-10 Tage Initial-Aufwand plus 0.5-1 Tag/Woche Pflege. Bei sehr kleinen Pipelines (< 50 Anfragen/Tag) lohnt das nicht – dort tut ein zentrales Log-File und ein quartalsweiser Reviewer-Lauf seinen Dienst.

Vor- und Nachteile

STÄRKEN

Macht KI-Qualität messbar – Diskussion auf Faktenbasis statt Meinung
Erfüllt EU-AI-Act Art. 17 (Post-Market-Monitoring) technisch
Anomalie-Alarme verkürzen Detection-Zeit von Wochen auf Stunden
Cost-per-Query-Tracking zeigt versteckte Kosten-Bombe (zu grosse Prompts, falsche Modell-Wahl)
Trend-Daten über Zeit liefern Verbesserungs-Hebel – datengetriebenes Engineering

SCHWÄCHEN

Initial-Aufwand 5-10 Tage plus laufend 0.5-1 Tag/Woche Pflege
Hosted-Plattformen kosten USD 500-2500/Monat – für Kleinständer oft übertrieben
Eval-Pipelines verursachen 5-15% zusätzliche Token-Kosten
Zu viele KPIs erzeugen Dashboard-Erschöpfung – 8-12 fokussierte sind besser
False-Positive-Alerts (z.B. nach Modell-Pre-Heat) müssen kalibriert werden

Häufige Fragen

Wie messe ich User-Satisfaction realistisch?

Drei Mechanismen kombinieren. Erstens: Thumbs-Up/Down nach jeder Antwort (Response-Rate typisch 5-15%, fokussiert auf negative Ausreisser). Zweitens: quartalsweise NPS-Umfrage bei aktiven Nutzern. Drittens: Escalation-Rate (Wenn Nutzer häufig "doch lieber Mensch fragen" drücken, ist die KI nicht gut genug). Aggregiert ergibt das ein zuverlässiges User-Bild.

Was kostet ein KPI-Dashboard laufend?

Open-Source-Stack (Grafana + Prometheus + Ragas) selbst gehostet: nur Server-Kosten ca. CHF 50-100/Monat plus 0.5-1 Tag/Woche Engineer-Zeit für Pflege. Hosted (Phoenix Pro, TruLens Snowflake, Arize Cloud): USD 500-2500/Monat je nach Volumen. Eval-Token-Kosten: ca. 5-15% der Production-Token-Kosten, weil Judges zusätzliche Aufrufe verursachen.

Wie reagiere ich auf einen KPI-Alert?

Drei Stufen. Stufe 1 (kleine Abweichung): in Engineering-Standup behandeln, Ursache lokalisieren (Modell-Update? Daten-Drift? Bug?). Stufe 2 (grössere Abweichung, > 5%): innerhalb 24h Fix oder Rollback. Stufe 3 (kritisch, z.B. Hallucination-Rate > 10% oder Daten-Leak-Signal): Pipeline temporaer offline + Incident-Response + ggf. revDSG-Meldung prüfen. Eskalations-Playbook mit allen Stufen ist Pflicht-Dokumentation.

Welche KPIs sind für Geschäftsleitung relevant?

Vier reichen: (1) User-Satisfaction (gestiegen oder gesunken?), (2) Cost-per-Query mal Throughput = monatliche AI-Kosten, (3) Escalation-Rate (wieviele Anfragen brauchen weiterhin Menschen?), (4) Drift-Status (läuft die KI stabil oder gibt es Probleme?). Engineering-Detail-KPIs (Faithfulness, P95-Latency) gehören ins Engineering-Dashboard, nicht ins Management-Cockpit.

Quellen

Ragas – RAG evaluation framework (faithfulness, answer relevancy, context precision/recall) · 2026-05
Arize Phoenix – LLM observability and KPI dashboards · 2026-05
TruLens – production tracing and evaluation · 2026-04
OpenLLMetry – OpenTelemetry-compatible LLM telemetry · 2026-03
EU AI Act, Article 17 – Post-Market Monitoring · 2024-07

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen