EVAL-FRAMEWORKS · AI-KONZEPT

Eval-Frameworks für LLMs: DeepEval, OpenAI Evals, Promptfoo, Ragas, TruLens im Vergleich

Welches LLM-Evaluation-Framework wann: DeepEval, OpenAI Evals, Promptfoo, Inspect (UK AISI), Ragas, TruLens, MLflow LLM Evaluate und Phoenix Evals.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Was sind Eval-Frameworks?

Eval-Frameworks sind Software-Bibliotheken, die das systematische Testen von Sprachmodellen und LLM-Anwendungen automatisieren. Sie ersetzen das manuelle "Ich frage mal und schau, was rauskommt" durch reproduzierbare Test-Pipelines mit definierten Metriken, Test-Daten, Erwartungswerten und Pass/Fail-Schwellen.

Ein Eval-Framework liefert typischerweise vier Bausteine. Erstens: ein Datenmodell für Test-Fälle (Input, erwartete Eigenschaften, optional Referenz-Antwort). Zweitens: ein Metrik-Modul (Exact Match, BLEU, ROUGE, semantische Ähnlichkeit, LLM-as-a-Judge-Bewertungen). Drittens: ein Runner, der Tests parallelisiert gegen ein oder mehrere Modelle laufen lässt. Viertens: Reporting (HTML-Reports, CI-Integration, Tracking über Zeit).

Mai 2026 hat sich der Markt deutlich konsolidiert. Open-Source-Frameworks decken inzwischen Standard-Anwendungsfälle ab. Vendor-Tools wie Phoenix oder TruLens bieten Hosting-Optionen mit Dashboards. Forschungs-orientierte Tools wie Inspect (UK AI Safety Institute) konzentrieren sich auf Safety-Evaluation und Red-Teaming. Spezialisierte Frameworks wie Ragas fokussieren auf eine Domäne – hier RAG-Pipelines.

Warum es wichtig ist

Ohne Framework laufen Tests entweder gar nicht oder als hand-geschriebene Skripte, die niemand pflegt. Beides ist gefährlich. Wer ein LLM produktiv einsetzt, braucht regelmässige, reproduzierbare Tests, sonst weiss er nicht, wann eine Änderung die Qualität kaputt gemacht hat.

Die wirtschaftliche Argumentation ist klar. Eine Treuhand mit zehn Mitarbeitenden, die KI-Klassifizierung für Belege einsetzt, spart pro Jahr rund CHF 30.000 an Erfassungs-Zeit – aber nur, wenn die KI verlässlich ist. Ein einzelner stiller Performance-Drop um 5% bei einem Modell-Update kann zehn Stunden Nacharbeit pro Monat verursachen. Ein Eval-Framework, das nach jedem Update den Drift erkennt, amortisiert sich in der ersten erkannten Regression.

Compliance-relevant: Die EU AI Act verlangt für Hochrisiko-Systeme dokumentierte Performance-Messung. Wer ein Framework nutzt, kann den Compliance-Report per Knopfdruck generieren statt aus E-Mails zusammenpuzzeln.

Frameworks bauen überdies organisatorisches Wissen. Statt dass jeder Entwickler eigene ad-hoc-Tests schreibt, sind Test-Fälle und Metriken zentral, versioniert und nachvollziehbar. Personalwechsel werden weniger schmerzhaft.

Wie es funktioniert – die wichtigsten Frameworks Mai 2026

DeepEval (Confident AI). Open-Source-Bibliothek mit pytest-ähnlicher API. Definiert Test-Fälle in Python, Metriken decken Faithfulness, Answer Relevancy, Hallucination, Bias, Toxicity. Sehr stark in CI/CD-Integration und mit eigener Web-UI (Confident AI Cloud). Mai 2026 über 5000 GitHub-Sterne, breit eingesetzt.

OpenAI Evals. Das original-Framework von OpenAI, öffentlich seit 2023. YAML-basierte Eval-Definitionen, gut für GPT-Modelle, aber Modell-agnostisch nutzbar. Schwächere Reporting-UI, dafür einfach zu hosten. Ideal, wenn Sie ohnehin in OpenAI-Stack arbeiten.

Promptfoo. TypeScript/JavaScript-natives Framework. CLI-orientiert, YAML-Konfiguration, sehr schnelle Iteration. Mai 2026 hat Promptfoo eine starke Red-Team-Erweiterung – automatisches Generieren von adversarialen Prompts gegen Ihren Bot. Sehr beliebt im Front-End/Node-Stack.

Inspect (UK AISI). 2024 vom UK AI Safety Institute veröffentlicht. Wissenschaftlich orientiert, stark in Safety-Evals (CBRN, Persuasion, Self-Reasoning). Eher für Forschungs-/Audit-Kontexte als für Produkt-Engineering. Wird Mai 2026 von einigen EU-Aufsichtsbehörden als Referenz-Tool genannt.

Ragas. Spezialisiert auf RAG-Pipelines. Metriken: Faithfulness, Answer Relevancy, Context Precision, Context Recall, Context Utilization. Mai 2026 ist Ragas der De-Facto-Standard für RAG-Evaluation – wir setzen es in fast jedem Fairlane-Projekt ein.

TruLens. Von Truera (jetzt Snowflake), Fokus auf Production-Tracing plus Evaluation. Misst Antwort-Qualität im laufenden Betrieb, nicht nur offline. Gut für Teams, die LangChain oder LlamaIndex einsetzen.

MLflow LLM Evaluate. Erweiterung des klassischen MLflow um LLM-spezifische Metriken. Stark in Enterprise-Setups mit existierender MLflow-Infrastruktur (Databricks, Azure ML). Eher schwergewichtig für Standalone-Projekte.

Phoenix Evals (Arize). Web-basiertes Tracing + Evaluation. Sehr gute Visualisierung von Token-Level-Latenz und Per-Call-Kosten. Open-Source mit gehosteter Premium-Variante. Mai 2026 starke Integration mit OpenInference / OpenTelemetry-Standard.

Eval-Framework einführen in 6 Schritten

01Use-Case und Metriken-Bedarf klären: RAG → Faithfulness/Context; Klassifikation → Accuracy/F1; Chat → Helpfulness/Toxicity.
02Framework-Auswahl nach Stack: Python = DeepEval+Ragas, TS/JS = Promptfoo, Enterprise MLflow = MLflow LLM Evaluate.
03Test-Set anlegen: 50-200 Fälle aus echten Anfragen, von Fach-Experten annotiert.
04Pipeline-Code instrumentieren: Framework-Hooks an die LLM-Aufrufe hängen, Tracing aktivieren.
05CI-Integration: Bei jedem Commit/PR Eval-Lauf, Pass/Fail-Schwelle in pipeline.yml definieren.
06Quartalsweise Review: Test-Set erweitern, Schwellen anpassen, neue Real-World-Fälle einarbeiten.

Welches Framework wann

Die Wahl hängt von Stack, Use-Case und Team-Grösse ab.

Für Python-zentrische Treuhand/Anwalts-Projekte mit RAG empfehlen wir die Kombination DeepEval + Ragas. DeepEval für allgemeine Metriken (Hallucination, Bias), Ragas für die RAG-spezifischen (Faithfulness, Context Precision).

Für Node/TypeScript-Stacks (z.B. unsere Frontend-Projekte) Promptfoo. Schneller Setup, gute CLI, ausreichend Metriken.

Für LangChain- oder LlamaIndex-Pipelines TruLens oder Phoenix. Beide integrieren sich nativ und liefern Tracing-Daten, die der Code-Author nicht selbst instrumentieren muss.

Für Audit- und Compliance-Use-Cases mit Aufsichts-Bezug Inspect. Die Verbindung zum UK AISI gibt dem Framework Glaubwürdigkeit gegenüber Aufsicht und Versicherung.

Für Enterprise-Setups mit existierendem MLflow MLflow LLM Evaluate – keine zweite Stack-Säule nötig.

Für reines Red-Teaming Promptfoo + Garak + PyRIT. Eval-Frameworks wie DeepEval haben zwar Bias-Metriken, sind aber nicht primär für Jailbreak-Erkennung gebaut.

Wann eher kein Framework

Für Pilot-Projekte unter zwei Wochen Laufzeit oder unter 100 Testfällen ist ein Framework Overhead. Ein einfaches Python-Skript mit pytest und einer JSON-Datei reicht – wenn das Skript versioniert ist und in der CI läuft. Erst wenn das Test-Set über 100 Fälle wächst oder mehrere Entwickler dran arbeiten, überwiegt der Framework-Nutzen.

Frameworks sind keine Wunderwaffe gegen falsche Tests. Wenn die Test-Fälle selber schlecht sind (zu wenige, zu einseitig, ohne Edge-Cases), liefert auch das beste Framework falsches Vertrauen. Investieren Sie zuerst in das Golden Dataset, dann in die Framework-Wahl.

Gehostete Premium-Plattformen wie Confident AI Cloud, Arize, oder Snowflake-TruLens kosten Mai 2026 zwischen USD 200 und USD 2000 pro Monat für kleine Teams. Bei Treuhand-KMU mit zwei Pipelines lohnen sich solche Plattformen meist nicht – die Open-Source-Version reicht. Erst ab fünfstelligem Test-Volumen pro Monat machen die Dashboards Sinn.

Vor- und Nachteile

STÄRKEN

Reproduzierbare Tests in CI/CD – keine "Es ging gestern noch"-Diskussionen mehr
Standard-Metriken eingebaut: Faithfulness, Relevancy, Bias, Toxicity ohne eigenen Code
Reports automatisch generierbar für Compliance, Mandanten und Geschäftsleitung
Aktive Open-Source-Communities mit regelmässigen Updates und neuen Metriken
Modell-agnostisch: gleiche Tests gegen OpenAI, Anthropic, Mistral, lokale Modelle

SCHWÄCHEN

Framework-Wahl bindet – Migration zu anderem Framework später kostet 5-10 Tage
LLM-as-a-Judge-Metriken erzeugen zusätzliche Token-Kosten bei jedem Lauf
Generische Metriken decken Domänen-Spezifika (Schweizer Steuerrecht) nicht ab – Custom-Metriken nötig
Hosted-Plattformen kosten ab USD 200/Monat – nur für grössere Teams sinnvoll
Open-Source-Frameworks haben unterschiedliche Reife: DeepEval/Ragas stabil, Inspect noch in Bewegung

Häufige Fragen

Welches Framework hat die meisten Metriken out-of-the-box?

DeepEval Mai 2026 mit über 30 eingebauten Metriken, gefolgt von Promptfoo mit rund 25. Ragas hat weniger (rund 8), aber spezialisiert auf RAG. Eine grosse Metrik-Bibliothek ist allerdings nur dann ein Vorteil, wenn Sie die Metriken auch wirklich brauchen. Drei gut passende Metriken schlagen 30 unkalibrierte.

Sind die LLM-as-a-Judge-Bewertungen in DeepEval und Ragas zuverlässig?

Mit Einschränkung. Die Judges sind oft GPT-4o oder Claude Sonnet. Sie liefern reproduzierbare relative Bewertungen ("Antwort A besser als B"), aber absolute Scores schwanken zwischen Modell-Versionen. Wir empfehlen, ein Judge-Modell zu pinnen (z.B. GPT-4o-2026-04-09) und nur über stabile Zeiträume zu vergleichen. Bei kritischen Entscheidungen zusätzlich menschliche Stichprobe.

Kann ich mehrere Frameworks parallel betreiben?

Ja, das ist sogar verbreitet. Wir setzen oft DeepEval für Standard-Metriken + Ragas für RAG-spezifische + Promptfoo für Red-Teaming parallel ein. Achten Sie auf Daten-Konsistenz: Test-Set einmal pflegen, Adapter für jedes Framework, Reports zusammenführen. Drei Frameworks mit drei Test-Sets ist Chaos.

Wie hoch ist der Setup-Aufwand?

Erst-Setup eines Frameworks: ein halber bis ein Tag. Aufbau der ersten 50 Test-Fälle: 2-3 Tage. Pipeline-Instrumentierung: 1-2 Tage. CI-Integration: ein halber Tag. Insgesamt also rund eine Arbeitswoche für eine produktiv nutzbare Eval-Infrastruktur – bei einem realistischen Treuhand-RAG-Projekt.

Quellen

DeepEval – Open-source LLM evaluation framework (docs) · 2026-05
Ragas – Evaluation framework for RAG pipelines (docs) · 2026-05
Promptfoo – LLM testing and red-teaming (docs) · 2026-04
UK AI Safety Institute – Inspect framework (overview) · 2026-03
Arize Phoenix – LLM observability and evaluation · 2026-05
MLflow LLM Evaluate – official guide · 2026-04

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen