LANGFUSE · TECH

Langfuse: OSS-Marktführer für LLM-Tracing, Prompt-Mgmt und Eval

Langfuse (MIT, v3+) ist das OSS-Standardwerkzeug für LLM-Tracing, Cost-Tracking, Prompt-Versionierung und Eval. Self-Host oder EU-Cloud Frankfurt.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Was ist Langfuse?

Langfuse (langfuse.com) ist die Open-Source-Plattform für LLM-Observability mit dem grössten Marktanteil im OSS-Bereich. Das Projekt wurde 2023 gegründet, ist MIT-lizenziert (GitHub langfuse/langfuse, Stand Mai 2026 über 24.000 Sterne) und in YC-W23 inkubiert. Hinter dem Projekt steht die deutsche Firma Langfuse GmbH (Berlin) mit Series-A-Funding über USD 4 Mio. im Sommer 2024 und Series-B-Round (Stand Q1 2026 in Vorbereitung).

Die Plattform deckt vier Bausteine ab. Erstens Tracing: jeder LLM-Call wird als Span mit Prompt, Antwort, Token, Latenz und Modell aufgezeichnet. Mehrstufige Agent-Calls (LLM ruft Tool ruft LLM ruft Datenbank ruft LLM) erscheinen als Aufruf-Baum mit klarer Eltern-Kind-Hierarchie. Zweitens Cost-Tracking: Tokens werden gegen aktuelle Provider-Preislisten verrechnet, aggregiert nach Mandant, Anwendung, Funktion, Modell. Drittens Prompt-Management: Prompts liegen als versionierte Artefakte vor, deploybar pro Umgebung, vergleichbar gegen Eval-Sets. Viertens Evaluation: gegen Goldstandards, LLM-as-Judge oder Custom-Heuristiken wird gemessen, ob neue Prompts oder Modelle besser sind.

Architektur: Stand Mai 2026 ist Version 3.x stabil mit ClickHouse als primärem Logging-Backend (anstelle des früheren PostgreSQL-only-Setups) und S3-kompatibler Object-Storage für Prompt-Artefakte. Das macht Langfuse auf beliebige Skalierung anschlussfähig – produktive Installationen sehen mehrere zehntausend Traces pro Stunde ohne Performance-Probleme.

Deployment-Varianten: Erstens Langfuse Cloud (langfuse.com), mit EU-Region in Frankfurt (auf AWS eu-central-1). Free-Tier bis 50.000 Traces/Monat, Pro-Tier ab USD 59/Monat, Team-Tier ab USD 199/Monat, Enterprise-Tier auf Anfrage. Zweitens Self-Host: Docker-Compose-Stack mit langfuse-web, langfuse-worker, ClickHouse, Postgres, MinIO oder S3. Eine vollständige Production-Installation auf Hetzner CPX21/CPX31 läuft an einem Tag.

Für fairlane.systems ist Langfuse das Standard-Observability-Tool. Wir betreiben Langfuse Self-Host für mehrere Mandate auf Hetzner und nutzen Langfuse Cloud EU-Frankfurt als Backup-Option für Pilot-Projekte ohne Hardware-Budget.

Warum es das Standard-Tool ist

Drei Eigenschaften begründen die Marktposition. Erstens: MIT-Lizenz mit voller Self-Host-Fähigkeit. Im Gegensatz zu Tools wie LangSmith (proprietär, US-only) oder W&B Weave (proprietär, ML-zentriert) lebt Langfuse vollständig in OSS. Wer das Tool morgen forkbar haben will, kann das jederzeit. Eine Migration weg von Langfuse ist trivialer als von proprietären Plattformen.

Zweitens: EU-Hosting plus Self-Host. Langfuse Cloud hat eine Frankfurt-Region (AWS eu-central-1), in der alle Daten – Prompts, Antworten, Traces – ausschliesslich in der EU verarbeitet werden. Self-Host läuft auf jeder beliebigen Hardware in CH oder EU. Damit ist Langfuse das einzige der grossen LLM-Tracing-Tools, das für CH-DSG-strikte Setups ohne Diskussion einsetzbar ist.

Drittens: Funktionsumfang als gewinnender Sweet-Spot. Langfuse liefert Tracing plus Cost plus Prompt-Mgmt plus Eval in einer Plattform – andere Tools haben einzelne dieser Bausteine, aber selten alle gemeinsam. Wer eine RAG-Pipeline mit 8 Agent-Schritten betreut, sieht die Aufruf-Hierarchie als Baum, kann den Prompt-Version vergleichen und gleichzeitig die Eval-Metriken im Zeitverlauf nachvollziehen. Helicone hat den Cost-Teil schwächer, Lunary ist funktional minimaler, Phoenix kommt aus dem ML-Drift-Lager und passt schlechter zu LLM-Production.

Für CH-Treuhand- und Anwalts-Setups bringt Langfuse zwei zusätzliche Vorteile. Erstens Prompt-Versionierung als Audit-Spur: jeder Wechsel eines System-Prompts ist mit Diff, Autor und Deployment-Datum nachvollziehbar. Bei der Frage "Welcher Prompt war am 12. April aktiv?" gibt es eine deterministische Antwort. Zweitens Eval-Sets als Qualitäts-Sicherung: vor einem Modell-Wechsel lässt sich der neue Modell-Kandidat gegen 50 reale Mandanten-Fragen evaluieren – ohne Verlust der Antwort-Qualität zu riskieren.

Grenzen: Langfuse ist SDK-basiert, nicht Proxy-basiert. Code muss angepasst werden (LLM-Aufrufe in einen Langfuse-Wrapper packen) – das ist mehr Aufwand als Helicones Basis-URL-Wechsel. In Setups, in denen Code-Änderung unerwünscht ist, ist Helicone Proxy die schnellere Alternative.

Wie es funktioniert

Die Anbindung erfolgt über ein SDK in der Programmiersprache der Anwendung (Python, TypeScript, Go). Im Python-Beispiel:

from langfuse import Langfuse from langfuse.openai import openai # Drop-in-Replacement

langfuse = Langfuse( public_key="pk-lf-...", secret_key="sk-lf-...", host="https://eu.cloud.langfuse.com" # oder Self-Host-URL )

client = openai.OpenAI() # automatisches Tracing aktiv resp = client.chat.completions.create( model="mistral-large-2411", messages=[{"role":"user","content":"..."}], metadata={"client": "mandant-12", "function": "rag-search"} )

Die metadata-Felder erscheinen im Langfuse-Dashboard als filterbare Dimensionen. Für Agent-Tracing wird ein @observe()-Decorator auf Funktionen gesetzt; verschachtelte Aufrufe werden automatisch als Eltern-Kind-Spans verbunden.

Prompt-Management funktioniert über das Dashboard plus SDK. Prompts werden im Dashboard als versionierte Artefakte angelegt (Name, Version, Body, Variablen). Im Code wird der Prompt per ID oder Tag abgerufen – ein Wechsel des Prompts ist eine Konfiguration im Dashboard, keine Code-Änderung. Beispiel:

prompt = langfuse.get_prompt("rag-system", label="production") formatted = prompt.compile(client_name="Mandant A", language="de")

Das garantiert Reproduzierbarkeit: jede Antwort weiss, welche Prompt-Version genutzt wurde.

Evaluation läuft entweder als LLM-as-Judge (ein zweites Modell bewertet die Antwort gegen einen Goldstandard) oder über Custom-Score-Funktionen (Regex-Match, BLEU-Score, eigene Heuristik). Eval-Sets werden im Dashboard verwaltet; ein Run läuft als Batch gegen einen Prompt und liefert Metriken pro Antwort.

Für Self-Host laufen folgende Container: langfuse-web (UI, Next.js), langfuse-worker (Background-Jobs in TypeScript), ClickHouse (Traces), Postgres (Konfiguration und Metadaten), MinIO oder S3 (Prompt-Archive). Empfohlene Hetzner-Konfiguration: CPX31 mit 4 vCPU/8 GB RAM für mittlere Last (CHF 25/Monat), CPX41 mit 8 vCPU/16 GB RAM für hohe Last (CHF 50/Monat). Backups auf Hetzner-Storage-Box mit Append-Only-Mode liefern WORM-Compliance für Art. 957a OR.

Langfuse-Setup in 5 Schritten

01Langfuse Self-Host auf Hetzner CPX31 deployen (Docker-Compose mit langfuse-web, worker, ClickHouse, Postgres, MinIO) oder Langfuse Cloud EU-Frankfurt-Account anlegen.
02API-Keys (pk-lf-..., sk-lf-...) generieren, SDK in Anwendungen einbauen (Python: pip install langfuse, drop-in openai-Replacement).
03Metadaten-Schema definieren: Pro Call client, application, function, environment-Felder setzen – für spätere Filter und Cost-Reports.
04Prompts ins Repository migrieren: bestehende Hardcoded-Strings im Code ersetzen durch langfuse.get_prompt() mit Versions-Tag.
05Eval-Sets anlegen: 30-50 reale Anfragen mit Goldstandard-Antworten, LLM-as-Judge-Scoring konfigurieren, regelmässige Runs nach Prompt-Änderungen einplanen.

Wann Langfuse passt

Erstens für alle produktiven LLM-Anwendungen mit mehr als gelegentlicher Nutzung. Sobald eine Anwendung mehr als ein paar hundert Anfragen pro Tag bedient, ist Observability Pflicht – nicht Kuer. Langfuse Self-Host auf Hetzner deckt diese Anforderung mit Server-Kosten von CHF 25/Monat ab.

Zweitens für RAG-Pipelines und Agent-Workflows. Wer einen Agent mit mehreren Tool-Calls, RAG-Retrievals und Multi-Step-Reasoning baut, braucht Trace-Trees zur Debugging-Fähigkeit. Ohne Langfuse oder LangSmith ist jedes Debugging blind.

Drittens, wenn Prompt-Versionierung ernst genommen werden soll. Sobald mehr als eine Person an Prompts arbeitet, sind Diff-View, Deployment-Pro-Umgebung und Rollback-Fähigkeit zentral. Langfuses Prompt-Repository ist hier eine der saubersten Lösungen am Markt.

Viertens für Eval-getriebene Modell-/Prompt-Wahl. Bevor man von Claude Sonnet auf Mistral Large migriert, will man wissen, ob die Antwort-Qualität auf dem realen Mandanten-Korpus stabil bleibt. Langfuse-Eval-Sets erlauben diese Messung – A-B-Test gegen Goldstandard, Metriken pro Modell-Kandidat.

Fünftens für CH-Mandate mit harten Daten-Residenz-Anforderungen. Langfuse Self-Host auf CH/EU-Hardware ist die einzige Konfiguration, in der alle Prompts, Antworten und Traces unter eigener Kontrolle bleiben – kein US-Cloud-Layer dazwischen.

Sechstens als ergänzende Schicht zu Routing-Gateways. Eine Standard-Konfiguration: LiteLLM für Routing und Virtual Keys, Langfuse für Observability und Prompt-Mgmt, beide Tools laufen parallel. LiteLLM hat einen Langfuse-Callback-Hook – jeder Call wird automatisch in Langfuse aufgezeichnet.

Wann NICHT

Erstens bei extrem kleinen Setups mit unter 1.000 Calls/Monat. Ein einziger ChatGPT-Wrapper für interne Mitarbeiter-Notizen braucht kein dediziertes Tracking-Tool. OpenAI-Usage-Dashboard plus ein paar Postgres-Logs reichen.

Zweitens, wenn Code-Änderung absolut verboten ist. Langfuse ist SDK-basiert – der Code muss LLM-Aufrufe in den Langfuse-Wrapper packen oder den Decorator @observe() setzen. Wer das nicht darf (etwa wegen vertraglicher Code-Freeze-Klauseln), nutzt Helicone als Proxy-Alternative ohne Code-Änderung.

Drittens, wenn das Team kein Container-/Docker-Wissen hat und kein Cloud-Budget vorgesehen ist. Langfuse Self-Host braucht einen sauber gepflegten Container-Stack mit Backup, Monitoring und Update-Disziplin. Wer das nicht leistet, nutzt Langfuse Cloud EU-Frankfurt – verzichtet aber auf die Self-Host-Vorteile.

Viertens für Setups, die ausschliesslich Prometheus-/Grafana-basiertes Monitoring wollen ohne separate UI. Wer LLM-Telemetrie nur als OpenTelemetry-Spans in ein bestehendes Monitoring-Backend exportieren will, nimmt OpenLLMetry (SDK von Traceloop) und SigNoz oder Grafana Tempo. Langfuse bringt eine eigene UI mit, die parallel läuft.

Fünftens bei sehr engen Latenz-Budgets, in denen kein zusätzlicher SDK-Aufwand toleriert wird. Langfuse-SDK fügt typisch 1-3 ms pro Call hinzu (Background-Tracing); bei Voice-Bots mit 200 ms Budget ist das vertretbar, bei extrem latenz-kritischen Sub-100-ms-Anwendungen sollte man messen.

Vor- und Nachteile

STÄRKEN

MIT-Lizenz, vollständig self-hostable mit S3-skalierbarem Backend
EU-Region Frankfurt im Cloud-Tier – saubere CH-DSG-Konfiguration
Tracing plus Cost plus Prompt-Versionierung plus Eval in einer Plattform
Marktführer im OSS-LLM-Observability-Bereich mit aktiver Community

SCHWÄCHEN

SDK-basiert – Code-Anpassung nötig (kein Proxy-Modus wie bei Helicone)
Self-Host braucht ClickHouse plus Postgres plus S3 – komplexer Stack
Steile Eval-Lernkurve bei LLM-as-Judge-Setups mit Custom-Score-Funktionen
Keine eingebauten Guardrails (PII-Filter, Toxicity, Prompt-Injection-Detection)

Häufige Fragen

Wie hoch sind die realen Self-Host-Kosten?

Hardware: Hetzner CPX31 (4 vCPU, 8 GB RAM, ca. CHF 25/Monat) reicht für mehrere zehntausend Traces pro Monat. Bei grösserem Volumen CPX41 mit 8 vCPU/16 GB (CHF 50/Monat). Hetzner-Storage-Box für Backups CHF 10-20/Monat. Setup-Aufwand: 1-2 Tage. Wartung: etwa 2-3 Stunden pro Monat. Erstjahres-Total inklusive Setup zu CH-Stundensatz: rund CHF 3.000-5.000. Langfuse Cloud Pro im Vergleich: USD 59/Monat plus Volumen-Aufschlag – rund USD 700-1.500/Jahr. Cloud gewinnt im ersten Jahr, Self-Host ab Jahr zwei.

Wie unterscheidet sich Langfuse v3 von v2?

Hauptänderung: ClickHouse statt PostgreSQL als primärer Logging-Backend. Das ermöglicht Skalierung in den Millionen-Traces-pro-Monat-Bereich ohne Postgres-Bottleneck. Daneben S3-kompatibles Object-Storage für Prompt-Artefakte, verbesserte Eval-Workflows und neue UI-Komponenten. Migration von v2 auf v3 ist dokumentiert, braucht aber eine geplante Downtime von 2-4 Stunden je nach Datenvolumen.

Funktioniert Langfuse hinter LiteLLM oder anderen Gateways?

Ja. LiteLLM hat einen eingebauten Langfuse-Callback-Hook: in der config.yaml wird langfuse als success_callback eingetragen, jeder Call wird automatisch nach Langfuse gespiegelt. Auch Helicone, Portkey und Kong AI Gateway lassen sich mit Langfuse kombinieren – zwei Wege: Webhook von Gateway nach Langfuse oder Anwendung sendet parallel an beide. Die Kombination LiteLLM (Routing) plus Langfuse (Observability) ist unser Standard für CH-Mandate.

Ist Langfuse revisionsfest für Art. 957a OR?

Konzeptionell ja. Langfuse schreibt jeden Trace mit Timestamp, Modell, Token, Kosten, Prompt-Version und Antwort-Hash in ClickHouse. Backups laufen über pg_dump und ClickHouse-backup-Mechanismen auf S3-Object-Lock oder Hetzner-Storage-Box mit Append-Only. Diese Konfiguration ist WORM-konform und damit Art.-957a-OR-tauglich. Wichtig: WORM muss aktiv konfiguriert sein – eine Standard-Installation schreibt updatable ClickHouse-Records ohne Audit-Pflicht-Schicht.

Quellen

Langfuse Documentation – tracing, prompts, eval, self-host · 2026-05
Langfuse GitHub repository – MIT licence, v3+ source · 2026-05
Langfuse Cloud Pricing and EU Region Frankfurt · 2026-05
Langfuse v3 Architecture announcement – ClickHouse + S3 · 2026-02

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen