LANGFUSE · TECH
Langfuse: OSS-Marktführer für LLM-Tracing, Prompt-Mgmt und Eval
Langfuse (MIT, v3+) ist das OSS-Standardwerkzeug für LLM-Tracing, Cost-Tracking, Prompt-Versionierung und Eval. Self-Host oder EU-Cloud Frankfurt.
Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05
Was ist Langfuse?
Langfuse (langfuse.com) ist die Open-Source-Plattform für LLM-Observability mit dem grössten Marktanteil im OSS-Bereich. Das Projekt wurde 2023 gegründet, ist MIT-lizenziert (GitHub langfuse/langfuse, Stand Mai 2026 über 24.000 Sterne) und in YC-W23 inkubiert. Hinter dem Projekt steht die deutsche Firma Langfuse GmbH (Berlin) mit Series-A-Funding über USD 4 Mio. im Sommer 2024 und Series-B-Round (Stand Q1 2026 in Vorbereitung).
Die Plattform deckt vier Bausteine ab. Erstens Tracing: jeder LLM-Call wird als Span mit Prompt, Antwort, Token, Latenz und Modell aufgezeichnet. Mehrstufige Agent-Calls (LLM ruft Tool ruft LLM ruft Datenbank ruft LLM) erscheinen als Aufruf-Baum mit klarer Eltern-Kind-Hierarchie. Zweitens Cost-Tracking: Tokens werden gegen aktuelle Provider-Preislisten verrechnet, aggregiert nach Mandant, Anwendung, Funktion, Modell. Drittens Prompt-Management: Prompts liegen als versionierte Artefakte vor, deploybar pro Umgebung, vergleichbar gegen Eval-Sets. Viertens Evaluation: gegen Goldstandards, LLM-as-Judge oder Custom-Heuristiken wird gemessen, ob neue Prompts oder Modelle besser sind.
Architektur: Stand Mai 2026 ist Version 3.x stabil mit ClickHouse als primärem Logging-Backend (anstelle des früheren PostgreSQL-only-Setups) und S3-kompatibler Object-Storage für Prompt-Artefakte. Das macht Langfuse auf beliebige Skalierung anschlussfähig – produktive Installationen sehen mehrere zehntausend Traces pro Stunde ohne Performance-Probleme.
Deployment-Varianten: Erstens Langfuse Cloud (langfuse.com), mit EU-Region in Frankfurt (auf AWS eu-central-1). Free-Tier bis 50.000 Traces/Monat, Pro-Tier ab USD 59/Monat, Team-Tier ab USD 199/Monat, Enterprise-Tier auf Anfrage. Zweitens Self-Host: Docker-Compose-Stack mit langfuse-web, langfuse-worker, ClickHouse, Postgres, MinIO oder S3. Eine vollständige Production-Installation auf Hetzner CPX21/CPX31 läuft an einem Tag.
Für fairlane.systems ist Langfuse das Standard-Observability-Tool. Wir betreiben Langfuse Self-Host für mehrere Mandate auf Hetzner und nutzen Langfuse Cloud EU-Frankfurt als Backup-Option für Pilot-Projekte ohne Hardware-Budget.
Warum es das Standard-Tool ist
Drei Eigenschaften begründen die Marktposition. Erstens: MIT-Lizenz mit voller Self-Host-Fähigkeit. Im Gegensatz zu Tools wie LangSmith (proprietär, US-only) oder W&B Weave (proprietär, ML-zentriert) lebt Langfuse vollständig in OSS. Wer das Tool morgen forkbar haben will, kann das jederzeit. Eine Migration weg von Langfuse ist trivialer als von proprietären Plattformen.
Zweitens: EU-Hosting plus Self-Host. Langfuse Cloud hat eine Frankfurt-Region (AWS eu-central-1), in der alle Daten – Prompts, Antworten, Traces – ausschliesslich in der EU verarbeitet werden. Self-Host läuft auf jeder beliebigen Hardware in CH oder EU. Damit ist Langfuse das einzige der grossen LLM-Tracing-Tools, das für CH-DSG-strikte Setups ohne Diskussion einsetzbar ist.
Drittens: Funktionsumfang als gewinnender Sweet-Spot. Langfuse liefert Tracing plus Cost plus Prompt-Mgmt plus Eval in einer Plattform – andere Tools haben einzelne dieser Bausteine, aber selten alle gemeinsam. Wer eine RAG-Pipeline mit 8 Agent-Schritten betreut, sieht die Aufruf-Hierarchie als Baum, kann den Prompt-Version vergleichen und gleichzeitig die Eval-Metriken im Zeitverlauf nachvollziehen. Helicone hat den Cost-Teil schwächer, Lunary ist funktional minimaler, Phoenix kommt aus dem ML-Drift-Lager und passt schlechter zu LLM-Production.
Für CH-Treuhand- und Anwalts-Setups bringt Langfuse zwei zusätzliche Vorteile. Erstens Prompt-Versionierung als Audit-Spur: jeder Wechsel eines System-Prompts ist mit Diff, Autor und Deployment-Datum nachvollziehbar. Bei der Frage "Welcher Prompt war am 12. April aktiv?" gibt es eine deterministische Antwort. Zweitens Eval-Sets als Qualitäts-Sicherung: vor einem Modell-Wechsel lässt sich der neue Modell-Kandidat gegen 50 reale Mandanten-Fragen evaluieren – ohne Verlust der Antwort-Qualität zu riskieren.
Grenzen: Langfuse ist SDK-basiert, nicht Proxy-basiert. Code muss angepasst werden (LLM-Aufrufe in einen Langfuse-Wrapper packen) – das ist mehr Aufwand als Helicones Basis-URL-Wechsel. In Setups, in denen Code-Änderung unerwünscht ist, ist Helicone Proxy die schnellere Alternative.
Wie es funktioniert
Die Anbindung erfolgt über ein SDK in der Programmiersprache der Anwendung (Python, TypeScript, Go). Im Python-Beispiel:
from langfuse import Langfuse from langfuse.openai import openai # Drop-in-Replacement
langfuse = Langfuse( public_key="pk-lf-...", secret_key="sk-lf-...", host="https://eu.cloud.langfuse.com" # oder Self-Host-URL )
client = openai.OpenAI() # automatisches Tracing aktiv resp = client.chat.completions.create( model="mistral-large-2411", messages=[{"role":"user","content":"..."}], metadata={"client": "mandant-12", "function": "rag-search"} )
Die metadata-Felder erscheinen im Langfuse-Dashboard als filterbare Dimensionen. Für Agent-Tracing wird ein @observe()-Decorator auf Funktionen gesetzt; verschachtelte Aufrufe werden automatisch als Eltern-Kind-Spans verbunden.
Prompt-Management funktioniert über das Dashboard plus SDK. Prompts werden im Dashboard als versionierte Artefakte angelegt (Name, Version, Body, Variablen). Im Code wird der Prompt per ID oder Tag abgerufen – ein Wechsel des Prompts ist eine Konfiguration im Dashboard, keine Code-Änderung. Beispiel:
prompt = langfuse.get_prompt("rag-system", label="production") formatted = prompt.compile(client_name="Mandant A", language="de")
Das garantiert Reproduzierbarkeit: jede Antwort weiss, welche Prompt-Version genutzt wurde.
Evaluation läuft entweder als LLM-as-Judge (ein zweites Modell bewertet die Antwort gegen einen Goldstandard) oder über Custom-Score-Funktionen (Regex-Match, BLEU-Score, eigene Heuristik). Eval-Sets werden im Dashboard verwaltet; ein Run läuft als Batch gegen einen Prompt und liefert Metriken pro Antwort.
Für Self-Host laufen folgende Container: langfuse-web (UI, Next.js), langfuse-worker (Background-Jobs in TypeScript), ClickHouse (Traces), Postgres (Konfiguration und Metadaten), MinIO oder S3 (Prompt-Archive). Empfohlene Hetzner-Konfiguration: CPX31 mit 4 vCPU/8 GB RAM für mittlere Last (CHF 25/Monat), CPX41 mit 8 vCPU/16 GB RAM für hohe Last (CHF 50/Monat). Backups auf Hetzner-Storage-Box mit Append-Only-Mode liefern WORM-Compliance für Art. 957a OR.
Langfuse-Setup in 5 Schritten
- 01Langfuse Self-Host auf Hetzner CPX31 deployen (Docker-Compose mit langfuse-web, worker, ClickHouse, Postgres, MinIO) oder Langfuse Cloud EU-Frankfurt-Account anlegen.
- 02API-Keys (pk-lf-..., sk-lf-...) generieren, SDK in Anwendungen einbauen (Python: pip install langfuse, drop-in openai-Replacement).
- 03Metadaten-Schema definieren: Pro Call client, application, function, environment-Felder setzen – für spätere Filter und Cost-Reports.
- 04Prompts ins Repository migrieren: bestehende Hardcoded-Strings im Code ersetzen durch langfuse.get_prompt() mit Versions-Tag.
- 05Eval-Sets anlegen: 30-50 reale Anfragen mit Goldstandard-Antworten, LLM-as-Judge-Scoring konfigurieren, regelmässige Runs nach Prompt-Änderungen einplanen.
Wann Langfuse passt
Erstens für alle produktiven LLM-Anwendungen mit mehr als gelegentlicher Nutzung. Sobald eine Anwendung mehr als ein paar hundert Anfragen pro Tag bedient, ist Observability Pflicht – nicht Kuer. Langfuse Self-Host auf Hetzner deckt diese Anforderung mit Server-Kosten von CHF 25/Monat ab.
Zweitens für RAG-Pipelines und Agent-Workflows. Wer einen Agent mit mehreren Tool-Calls, RAG-Retrievals und Multi-Step-Reasoning baut, braucht Trace-Trees zur Debugging-Fähigkeit. Ohne Langfuse oder LangSmith ist jedes Debugging blind.
Drittens, wenn Prompt-Versionierung ernst genommen werden soll. Sobald mehr als eine Person an Prompts arbeitet, sind Diff-View, Deployment-Pro-Umgebung und Rollback-Fähigkeit zentral. Langfuses Prompt-Repository ist hier eine der saubersten Lösungen am Markt.
Viertens für Eval-getriebene Modell-/Prompt-Wahl. Bevor man von Claude Sonnet auf Mistral Large migriert, will man wissen, ob die Antwort-Qualität auf dem realen Mandanten-Korpus stabil bleibt. Langfuse-Eval-Sets erlauben diese Messung – A-B-Test gegen Goldstandard, Metriken pro Modell-Kandidat.
Fünftens für CH-Mandate mit harten Daten-Residenz-Anforderungen. Langfuse Self-Host auf CH/EU-Hardware ist die einzige Konfiguration, in der alle Prompts, Antworten und Traces unter eigener Kontrolle bleiben – kein US-Cloud-Layer dazwischen.
Sechstens als ergänzende Schicht zu Routing-Gateways. Eine Standard-Konfiguration: LiteLLM für Routing und Virtual Keys, Langfuse für Observability und Prompt-Mgmt, beide Tools laufen parallel. LiteLLM hat einen Langfuse-Callback-Hook – jeder Call wird automatisch in Langfuse aufgezeichnet.
Wann NICHT
Erstens bei extrem kleinen Setups mit unter 1.000 Calls/Monat. Ein einziger ChatGPT-Wrapper für interne Mitarbeiter-Notizen braucht kein dediziertes Tracking-Tool. OpenAI-Usage-Dashboard plus ein paar Postgres-Logs reichen.
Zweitens, wenn Code-Änderung absolut verboten ist. Langfuse ist SDK-basiert – der Code muss LLM-Aufrufe in den Langfuse-Wrapper packen oder den Decorator @observe() setzen. Wer das nicht darf (etwa wegen vertraglicher Code-Freeze-Klauseln), nutzt Helicone als Proxy-Alternative ohne Code-Änderung.
Drittens, wenn das Team kein Container-/Docker-Wissen hat und kein Cloud-Budget vorgesehen ist. Langfuse Self-Host braucht einen sauber gepflegten Container-Stack mit Backup, Monitoring und Update-Disziplin. Wer das nicht leistet, nutzt Langfuse Cloud EU-Frankfurt – verzichtet aber auf die Self-Host-Vorteile.
Viertens für Setups, die ausschliesslich Prometheus-/Grafana-basiertes Monitoring wollen ohne separate UI. Wer LLM-Telemetrie nur als OpenTelemetry-Spans in ein bestehendes Monitoring-Backend exportieren will, nimmt OpenLLMetry (SDK von Traceloop) und SigNoz oder Grafana Tempo. Langfuse bringt eine eigene UI mit, die parallel läuft.
Fünftens bei sehr engen Latenz-Budgets, in denen kein zusätzlicher SDK-Aufwand toleriert wird. Langfuse-SDK fügt typisch 1-3 ms pro Call hinzu (Background-Tracing); bei Voice-Bots mit 200 ms Budget ist das vertretbar, bei extrem latenz-kritischen Sub-100-ms-Anwendungen sollte man messen.
Vor- und Nachteile
STÄRKEN
- MIT-Lizenz, vollständig self-hostable mit S3-skalierbarem Backend
- EU-Region Frankfurt im Cloud-Tier – saubere CH-DSG-Konfiguration
- Tracing plus Cost plus Prompt-Versionierung plus Eval in einer Plattform
- Marktführer im OSS-LLM-Observability-Bereich mit aktiver Community
SCHWÄCHEN
- SDK-basiert – Code-Anpassung nötig (kein Proxy-Modus wie bei Helicone)
- Self-Host braucht ClickHouse plus Postgres plus S3 – komplexer Stack
- Steile Eval-Lernkurve bei LLM-as-Judge-Setups mit Custom-Score-Funktionen
- Keine eingebauten Guardrails (PII-Filter, Toxicity, Prompt-Injection-Detection)
Häufige Fragen
Wie hoch sind die realen Self-Host-Kosten?
Hardware: Hetzner CPX31 (4 vCPU, 8 GB RAM, ca. CHF 25/Monat) reicht für mehrere zehntausend Traces pro Monat. Bei grösserem Volumen CPX41 mit 8 vCPU/16 GB (CHF 50/Monat). Hetzner-Storage-Box für Backups CHF 10-20/Monat. Setup-Aufwand: 1-2 Tage. Wartung: etwa 2-3 Stunden pro Monat. Erstjahres-Total inklusive Setup zu CH-Stundensatz: rund CHF 3.000-5.000. Langfuse Cloud Pro im Vergleich: USD 59/Monat plus Volumen-Aufschlag – rund USD 700-1.500/Jahr. Cloud gewinnt im ersten Jahr, Self-Host ab Jahr zwei.
Wie unterscheidet sich Langfuse v3 von v2?
Hauptänderung: ClickHouse statt PostgreSQL als primärer Logging-Backend. Das ermöglicht Skalierung in den Millionen-Traces-pro-Monat-Bereich ohne Postgres-Bottleneck. Daneben S3-kompatibles Object-Storage für Prompt-Artefakte, verbesserte Eval-Workflows und neue UI-Komponenten. Migration von v2 auf v3 ist dokumentiert, braucht aber eine geplante Downtime von 2-4 Stunden je nach Datenvolumen.
Funktioniert Langfuse hinter LiteLLM oder anderen Gateways?
Ja. LiteLLM hat einen eingebauten Langfuse-Callback-Hook: in der config.yaml wird langfuse als success_callback eingetragen, jeder Call wird automatisch nach Langfuse gespiegelt. Auch Helicone, Portkey und Kong AI Gateway lassen sich mit Langfuse kombinieren – zwei Wege: Webhook von Gateway nach Langfuse oder Anwendung sendet parallel an beide. Die Kombination LiteLLM (Routing) plus Langfuse (Observability) ist unser Standard für CH-Mandate.
Ist Langfuse revisionsfest für Art. 957a OR?
Konzeptionell ja. Langfuse schreibt jeden Trace mit Timestamp, Modell, Token, Kosten, Prompt-Version und Antwort-Hash in ClickHouse. Backups laufen über pg_dump und ClickHouse-backup-Mechanismen auf S3-Object-Lock oder Hetzner-Storage-Box mit Append-Only. Diese Konfiguration ist WORM-konform und damit Art.-957a-OR-tauglich. Wichtig: WORM muss aktiv konfiguriert sein – eine Standard-Installation schreibt updatable ClickHouse-Records ohne Audit-Pflicht-Schicht.
Verwandte Themen
Quellen
PASSEND ZU IHREM STACK?