LANGFUSE vs HELICONE vs LANGSMITH - DUELL

Langfuse vs Helicone vs LangSmith - welches LLM-Tracing-Tool?

Drei LLM-Observability-Plattformen. Langfuse als EU-OSS-Standard, Helicone als 5-Minuten-Proxy, LangSmith für LangChain-Stacks - Entscheidung Mai 2026.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Worum geht das Duell?

Sobald ein LLM-Workflow Mai 2026 über den PoC-Status hinauswächst, taucht dieselbe Frage auf: Wie viele Tokens hat dieser Request verbraucht, warum hat das Modell hier halluziniert, welche Version des Prompts war damals aktiv? Ohne Tracing-Tool ist die Antwort "wir wissen es nicht". Drei Plattformen besetzen die Spitze des Marktes: Langfuse (Berliner Startup, MIT, EU-Cloud), Helicone (San Francisco, Apache 2.0, Proxy-Modell) und LangSmith (LangChain Inc., proprietär, US-only Cloud).

Alle drei beantworten dieselben Kernfragen - Trace-Ansicht jedes Requests, Kosten- und Latenz-Metriken, Prompt-Versioning, Evaluation-Datasets. Die Unterschiede liegen in drei Achsen, die Schweizer Treuhand- und Anwalts-Setups direkt treffen.

Erstens: Hosting-Modell. Langfuse bietet MIT-OSS mit allen Core-Features im Self-Host plus eine EU-Cloud in Frankfurt. Helicone ist Apache 2.0, Self-Host möglich, plus US- und EU-Cloud. LangSmith ist proprietär, primär US-Cloud, Self-Hosting nur im Enterprise-Tier ab fünfstelligen Jahreskosten.

Zweitens: Integrations-Modell. Helicone fängt Traces als HTTP-Proxy ab - ein URL-Tausch in der Code-Konfiguration genügt, kein SDK-Code. Langfuse und LangSmith arbeiten über SDK-Wrapper oder OpenTelemetry. Der Proxy-Ansatz ist schneller eingerichtet, aber er erfordert, dass der gesamte LLM-Traffic über den Helicone-Endpoint läuft.

Drittens: Framework-Bindung. LangSmith ist für LangChain-/LangGraph-Stacks gebaut - tiefe Hooks, automatisches Tracing ohne Konfiguration. Langfuse ist framework-agnostisch über OpenTelemetry - LangChain, LlamaIndex, Haystack, raw OpenAI-Calls. Helicone ebenfalls framework-agnostisch.

Warum die Wahl wichtig ist

Drei harte Faktoren machen die Tool-Wahl Mai 2026 zur Vertrauens-Entscheidung, nicht zur Geschmacksfrage.

Datenschutz (revDSG und DSGVO): Ein Treuhand-Büro, das über eine LLM-Anwendung Mandantendaten verarbeitet, sendet jedes Tracing-Detail an die Observability-Plattform mit. Frage-Prompts, Antworten, manchmal Tool-Call-Argumente mit Klartext-Namen, Belegen, Steuerzahlen. Wenn dieser Traffic auf einem US-Server landet, ist die Datenübertragung in ein Drittland - Transfer Impact Assessment Pflicht, Standardvertragsklauseln, EDSB-Risiko. Langfuse mit Frankfurt-Cloud oder Self-Host löst das, Helicone EU-Cloud ebenfalls. LangSmith primär US-Cloud bleibt für DSG-konforme Setups unangenehm.

Setup-Geschwindigkeit: Helicone gewinnt klar - URL ändern, fertig. Realistisch zwei bis fünf Minuten von Account-Erstellung bis erstes Trace im Dashboard. Langfuse via OpenTelemetry oder via Python/JS-Decorator braucht 15-30 Minuten Setup, ist aber dafür reichhaltiger im resultierenden Trace-Baum. LangSmith im LangChain-Stack ist quasi automatisch aktiv, aber nur in genau diesem Stack.

Feature-Tiefe für Evaluation und Prompt-Versioning: Langfuse Mai 2026 führt hier deutlich. Eingebaute Eval-Datasets, LLM-as-Judge-Pipelines, Prompt-Versioning mit A/B-Tests, automatische Cost-Aggregation pro User/Session/Feature. Helicone deckt die gleichen Bereiche ab, ist aber bei Eval und Prompt-Versioning eine Stufe leichter. LangSmith hat ebenfalls starke Eval-Tools, gebunden an LangChain-Datentypen - praktisch für LangGraph-Teams, weniger universell.

Die drei Plattformen im Detail

Langfuse (MIT, Berlin/Frankfurt, EU-Cloud + Self-Host): Mai 2026 der OSS-Marktführer für LLM-Observability. Architektur über OpenTelemetry-Span-Modell - jeder LLM-Call ist ein Span, Tool-Calls und Retrieval-Schritte sind Child-Spans, ein RAG-Workflow wird zum baum-strukturierten Trace. Cloud Frankfurt (eu-central-1) plus Self-Host via Docker-Compose oder Helm. Prompt-Management mit Versioning und A/B-Tests, Eval-Datasets, LLM-as-Judge mit konfigurierbaren Prompts, Score-Aggregation, User-Session-Tracking. SDK für Python und JS/TS, plus OpenTelemetry-Endpunkt für jede andere Sprache. Kostenmodell Cloud: Free für 50k Events/Monat, Pro ab USD 29/Monat. Self-Host komplett kostenlos.

Helicone (Apache 2.0, San Francisco, US+EU-Cloud + Self-Host): Proxy-zentriertes Modell als Kern-Unterscheidungsmerkmal. Statt SDK-Wrapper ändert man den Base-URL des LLM-Clients von api.openai.com auf oai.helicone.ai, fügt einen Auth-Header an, und Helicone fängt jeden Request ab. Setup in unter fünf Minuten, kein Code-Refactor nötig. Zweite Option: Async-Logging via SDK für Teams, die kein Proxy mögen. Features: Cost-Tracking, Latency-Metriken, Caching, Rate-Limiting, eigener Playground. Eval und Prompt-Versioning sind Mai 2026 vorhanden, aber leichter als bei Langfuse. EU-Cloud erlaubt DSG-konforme Setups, Self-Host für maximale Kontrolle.

LangSmith (proprietär, US-Cloud, LangChain Inc.): Das hauseigene Observability-Tool des LangChain-Projekts. Im LangChain- oder LangGraph-Code reicht eine Environment-Variable - automatisches Tracing aktiviert, jeder Chain-Schritt erscheint als Span. Beste Eval-Integration für LangChain-Datentypen, Hub für Prompt-Sharing, integrierte Deployment-Pipeline. Mai 2026 weiterhin primär US-Cloud, Self-Hosting nur im Enterprise-Tier (typisch ab USD 30000+/Jahr). Für DSG-strikte Setups in der Schweiz ist das die kritischste Hürde.

Tool-Auswahl in 6 Schritten

01Daten-Sensitivität prüfen: Mandantendaten in Prompts? Wenn ja: EU-Hosting Pflicht (Langfuse EU oder Helicone EU oder Self-Host).
02Framework-Stack feststellen: pure LangChain = LangSmith Komfort-Vorteil; LlamaIndex / Mix = Langfuse; framework-agnostisch = Helicone.
03Setup-Zeit budgetieren: 5 Minuten = Helicone (Proxy); 30 Minuten = Langfuse SDK; automatisch = LangSmith im LangChain-Code.
04Feature-Pflichten klären: Prompt-Versioning A/B-Tests + LLM-as-Judge = Langfuse führend; einfaches Cost-Tracking = alle drei.
05Self-Host-Frage entscheiden: Cloud-EU genügt = Langfuse Cloud Frankfurt oder Helicone EU; eigener Rack = Langfuse Self-Host bevorzugt.
06PoC mit zwei Wochen Daten: erst Hands-on testen, dann commit. Trace-Volume schätzen, Kosten hochrechnen, Production-Plan aufsetzen.

Empfehlung je Szenario

Schweizer Treuhand / Anwalt mit DSG-Pflicht, Mandantendaten in Traces: Langfuse mit EU-Cloud Frankfurt oder Self-Host auf Hetzner. Mai 2026 die Standardwahl, wenn Datenschutz und Audit-Fähigkeit zählen. Self-Host-Variante läuft auf einem AX41-Server mit Postgres und Clickhouse, monatliche Betriebskosten unter CHF 60.

5-Minuten-Setup, schnelle Erkenntnis ohne Code-Änderung: Helicone. Wer in einem PoC schnell sehen muss "wo gehen meine Tokens hin, welche Latenz hat OpenAI heute, welcher Mandant verursacht 80 Prozent der Kosten", richtet Helicone in fünf Minuten ein und hat ab Minute sechs die Antwort. EU-Cloud wählen, wenn das PoC zu Production werden soll.

Team komplett im LangChain/LangGraph-Stack, US-Cloud akzeptiert: LangSmith. Die LangChain-native Integration spart Setup-Zeit, das Eval-Tooling ist auf LangChain-Datentypen abgestimmt, der Prompt-Hub ist gut. Voraussetzung: kein DSG-Risiko oder Standardvertragsklauseln plus TIA dokumentiert.

Multi-Framework-Setup (LangChain + LlamaIndex + raw Calls) gemischt: Langfuse. OpenTelemetry-basiert, alle drei Quellen fluten in dasselbe Dashboard, einheitliche Trace-Ansicht. Mai 2026 die einzige der drei Plattformen, die diesen Mix wirklich elegant bedient.

Self-Host als harte Anforderung (Anwaltskanzlei mit Berufsgeheimnis): Langfuse oder Helicone. Beide sind OSS, beide laufen im eigenen Rack. Langfuse fühlt sich Mai 2026 reifer im Self-Host an (klare Helm-Charts, regelmässige Releases). Helicone läuft ebenfalls, der Self-Host-Pfad ist aber leichter dokumentiert für Cloud-Setup.

Hybrid: einige Apps in LangChain, andere nicht: Langfuse für die Nicht-LangChain-Apps, LangSmith optional für LangChain - oder Langfuse für alles. Doppel-Tooling lohnt selten.

Wann keines der drei passt

Wenn die LLM-Nutzung Mai 2026 unter 1000 Requests pro Monat liegt und ein PoC ist, der in vier Wochen wieder verschwinden kann, ist jedes der drei Tools Overkill. Einfache Logfile-Einträge plus eine Excel-Auswertung am Monatsende reichen.

Wenn das primäre Bedürfnis nicht LLM-Observability sondern Application-Performance-Monitoring ist (Datenbank-Latenz, HTTP-Stati, Speicherverbrauch der App), greifen Sie zu klassischen APM-Tools wie Grafana, Datadog oder Sentry. Langfuse und Helicone sehen den LLM-Call gut, aber sie sehen nicht, dass Ihr Postgres-Index fehlt.

Wenn die Compliance-Lage so eng ist, dass überhaupt keine externe Software Mandantendaten beobachten darf - manche Anwaltskanzleien interpretieren StGB Art. 321 so - bleibt nur Self-Host plus eigene Prüfung der Code-Basis. Langfuse Self-Host ist Mai 2026 der ausgereifteste Pfad, Helicone Self-Host die einfachere Alternative.

Wenn das LLM-Setup ausschliesslich mit lokalen Modellen (Ollama, vLLM, llama.cpp) arbeitet und nie eine Cloud-API anspricht, ist der Mehrwert eines Tracing-Tools begrenzt - es geht ja nicht um Cost-Tracking pro Token. In dem Fall reicht häufig ein eigener Logger plus Grafana-Dashboard, OpenTelemetry direkt in Tempo oder Jäger.

Vor- und Nachteile

STÄRKEN

Langfuse: MIT-OSS, EU-Cloud Frankfurt + Self-Host, framework-agnostisch, beste Eval+Prompt-Versioning-Tiefe Mai 2026
Helicone: schnellstes Setup im Markt (5 Minuten via Proxy), Apache 2.0, EU-Cloud verfügbar, Caching+Rate-Limiting eingebaut
LangSmith: tiefste LangChain/LangGraph-Integration, automatisches Tracing ohne Konfiguration, ausgereifter Prompt-Hub
Alle drei: Cost-Tracking, Latency-Metriken, User-Session-Aggregation, Trace-Visualisierung als Baum

SCHWÄCHEN

Langfuse: Setup länger als Helicone (15-30 min SDK), Self-Host braucht Clickhouse und Postgres - moderater Operations-Aufwand
Helicone: Proxy-Modell heisst zusätzlicher Hop mit 20-50 ms Latenz; Eval-Features leichter als bei Langfuse
LangSmith: proprietär, primär US-Cloud, Self-Host nur Enterprise-Tier - DSG-Hindernis für Schweizer KMU
Alle drei: zusätzliche Komponente bedeutet zusätzlicher Vendor; bei Self-Host zusätzlicher Wartungsaufwand

Häufige Fragen

Ist LangSmith Mai 2026 in der EU verfügbar?

LangSmith ist primär US-Cloud. Ein dedizierter EU-Tier ist Mai 2026 nicht offiziell verfügbar. Self-Hosting gibt es nur im Enterprise-Tier mit individueller Preisverhandlung, typisch ab USD 30000 pro Jahr. Für Schweizer KMU mit DSG-Pflicht ist das praktisch unerreichbar, für Konzerne mit Compliance-Budget bleibt es eine Option.

Wie läuft Helicone als Proxy konkret?

Sie ändern in Ihrem OpenAI-, Anthropic- oder LiteLLM-Client die Base-URL von api.openai.com auf oai.helicone.ai (oder ein anderes Helicone-Endpunkt). Sie hängen einen Helicone-Auth-Header an. Ab dann fängt Helicone jeden Request ab, leitet ihn an OpenAI weiter, loggt Request+Response, schickt die Antwort zurück. Latenz-Overhead Mai 2026 typischerweise 20-50 ms. Alternative: Async-Logging via SDK, kein Proxy nötig, aber ein paar Zeilen Code pro App.

Welches Tool hat den besten LLM-as-Judge-Support?

Langfuse Mai 2026. Konfigurierbare Judge-Prompts, automatisches Triggern auf neuen Traces, Score-Aggregation pro Dataset, A/B-Vergleich zwischen Prompt-Versionen. LangSmith hat das gleiche Konzept, eng an LangChain-Eval-Datentypen gebunden. Helicone ist hier leichter - mehr für einfache Score-Annotation als für ausgebaute Eval-Pipelines.

Kann ich von einem Tool auf ein anderes wechseln?

Ja, aber mit Aufwand. Traces sind nicht direkt zwischen den Plattformen portierbar. Wer über OpenTelemetry instrumentiert hat (Langfuse-Standard), kann den Endpunkt ändern und neue Traces fliessen woandershin - die alten bleiben in der Ursprungs-Plattform. Vor dem Wechsel: Wichtige Eval-Datasets und Prompt-Versionen exportieren (alle drei haben Export-APIs), neuen Tool-Setup parallel laufen lassen, dann umschalten.

Quellen

Langfuse - official documentation · 2026-05
Helicone - official documentation · 2026-05
LangSmith - official documentation · 2026-05
OpenTelemetry GenAI semantic conventions · 2026-04

PASSEND ZU IHREM STACK?

Sie brauchen LLM-Observability ohne DSG-Risiko? Wir setzen Langfuse self-hosted auf Hetzner oder im EU-Cloud-Tier auf - Setup inkl. Audit-Trail in 3-5 Tagen.

Erstgespräch buchen