HELICONE · TECH

Helicone: OSS-Observability für LLM-Calls mit EU-Hosting

Helicone ist ein Apache-2.0-Proxy plus Cloud (EU-Region Frankfurt) für LLM-Cost-Tracking, Caching und Tracing. Setup in unter zehn Minuten.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Was ist Helicone?

Helicone (helicone.ai) ist eine Observability-Plattform für LLM-Calls mit dem Schwerpunkt auf einfaches Setup und gutes Cost-Tracking. Die Software ist Apache-2.0-lizenziert (GitHub helicone/helicone, Stand Mai 2026 über 4.000 Sterne) und läuft entweder als Cloud-Dienst (Helicone Cloud mit EU-Region in Frankfurt) oder vollständig self-hosted (Docker-Compose oder Kubernetes).

Die Architektur ist Proxy-zentrisch. Statt eine SDK in die Anwendung zu integrieren, ändert man die LLM-API-Basis-URL: aus https://api.openai.com/v1 wird https://oai.helicone.ai/v1 (oder bei Self-Host https://helicone.intern.example/oai/v1). Alle weiteren Aufrufe gehen unverändert durch – Helicone fügt sich transparent in den Datenfluss ein, sammelt Metadaten und reicht den Request weiter. Das ist der entscheidende Unterschied zu SDK-basierten Lösungen wie Langfuse: Helicone braucht keine Code-Änderung im Anwendungs-Logik, nur eine Konfigurations-Änderung.

Unterstützt werden Stand Mai 2026 OpenAI, Anthropic, Mistral, Google (Gemini), Azure OpenAI, AWS Bedrock, Cohere, Together AI, Groq, Replicate, Perplexity und lokale Ollama-Instanzen. Jeder Upstream-Provider hat einen eigenen Sub-Domain-Endpoint (oai, anthropic, mistral usw.); die Authentifizierung erfolgt über zwei Header: den Helicone-Auth-Token und den unveränderten Provider-API-Key.

Der Funktionsumfang konzentriert sich auf vier Bausteine. Erstens Tracing: jeder Call wird mit Prompt, Antwort, Token, Latenz, Modell, Kosten geloggt. Zweitens Cost-Tracking: aggregierte Reports pro Mandant, Anwendung, Funktion, Modell. Drittens Caching: exakter Cache mit konfigurierbarem TTL, plus seit Q1 2026 semantisches Caching (Beta). Viertens Rate-Limits und Budget-Caps: pro Helicone-Auth-Token lassen sich Token- oder Cost-Budgets durchsetzen.

Für fairlane.systems-Mandate ist Helicone die richtige Wahl, wenn der Schwerpunkt auf Observability liegt und das Gateway-Routing simpel bleiben soll. Wer komplexe Modell-Routings, Guardrails und ein Prompt-Repository will, ist mit LiteLLM oder Portkey besser bedient.

Warum es für CH-Setups passt

Drei Eigenschaften machen Helicone für CH-Mandate attraktiv. Erstens: schneller Einstieg ohne Code-Änderung. Eine bestehende Anwendung mit OpenAI-Library wird in fünf Minuten umgestellt – nur die Basis-URL ändern, einen Helicone-Header hinzufügen, fertig. Das senkt die Schwelle zur Observability dramatisch. Wir haben Mandate gesehen, die Helicone an einem Mittwochnachmittag eingeführt haben und am Donnerstagmorgen erste Cost-Reports im Dashboard hatten.

Zweitens: EU-Hosting und Self-Host-Option. Helicone Cloud bietet eine Frankfurt-Region, in der alle Daten – Prompts, Antworten, Logs – ausschliesslich in der EU landen. Wer das nicht akzeptieren will, betreibt Helicone Self-Host auf Hetzner: Docker-Compose-Stack mit ClickHouse als Logging-Backend, Postgres für Metadaten, MinIO oder S3 für Prompt-Archive. Eine vollständige Self-Host-Installation mit HA und Backup läuft an einem Tag.

Drittens: Cost-Tracking pro Mandant out-of-the-box. Mit dem Header Helicone-Property-Client lassen sich Anfragen pro Mandant taggen; im Dashboard ist ein Cost-Report pro Mandant pro Modell drei Klicks weit. Für Treuhand-Setups, die LLM-Kosten an Mandanten weitergeben, ist das die richtige Abstraktion. Custom Properties (z. B. Helicone-Property-Department, Helicone-Property-Function) ermöglichen beliebige Dimensionen.

Der Audit-Trail ist eingeschränkt. Helicone liefert pro Request einen Log-Eintrag mit Timestamp, Modell, Token, Kosten, Latenz und einem Hash des Prompts; die Logs lassen sich nach ClickHouse exportieren. Für revisionsfeste Aufbewahrung unter Art. 957a OR braucht es eine WORM-Schicht hinter ClickHouse (Object-Lock auf S3, Append-Only-Storage auf Hetzner-Storage-Box). Das ist Implementierungs-Detail, kein konzeptionelles Hindernis.

Wie es funktioniert

Im Helicone-Dashboard erstellt man eine Organisation und einen API-Key (sk-helicone-...). Anwendungs-Anbindung in Python mit der OpenAI-Library:

import openai client = openai.OpenAI( api_key=os.environ["OPENAI_API_KEY"], base_url="https://oai.helicone.ai/v1", default_headers={ "Helicone-Auth": f"Bearer sk-helicone-...", "Helicone-Property-Client": "mandant-12", "Helicone-Property-Function": "rag-search", "Helicone-Cache-Enabled": "true", "Helicone-Cache-Bucket-Max-Size": "10" } ) resp = client.chat.completions.create(model="gpt-4o", messages=[...])

Die Helicone-Auth-Header authentifiziert die Anfrage gegen Helicone; die Property-Header taggen den Call für spätere Filterung; die Cache-Header aktivieren den exakten Cache mit einer maximalen Bucket-Grösse von 10 Antworten pro Prompt-Hash (für Antworten mit Temperatur > 0).

Für Self-Host läuft Helicone als Docker-Compose-Stack mit fünf Containern: helicone-worker (Cloudflare-Worker-äquivalent für Proxy-Logik), helicone-jawn (Backend-API), helicone-web (Dashboard), clickhouse (Logging), postgres (Metadaten). Eine typische Hetzner-Installation auf einem CCX22 (3 vCPU, 8 GB RAM, ca. CHF 25/Monat) bedient mehrere zehntausend Calls pro Tag. Die Konfiguration steht in einer .env-Datei mit Endpoint-URLs und ClickHouse-Credentials.

Die Cost-Berechnung erfolgt auf Basis aktueller Provider-Preislisten, die Helicone als Tabelle pflegt. Bei Eingang einer Antwort liest Helicone die Token-Counts aus dem usage-Feld und multipliziert mit dem hinterlegten Preis pro 1.000 Input-/Output-Tokens. Die berechneten Kosten landen pro Anfrage in ClickHouse und sind im Dashboard aggregierbar nach beliebigen Custom-Properties.

Seit Q1 2026 unterstützt Helicone semantisches Caching als Beta-Feature. Statt nur exakte Prompt-Treffer zu cachen, berechnet Helicone Embeddings (mit einem konfigurierbaren Modell, z. B. text-embedding-3-small) und gibt bei Cosine-Ähnlichkeit über Schwellwert (default 0.95) die gecachte Antwort zurück. Das senkt Kosten bei FAQ-Setups und kundenspezifischen Templates spürbar.

Helicone-Setup in 5 Schritten

01Helicone Cloud EU-Region eröffnen oder Self-Host-Docker-Compose auf Hetzner deployen, API-Key (sk-helicone-...) generieren.
02In bestehender Anwendung Basis-URL auf https://oai.helicone.ai/v1 setzen (oder Self-Host-URL) und Helicone-Auth-Header ergänzen.
03Property-Header pro Mandant/Anwendung/Funktion definieren: Helicone-Property-Client, -Function, -Department.
04Cache-Header für FAQ-/Template-Anfragen aktivieren: Helicone-Cache-Enabled true, TTL nach Bedarf, optional semantischer Cache.
05Budget-Caps pro API-Key konfigurieren (z. B. USD 100/Monat für Pilot-Mandant), Alarme via Slack/Email bei 80% Verbrauch.

Wann Helicone passt

Erstens, wenn schnelles Cost-Tracking ohne Code-Refactor gefragt ist. Bestehende Anwendung mit OpenAI- oder Anthropic-Library, Basis-URL ändern, fertig. Das eignet sich besonders für Bestands-Setups, die nachträglich Observability bekommen sollen.

Zweitens, wenn das primäre Ziel Observability statt Routing ist. Helicone macht Routing minimal – der Header bestimmt den Provider, weitere Modell-Logik liegt in der Anwendung. Wer Modell-Routing nach Datenschutz-Klasse oder Fallback-Ketten braucht, sollte zusätzlich LiteLLM einsetzen (LiteLLM als Routing-Schicht, Helicone als Observability-Layer).

Drittens für Multi-Tenant-Cost-Reporting. Die Property-Header (Helicone-Property-Client, Helicone-Property-Function) ermöglichen eine beliebige Dimensionierung des Cost-Reports. Treuhand-Setups, die LLM-Kosten pro Mandant abrechnen, finden hier eine direkte Abbildung.

Viertens für EU-only-Setups. Helicone Cloud EU-Region oder Self-Host auf CH/EU-Hardware deckt die revDSG-Drittland-Vermeidung ab. Im Vergleich zu Cloud-only-Tools wie LangSmith oder HoneyHive ist Helicone hier deutlich besser positioniert.

Fünftens für kleine bis mittlere Setups mit knappem Budget. Helicone Cloud Free-Tier (bis 100.000 Requests/Monat) ist gratis, Self-Host auf Hetzner kostet CHF 25-50/Monat Server. Damit ist Helicone preislich attraktiv für KMU und Treuhand-Büro.

Wann NICHT

Erstens, wenn komplexe Modell-Routings mit Fallback-Ketten zentral sind. Helicone macht Routing minimal – der Provider steht im Endpoint-Sub-Domain. Für Routing nach Datenschutz-Klasse, automatischen Fallback zwischen Anbietern oder Latenz-basierte Verteilung braucht es LiteLLM oder Portkey.

Zweitens, wenn Prompt-Versionierung mit A-B-Tests und Eval-Sets eine harte Anforderung ist. Helicone bietet basale Prompt-Speicherung, aber kein vollausgebautes Prompt-Repository wie Langfuse oder Portkey. Wer 30+ Prompts in Produktion versioniert verwaltet, sollte Langfuse parallel betreiben.

Drittens, wenn über das LLM-Tracking hinaus auch Agent-Tracing benötigt wird. Wenn ein Agent 24 Tool-Calls mit drei verschachtelten Sub-Agenten ausführt, will man diese Aufrufkette als Tree sehen – das ist die Domäne von Langfuse oder LangSmith. Helicone zeichnet jeden LLM-Call einzeln auf, ohne den Agent-Kontext zu rekonstruieren.

Viertens, wenn Guardrails (PII-Filter, Toxicity, Prompt-Injection-Erkennung) zentral gewünscht sind. Helicone hat keine eingebauten Guardrails. Wer PII vor dem LLM-Call maskieren oder Prompt-Injection blockieren will, braucht Portkey oder eine eigene Filter-Schicht.

Fünftens bei sehr hohem Volumen ohne Self-Host-Bereitschaft. Helicone Cloud Pro skaliert bis einige Millionen Requests/Monat angenehm; daruber lohnt die Self-Host-Variante mit dedizierter Hardware. Wer beides nicht möchte und auf eine vollständig managed Lösung Wert legt, ist mit Portkey EU-Region besser bedient.

Vor- und Nachteile

STÄRKEN

Setup in unter 10 Minuten – nur Basis-URL und Auth-Header, keine SDK-Änderung
Apache-2.0-Lizenz mit Self-Host-Option auf Docker-Compose oder Kubernetes
EU-Region Frankfurt in Cloud-Variante plus voll-self-hostbar in CH/EU
Pro-Mandant-Cost-Tracking via Custom-Property-Header out-of-the-box

SCHWÄCHEN

Minimales Routing – komplexe Fallback-Ketten brauchen einen zusätzlichen Gateway (LiteLLM)
Kein vollausgebautes Prompt-Repository mit A-B-Tests und Eval-Sets
Keine eingebauten Guardrails (PII-Filter, Toxicity, Prompt-Injection-Detection)
Semantischer Cache noch Beta-Status (Stand Mai 2026)

Häufige Fragen

Wie unterscheidet sich Helicone von Langfuse?

Helicone ist Proxy-basiert (Basis-URL ändern), Langfuse SDK-basiert (Code-Wrapper). Helicone schneller im Setup, weniger Kontrolle über Trace-Detailtiefe. Langfuse besser für Agent-Tracing und Prompt-Versionierung, mehr Setup-Aufwand. Faustregel: einfaches Cost-Tracking ohne Agent-Logik -> Helicone; tiefes Tracing mit Prompt-Mgmt und Eval-Sets -> Langfuse. Beide laufen parallel ohne Konflikt.

Wie hoch ist der Latenz-Overhead?

Helicone Cloud EU (Frankfurt) liefert von Zürich aus typisch 15-25 ms Overhead, plus die Round-Trip-Zeit zum Upstream-LLM. Self-Host im gleichen Datacenter wie die Anwendung liegt bei 3-8 ms. Cache-Hit liefert die Antwort in unter 10 ms – bei Cache-Miss-Rate von 30% liegt die effektive Latenz unter direkter Provider-Anbindung.

Funktioniert Helicone hinter einem LiteLLM-Gateway?

Ja. Eine typische Konstellation: Anwendung -> LiteLLM (Modell-Routing, Virtual Keys) -> Helicone (Observability) -> Provider. LiteLLM unterstützt Helicone als Callback-Hook; jeder Call wird zusätzlich zu Helicone gespiegelt. Damit hat man Routing in LiteLLM und Observability in Helicone – beide Tools spielen ihre Stärken aus.

Kann ich Helicone-Logs in ClickHouse oder Loki exportieren?

Self-Host: ClickHouse ist Helicone-internes Logging-Backend, direkter SQL-Zugriff möglich (port 9000). Cloud Pro-Tier hat eine Logpush-Funktion für S3-kompatibles Storage und Webhooks für externe Pipelines. Direkter Loki-Export ist nicht eingebaut, lässt sich aber mit Fluent Bit oder Vector als Side-Car nachrüsten.

Quellen

Helicone Documentation – proxy setup, headers, properties, caching · 2026-05
Helicone GitHub repository – Apache-2.0, self-host instructions · 2026-05
Helicone Pricing – Cloud Free, Pro, Enterprise plus EU region · 2026-05
Helicone Semantic Cache Beta announcement · 2026-02

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen