CLOUDFLARE AI GATEWAY · TECH

Cloudflare AI Gateway: Edge-Proxy für OpenAI, Anthropic, Workers AI

Cloudflare AI Gateway läuft auf Cloudflare-Edge, ist im Workers-Plan kostenlos und bündelt OpenAI, Anthropic, Mistral, Replicate und Workers AI hinter einer API.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Was ist Cloudflare AI Gateway?

Cloudflare AI Gateway (cloudflare.com/ai-gateway) ist ein Cloud-only-Proxy, der auf der Cloudflare-Edge läuft. Das Produkt wurde 2023 angekündigt und ist seit 2024 in der GA-Phase. Stand Mai 2026 unterstützt es als Upstream-Provider: OpenAI, Anthropic, Mistral AI, Replicate, Cohere, Perplexity, Google AI Studio, Groq, DeepSeek, Workers AI (Cloudflare-eigene Inferenz), Azure OpenAI und Amazon Bedrock. Jede Anfrage geht über einen URL der Form https://gateway.ai.cloudflare.com/v1/{account_id}/{gateway_id}/openai/v1/chat/completions und wird auf dem nächsten Cloudflare-PoP zum Upstream geroutet.

Das Geschäftsmodell ist eng in den Cloudflare-Stack verzahnt. Bis 100.000 Requests pro Tag ist das Gateway im Workers-Free-Plan kostenlos; daruber zählen Requests gegen die Workers-Paid-Quote (USD 5/Monat für 10 Mio. Requests). Eine separate AI-Gateway-Lizenz gibt es nicht – wer den Workers-Plan hat, hat das AI Gateway. Das macht den Einstieg radikal einfach für Setups, die ohnehin auf Cloudflare laufen.

Der Funktionsumfang ist auf vier Bausteine fokussiert. Erstens Caching: jeder Request kann mit einem cf-aig-cache-Header markiert werden und wird auf Cloudflare-KV oder D1 gecacht; ein zweiter identischer Request bekommt die Antwort in unter 10 ms. Zweitens Rate-Limiting: pro Gateway und pro API-Token lassen sich Requests pro Minute/Stunde/Tag begrenzen. Drittens Analytics: das Dashboard zeigt pro Modell, pro Provider und pro Anwendung Requests, Token, Kosten, Cache-Hit-Rate, Fehler. Viertens Logging: Requests und Antworten werden bis zu 30 Tage gespeichert (Free) oder via Logpush in eigene Object-Storage (R2, S3) exportiert.

Für fairlane.systems ist Cloudflare AI Gateway primär in zwei Setups relevant: erstens für Anwendungen, die ohnehin auf Cloudflare Workers oder Pages laufen und tiefen Edge-Cache nutzen sollen; zweitens als Cost-Tracking-Layer ohne Self-Host-Aufwand für Setups, in denen ein Self-Host-Gateway nicht gewünscht ist. Für reine CH-DSG-Strict-Setups ist die Edge-Architektur nicht optimal, weil das Routing global verteilt ist.

Warum es relevant ist

Drei Eigenschaften erklären die Bedeutung. Erstens: Null-Aufwand-Einstieg. Wer eine Cloudflare-Account hat, aktiviert das AI Gateway in 30 Sekunden im Dashboard, kopiert die Endpoint-URL und ersetzt die Provider-Basis-URL in seiner Anwendung. Kein neuer Server, keine YAML-Konfiguration, keine Docker-Compose-Datei. Das senkt die Einstiegshürde auf ein Minimum – für Prototypen und kleine Pilot-Projekte ist das der schnellste Weg zu Cost-Tracking und Caching.

Zweitens: Edge-Latenz. Cloudflare betreibt PoPs in 300+ Städten, darunter Zürich, Genf, Basel. Aus der Schweiz erreicht man den nächsten Cloudflare-PoP typisch in unter 5 ms, das Gateway-Routing selbst kostet 2-8 ms. In Summe ist Cloudflare das latenz-tiefste der gemanagten Gateways. Für Voice-Bots und Streaming-Anwendungen, die ohnehin in der Cloudflare-Welt leben (Workers AI, Stream, Calls), ist das ein klarer Vorteil.

Drittens: Cache-Hit-Effekt. Bei wiederkehrenden Anfragen (etwa FAQ-Antworten oder öffentliche Recherche-Templates) liefert der Cache Antworten in unter 10 ms und ohne Provider-Token-Kosten. Ein FAQ-Chatbot mit 30% Cache-Hit-Rate senkt die LLM-Kosten um 30% und die p95-Latenz um über 50% – eine sehr wirkungsvolle Optimierung mit minimalem Aufwand.

Unter CH-DSG ist Cloudflare AI Gateway differenziert zu bewerten. Cloudflare bietet zwar einen EU-Region-Toggle (Datenverarbeitung nur in EU-PoPs), aber das Routing zum Upstream-LLM läuft je nach Modell weiter über US-Server (z. B. OpenAI). Das Gateway selbst speichert Logs nach Wahl in EU oder global. Für Mandantendaten mit Berufsgeheimnis ist Cloudflare AI Gateway daher nur dann passend, wenn der Upstream ein EU-Modell ist (Mistral La Plateforme, Azure OpenAI EU) und der EU-Toggle aktiv ist. Für offene Recherche-Setups ist die Lösung praktikabel.

Wie es funktioniert

Im Cloudflare-Dashboard wird unter AI > AI Gateway ein neues Gateway angelegt; dabei vergibt man eine ID (z. B. fairlane-prod) und entscheidet über Logging (an/aus) und Region (US/EU/Global). Das Gateway hat eine URL der Form https://gateway.ai.cloudflare.com/v1/{account_id}/fairlane-prod. Hinter dieser URL liegen Sub-Pfade pro Upstream-Provider: /openai/v1, /anthropic/v1, /mistral/v1, /workers-ai/.

Die Anwendungs-Anbindung folgt dem OpenAI-Schema, nur die Basis-URL wechselt:

import openai client = openai.OpenAI( api_key=os.environ["OPENAI_API_KEY"], base_url="https://gateway.ai.cloudflare.com/v1/{account_id}/fairlane-prod/openai/v1" ) resp = client.chat.completions.create( model="gpt-4o", messages=[{"role":"user","content":"..."}], extra_headers={"cf-aig-cache-ttl": "3600", "cf-aig-metadata": "{\"user\": \"client-12\"}"} )

Der Header cf-aig-cache-ttl markiert die Antwort als cacheable für eine Stunde; der cf-aig-metadata-Header hängt frei wählbare Metadaten an, die im Analytics-Dashboard nach Mandant/Anwendung/Funktion filterbar sind. Caching ist dabei exakt (nicht semantisch) – gleicher Prompt-Text plus gleiche Parameter ergeben einen Cache-Hit.

Fallback-Routing ist seit Version 2025-Q4 als Experiment-Feature verfügbar: ein Gateway kann eine Fallback-Liste von Modellen haben (z. B. anthropic/claude-opus-4.7 -> openai/gpt-4o -> mistral/mistral-large-2411); wenn das primäre Modell 5xx liefert oder Timeout hat, springt das Gateway auf das nächste. Diese Funktion ist jünger als das äquivalente Feature in LiteLLM oder Portkey und stand Mai 2026 nicht so flexibel.

Logging-Daten gehen bis 30 Tage in den Cloudflare-Speicher (gleicher Plan); für längere Aufbewahrung wird Logpush aktiviert – alle Request- und Response-Bodies werden in R2 (Cloudflare-Object-Storage) oder ein externes S3-Bucket exportiert. Für Art. 957a OR-Audit-Trails ist Logpush plus R2 mit Versioning und Object-Lock eine valide Konfiguration.

Cloudflare-AI-Gateway-Setup in 5 Schritten

01Im Cloudflare-Dashboard unter AI > AI Gateway ein Gateway anlegen, Region EU, Logging aktiv, Retention 30 Tage.
02Provider-Sub-Pfade prüfen (/openai/v1, /anthropic/v1, /mistral/v1) und Endpoint-URL in die Anwendung kopieren.
03Caching-Header (cf-aig-cache-ttl) für FAQ- und Standard-Anfragen aktivieren, dynamische Anfragen ohne Cache.
04Metadaten-Header (cf-aig-metadata) pro Mandant/Anwendung setzen – für Analytics-Filter im Dashboard.
05Logpush nach R2 aktivieren für Audit-Trail, Object-Lock im R2-Bucket für WORM-Compliance einrichten.

Wann Cloudflare AI Gateway passt

Erstens für Anwendungen, die ohnehin auf Cloudflare laufen. Wer Workers, Pages, R2 oder D1 einsetzt, hat das Gateway praktisch geschenkt – keine zusätzliche Infrastruktur, keine zusätzliche Lizenz. Die Integration ist tiefer als bei externen Gateways: Workers-Bindings ermöglichen den Aufruf direkt aus dem Worker-Code, ohne externe HTTP-Anfrage.

Zweitens für Setups mit hohem Cache-Anteil. FAQ-Chatbots, öffentliche Recherche-Endpoints, Tutorial-Antworten, vorkonfigurierte Vorlagen – alles, was wiederholbare Prompts hat, profitiert vom Cache. 20-50% Hit-Rate sind in der Praxis erreichbar und sparen direkt Token-Kosten.

Drittens für Multi-Provider-Cost-Tracking ohne Self-Host. Wer Cost-Visibilität über OpenAI, Anthropic und Mistral haben will, ohne einen LiteLLM-Server zu betreiben, kann das Cloudflare-Gateway als Dashboard nutzen. Das Analytics-UI ist eingebaut, Logpush exportiert die Daten in R2 oder S3.

Viertens für Edge-nahe Voice-Bots und Streaming-Anwendungen. Cloudflare Stream und Cloudflare Calls integrieren sich tief mit AI Gateway; ein Voice-Bot, der auf Workers AI läuft und auf gateway.ai.cloudflare.com routet, hat End-to-End-Latenz im einstelligen ms-Bereich (lokale Inferenz auf Cloudflare-Edge).

Fünftens für Pilot- und Testphasen mit geringem Volumen. Die Free-Tier mit 100.000 Requests/Tag deckt fast jedes Pilot-Projekt komplett ab. Erst bei skalierender Production-Last lohnt der Vergleich mit Self-Host-Alternativen.

Wann NICHT

Erstens bei harter Self-Host-Anforderung. Cloudflare AI Gateway läuft ausschliesslich auf Cloudflare-Infrastruktur – es gibt keinen Self-Host-Modus, kein On-Premises-Deployment. Wer alle LLM-Anfragen auf eigener Hardware halten muss (z. B. wegen strengster Berufsgeheimnis-Anforderungen oder öffentlicher Hand), kommt mit LiteLLM, Kong oder Bifrost weiter.

Zweitens bei Mandantendaten ohne EU-Routing-Garantie. Standardmässig läuft Cloudflare AI Gateway global verteilt. Der EU-Region-Toggle schränkt die Cloudflare-Edge ein, aber das Upstream-Routing (OpenAI USA, Anthropic USA) bleibt global. Wer Mandantendaten nur an EU-Provider senden darf, braucht eine explizite Modell-Whitelist – die Cloudflare-Gateway leistet nicht in dieser Tiefe.

Drittens, wenn semantischer Cache statt exaktem Cache gewünscht ist. Cloudflare cacht nur identische Prompts. Wer ähnliche Anfragen mit gleichem Inhalt aber leicht abweichender Formulierung als Treffer werten will (typisch für FAQ-Chatbots), braucht Portkey, Helicone oder eine eigene Redis+Embedding-Lösung.

Viertens bei tieferen Compliance-Anforderungen mit Prompt-Versionierung, Eval-Sets und Audit-Trail-Hash-Chain. Cloudflare AI Gateway ist auf Operations und Cost optimiert, nicht auf Compliance-Workflows. Langfuse oder Portkey decken diesen Bereich deutlich besser ab.

Fünftens, wenn das Setup vollständig ausserhalb von Cloudflare läuft. Eine on-premises-Pipeline auf Hetzner-Dedicated mit Mistral-Self-host und Postgres profitiert nicht vom Cloudflare-Edge – die Latenz wäre sogar höher als bei einem lokalen Gateway.

Vor- und Nachteile

STÄRKEN

Null-Aufwand-Setup im Cloudflare-Dashboard, im Workers-Plan kostenlos bis 100k Requests/Tag
Edge-Latenz unter 10 ms aus der Schweiz dank Cloudflare-PoPs in Zürich/Genf
Eingebauter Cache, Rate-Limit, Analytics und Logpush ohne Self-Host-Aufwand
Tiefe Integration mit Workers, Workers AI, R2, D1 und Stream

SCHWÄCHEN

Kein Self-Host und kein On-Premises-Deployment – Cloud-only auf Cloudflare-Infrastruktur
Cache exakt (Prompt-Hash), kein semantisches Caching
Fallback-Routing jünger und weniger flexibel als bei LiteLLM oder Portkey
Kein Prompt-Repository mit Versionierung und A-B-Tests

Häufige Fragen

Was kostet Cloudflare AI Gateway?

Bis 100.000 Requests/Tag im Workers-Free-Plan kostenlos. Daruber im Workers-Paid-Plan (USD 5/Monat) sind 10 Mio. Requests/Monat inklusive, jeder weitere Request kostet USD 0.30 pro Million. Logpush nach R2 ist zusätzlich (USD 0.05 pro Million Requests für Logpush, plus R2-Storage). Provider-Token-Kosten laufen unverändert beim jeweiligen LLM-Provider – Cloudflare nimmt keinen Markup.

Wie sieht der Cache-Hit-Workflow technisch aus?

Cloudflare hashed Prompt-Text, Modell-Name und Parameter zu einem Cache-Key. Bei aktivem cf-aig-cache-ttl-Header speichert Cloudflare die Antwort in KV oder Cache-API; ein Folge-Request mit identischem Hash bekommt die gecachte Antwort in unter 10 ms zurück, ohne Upstream-Aufruf. Bei dynamischen Anfragen (z. B. Chat mit individuellen Eingaben) ist der Hit-Anteil typisch unter 5%; bei FAQ und Standard-Templates erreicht er 20-50%.

Erlaubt Cloudflare AI Gateway EU-only-Routing?

Cloudflare bietet einen Region-Toggle, der das Gateway-Routing nur über EU-PoPs laufen lässt (Frankfurt, Amsterdam, Paris, Stockholm). Das Upstream-Routing – etwa zu OpenAI USA – bleibt global. Eine vollständige EU-Garantie braucht ausserdem einen Upstream-Provider in EU (Mistral La Plateforme, Azure OpenAI Frankfurt, Anthropic Claude on AWS Bedrock Frankfurt). Cloudflare übernimmt die Region-Compliance für das Gateway, nicht für den Upstream.

Wie integriert Cloudflare AI Gateway mit Workers AI?

Workers AI ist Cloudflares eigene Inferenz-Plattform (Llama 3.3, Mistral 7B, Stable Diffusion, Whisper etc.). Der AI-Gateway leitet Anfragen an /workers-ai/ direkt an die Cloudflare-Inferenz weiter; Token-Kosten gehen über das Workers-AI-Budget, das Gateway loggt Requests und cacht Antworten. Ein Voice-Bot mit Whisper-Transkript plus Llama-3.3-Antwort plus TTS in einem Worker läuft End-to-End mit unter 200 ms Latenz.

Quellen

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen