ROUTING · AI-KONZEPT
Multi-LLM-Routing: Welches Modell wann, für wieviel
Routing-Regeln nach Sensitivität, Kosten, Latenz und Qualität. Fallback-Chain, semantisches Caching, Cost-Observability. Mai 2026 Pricing.
Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05
Was ist Multi-LLM-Routing?
Multi-LLM-Routing bezeichnet die Praxis, für jede einzelne Anfrage das passendste Sprachmodell auszuwählen – statt alles durch ein einziges Modell zu schicken. Die Idee: ein einfaches E-Mail-Klassifikat braucht kein 15-USD-pro-Million-Token-Modell wie Claude Opus 4 oder GPT-4o. Mistral 7B oder GPT-4o-mini machen dieselbe Klassifikation für 5–10% des Preises bei vergleichbarer Genauigkeit. Komplexe juristische Reasoning-Aufgaben dagegen profitieren von einem Top-Modell.
Im Mai 2026 hat sich die Modelllandschaft fast vollständig differenziert. OpenAI, Anthropic, Google, Mistral, Cohere, Meta und DeepSeek bieten jeweils mehrere Stufen – von winzigen Edge-Modellen (Llama 3.2 1B, Phi-4-mini) bis zu Reasoning-Spezialisten (o3, Claude Opus 4, Gemini 2.5 Pro). Wer alle Anfragen an dasselbe Modell schickt, zahlt 5- bis 20-fach mehr als nötig.
Die Operationalisierung passiert über einen LLM-Router. Bewährte Lösung: LiteLLM (Open-Source, Python, OpenAI-kompatible API, eingebauter Router mit Cost-Tracking, Caching, Fallback). Alternativ: OpenRouter (gehostet, weniger Kontrolle, schneller eingerichtet). Beide kapseln die Provider-spezifischen APIs hinter einer einzigen Schnittstelle.
Warum es wichtig ist
Drei Gründe: Kosten, Datenresidenz, Verfügbarkeit.
Kosten (Stand Mai 2026, USD pro 1M Tokens Input/Output, Quelle: jeweilige Provider-Pricing-Seiten):
- GPT-4o: 2.50 / 10.00 - GPT-4o-mini: 0.15 / 0.60 - Claude Opus 4: 15.00 / 75.00 - Claude Sonnet 4: 3.00 / 15.00 - Claude Haiku 4: 0.25 / 1.25 - Gemini 2.5 Pro: 1.25 / 5.00 - Mistral Large 2: 2.00 / 6.00 - Mistral Small 3: 0.20 / 0.60 - DeepSeek V3: 0.27 / 1.10
Für Klassifikation und Extraktion (80% des Volumens in einem Treuhand-KMU) ist GPT-4o-mini oder Mistral Small mit 0.15–0.20 USD/1M die richtige Wahl. Für komplexe Mandantenfragen GPT-4o oder Claude Sonnet 4 mit 2.50–3.00 USD/1M. Nur für rechtliche Reasoning-Fälle ohne Latenz-Druck Claude Opus 4 oder o3. Das Routing-Setup spart typischerweise 60–80% gegenüber „alles durch das Top-Modell".
Datenresidenz: nicht jede Anfrage darf überall verarbeitet werden. Mandanten-Daten unter StGB Art. 321 sollten nicht zu Provider gehen, die in den USA hosten ohne Sicherheits-Adequatheit. Mistral (EU-gehostet, Paris) und lokale Modelle (Ollama mit Llama 3.1 70B) sind Pflicht-Optionen für sensitive Daten. Ein Router erlaubt die Regel „PII → Mistral EU; nicht-sensitiv → GPT-4o-mini".
Verfügbarkeit: jedes Provider-API fällt gelegentlich aus. Anthropic hatte 2024 mehrere mehrstündige Outages. Eine Fallback-Chain (primär: Claude Sonnet 4, sekundär: GPT-4o, tertiär: lokal) macht das KI-System produktionsstabil.
Routing-Regeln in der Praxis
Ein praxistauglicher Router entscheidet auf vier Achsen:
Sensitivitäts-Routing: Ein Klassifikator (oder ein Tag im API-Call) markiert die Sensitivität. Drei Stufen reichen meist: öffentlich, intern, vertraulich. Regel: vertraulich → EU oder lokal (Mistral, Ollama). Intern → EU bevorzugt. Öffentlich → Kosten-optimaler Anbieter.
Komplexitäts-Routing: Anhand der Aufgabe wird das Modell-Tier gewählt. Klassifikation/Extraktion → Mini-Tier (GPT-4o-mini, Haiku, Mistral Small). Standard-Q&A → Mid-Tier (GPT-4o, Sonnet, Mistral Large). Reasoning, Rechts-Analyse, Code-Reviews → Top-Tier (Opus, o3). LiteLLM unterstützt die Klassifizierung via Tag im API-Call oder per Heuristik (Prompt-Länge, Schlüsselwörter).
Latenz-Routing: Echtzeit-Anfragen (Chatbot) → schnelle Modelle (Haiku, GPT-4o-mini, Gemini Flash). Batch-Jobs (Nachts) → langsamere, billigere Modelle (DeepSeek V3, lokale Llama 70B). Reasoning-Modelle wie o3 brauchen oft 10–30 Sekunden – für User-facing-Chat ungeeignet, für asynchrone Reports perfekt.
Fallback-Chain: drei bis vier Modelle in einer Reihe. LiteLLM probiert primär, fällt bei Timeout/500-Error/Rate-Limit auf sekundär, dann tertiär. Wichtig: die Reihe muss kompatibel sein – gleicher Output-Format, vergleichbares Kontext-Window. Eine sinnvolle Treuhand-Chain: Claude Sonnet 4 (primär) → GPT-4o (sekundär) → Mistral Large 2 (tertiär, EU-Hosted, Notfall).
Semantisches Caching: dieselben oder semantisch ähnliche Anfragen werden gecachet. Statt zweimal zu fragen „Was kostet eine GmbH-Gründung in Zug?", liefert der Cache die zweite Antwort sofort. Tools: Redis-Backend mit Embedding-Vergleich (Schwelle z.B. 0.95 cosine), oder GPTCache von Zilliz. In typischen Setups sinkt das LLM-Aufrufvolumen um 20–40%. Vorsicht: gecachet wird nur, wo es darf – keine Mandanten-spezifischen Antworten ohne Mandanten-Schlüssel im Cache-Key.
Cost-Observability: ohne Tracking ist Routing blind. Langfuse (open-source, EU-Hosting möglich), Helicone (US-gehostet) oder LiteLLM-internes Logging tracken pro Request: Modell, Tokens, Latenz, Kosten, Erfolg/Fehler. Monatliche Reports zeigen, ob die Routing-Regeln stimmen oder ob 80% des Traffics auf das teure Modell gehen, weil die Klassifikation versagt.
Routing-Setup in 6 Schritten
- 01Aktuellen Traffic vermessen: ein Monat Tokens pro Use-Case, Antwort-Qualität, Latenz, Datensensitivität. Ohne Daten ist Routing-Design Aberglaube.
- 02Modell-Matrix erstellen: pro Use-Case das geeignete Tier (Mini/Mid/Top) und den Datenort (US/EU/lokal) festlegen. 3–5 Modelle reichen – mehr macht das Setup brückig.
- 03LiteLLM aufsetzen (Docker-Container, OpenAI-kompatible API). Provider-Keys als Environment-Variablen, niemals im Code.
- 04Routing-Regeln definieren: nach Tag (`metadata.sensitivity = confidential` → mistral-eu), nach Modell-Tier (`metadata.task = classify` → gpt-4o-mini), Fallback-Chain pro Tier.
- 05Semantisches Caching aktivieren mit Redis-Backend, Schwelle 0.95 cosine, TTL nach Sensitivität (öffentlich 30 Tage, intern 7 Tage, vertraulich kein Cache).
- 06Observability via Langfuse oder LiteLLM-Logs: monatliches Kosten-Dashboard pro Use-Case und Modell. Bei Drift (>20% Abweichung) Routing-Regeln anpassen.
Wann Multi-LLM-Routing einsetzen
Sobald das KI-System mehr als ungefähr CHF 200/Monat an LLM-Kosten verursacht oder Mandanten-Daten verarbeitet, ist Routing wirtschaftlich. Bei monatlich CHF 100 Token-Kosten amortisiert sich Routing-Setup (1–3 Tage) erst in 6 Monaten; über CHF 500 in 2 Monaten. Bei sensitiven Daten ist es ohnehin Pflicht, nicht Option.
Konkrete Schweizer KMU-Fälle: Treuhand mit Mandanten-Chatbot (GPT-4o-mini für FAQ, Sonnet 4 für komplexe Fragen, Mistral EU für Steuerakten-Auskunft) – typische monatliche Einsparung 200–600 CHF gegenüber „alles GPT-4o". Anwaltsbüro mit Vertragsanalyse (Opus 4 für Klausel-Review, Sonnet für Standardverträge, lokal Llama 70B für Mandantenkorrespondenz unter Berufsgeheimnis). Versicherungsmakler mit Schadensfall-Klassifikation (Mistral Small für 90% der Tickets, GPT-4o für eskalierte Fälle).
Wann Routing überzogen ist
Bei sehr kleinen Setups (unter 50.000 Tokens pro Monat) bleibt die Ersparnis unter 5 CHF – der Setup-Aufwand ist nicht gerechtfertigt. Wenn das KI-System nur einen einzigen, klar definierten Use-Case hat (z.B. nur Beleg-Extraktion), ist ein einziges geeignetes Modell richtig – Routing wäre Overengineering.
Auch problematisch: Routing zwischen Modellen mit deutlich unterschiedlichem Verhalten (z.B. Claude vs. Llama). Die Antworten variieren in Tonfall, Refusal-Verhalten, Format. Wer den User-Eindruck konsistent halten will, sollte beim Routing in derselben Familie bleiben (z.B. Haiku/Sonnet/Opus von Anthropic) oder eine Output-Normalisierungs-Schicht einbauen. Sonst sieht der Mandant unterschiedliche „Persönlichkeiten" je nach Frage.
Vor- und Nachteile
STÄRKEN
- Typisch 50–70% Kostensenkung gegenüber „alles durch das Top-Modell"
- Datenresidenz pro Anfrage steuerbar (PII nach EU, öffentlich nach US)
- Ausfallsicherheit via Fallback-Chain – System überlebt Provider-Outages
- Semantisches Caching senkt Aufrufvolumen um 20–40% bei wiederkehrenden Fragen
SCHWÄCHEN
- Setup-Aufwand 1–3 Tage; lohnt erst ab ungefähr CHF 200/Monat LLM-Kosten
- Mehrere Provider = mehrere Verträge, mehrere Rechnungen, mehrere SLAs
- Inkonsistentes Verhalten zwischen Modell-Familien (Tonfall, Refusal, Format)
- Routing-Klassifikator kann selbst falsch liegen und teuren Traffic ins teure Modell schicken
Häufige Fragen
Wieviel spart Routing wirklich?
Bei einem typischen Treuhand-KMU mit gemischtem Traffic (60% Klassifikation/Extraktion, 30% Q&A, 10% Reasoning) sinken die LLM-Kosten von rund CHF 800/Monat auf CHF 200–300/Monat bei gleichbleibender Qualität. Semantisches Caching kommt mit 20–40% Volumen-Reduktion obendrauf. Konservative Annahme: 60% Ersparnis nach 2–3 Monaten Tuning der Routing-Regeln.
Welcher Router ist 2026 Standard?
LiteLLM ist die meistgenutzte Open-Source-Lösung – OpenAI-kompatible API, Routing, Caching, Cost-Tracking, Fallback eingebaut. Alternativen: OpenRouter (gehostet, weniger Kontrolle), Portkey (gehostet, mehr Enterprise-Features), Helicone (hauptsächlich Observability). Für CH-KMU mit revDSG-Anspruch ist LiteLLM self-hosted auf Hetzner die Standard-Wahl: voll unter eigener Kontrolle, keine Daten an Dritte ausser an die Provider, die der Router ohnehin aufruft.
Ist semantisches Caching DSGVO-konform?
Bedingt. Der Cache enthält Anfragen und Antworten – wenn dort personenbezogene Daten landen, muss der Cache wie jedes andere Datenlager behandelt werden: Zweckbindung, Löschungsfristen, Zugangskontrolle, Auftragsverarbeitung dokumentiert. Praktisch: Cache pro Mandant getrennt (Mandanten-ID im Cache-Key), TTL kurz (max. 7 Tage für interne Daten, kein Cache für Berufsgeheimnis-relevante Antworten), Audit-Log aller Cache-Hits. Mit diesen Massnahmen ist Caching unter revDSG/DSGVO sauber möglich.
Was passiert bei einem Provider-Outage?
Die Fallback-Chain springt ein. LiteLLM erkennt 500er, Timeouts und Rate-Limits und fällt automatisch auf das nächste Modell. Voraussetzung: die Modelle in der Chain sind kompatibel (gleiches Output-Format, kompatibles Kontext-Window). Empfohlene Konfiguration für CH-Treuhand: primär Claude Sonnet 4 (US-gehostet), sekundär GPT-4o (US-gehostet), tertiär Mistral Large 2 (EU-gehostet). Damit überlebt das System sogar einen kompletten US-Cloud-Ausfall.
Verwandte Themen
Quellen
- LiteLLM – Router & Proxy Documentation · 2026-04
- Hu et al., RouteLLM: Learning to Route LLMs with Preference Data (arXiv) · 2024-06
- Langfuse – Cost & Usage Tracking Docs · 2026-03
- OpenAI – Models & Pricing · 2026-05
- Anthropic – Claude Pricing · 2026-05
PASSEND ZU IHREM STACK?