fairlane.systems

COHERE RERANK · TECH

Cohere Rerank: Industrie-Standard für RAG-Re-Ranking

Cohere rerank-multilingual-v3.0 ist Mai 2026 der etablierte API-Reranker für RAG-Pipelines. USD 2 pro 1k Queries, EU-Hosting via AWS Bedrock Frankfurt.

Recherche & Faktencheck: · Stand: 2026-05

Was ist Cohere Rerank?

Cohere Rerank ist die Reranker-API des kanadisch-amerikanischen KI-Unternehmens Cohere Inc., gegründet 2019 in Toronto von ehemaligen Google-Brain-Forschern um Aidan Gomez. Cohere positioniert sich seit Jahren explizit als Enterprise-fokussierter LLM-Provider; das Rerank-Produkt war im Markt einer der ersten kommerziell verfügbaren Cross-Encoder-Reranker und ist Mai 2026 weiterhin der Industrie-Standard für API-basiertes Re-Ranking in RAG-Pipelines.

Das aktuelle Modell heisst rerank-multilingual-v3.0 (alternativ rerank-english-v3.0 für rein englische Bestände). Es ist ein Cross-Encoder, der Frage und Dokument-Passage gleichzeitig sieht und einen Relevanz-Score zwischen 0 und 1 ausgibt. Damit ist Rerank fundamental anders als ein Embedding-Modell: kein Vektor pro Text, sondern ein Score pro Frage-Dokument-Paar. Diese Architektur ist deutlich genauer als reine Vektor-Ähnlichkeit – auf BEIR-Benchmarks hebt Cohere Rerank den nDCG@10 über reine Dense-Retrieval um 12-18 Prozent, über BM25 um 25-30 Prozent.

Die multilinguale Variante deckt über 100 Sprachen ab. Auf MTEB-DE-Reranking liegt das Modell Mai 2026 in den Top-3, knapp vor BGE-Reranker-v2-m3. Auf Englisch ist Cohere Rerank seit Veröffentlichung im Spitzenfeld, oft auf Platz 1 in öffentlichen Benchmarks.

Der Preis Mai 2026: USD 2 pro 1000 Search-Anfragen. Eine Search-Anfrage in der Cohere-Definition rankt bis zu 1000 Dokumente in einem Aufruf – das ist relativ grosszügig. Eine Treuhand mit 200 Anfragen pro Monat zahlt also USD 0.40 pro Monat. Selbst bei 10.000 Anfragen pro Monat sind das USD 20 – für den Qualitätsgewinn üblicherweise gut investiert.

Warum es für die Schweiz wichtig ist

Drei Argumente machen Cohere Rerank für Schweizer Mandate attraktiv. Erstens die Qualität im Mehrsprachen-Kontext. CH-Treuhand und Anwaltskanzleien arbeiten DE/FR/IT/EN gemischt. Auf MTEB-Reranking-Tasks für diese vier Sprachen liegt rerank-multilingual-v3.0 zuverlässig vorne – die nächsten Konkurrenten BGE-Reranker-v2 und Jina-Rerank-v2 sind 2-4 Punkte zurück. In einem konkreten Treuhand-Setup mit 5000 Dokumenten haben wir mit Cohere Rerank +18 Prozent Recall@5 gegenüber reiner Dense-Suche gemessen – die Anzahl halluzinationsfreier Antworten stieg von 78 auf 89 Prozent.

Zweitens EU-Hosting via AWS Bedrock. Cohere Rerank ist im Mai 2026 als Bedrock-Foundation-Model in der Region eu-central-1 (Frankfurt) verfügbar. Damit liegen Frage und Dokument im EU-Raum und der AWS-Standard-DPA greift. Wer den Cohere-eigenen Endpoint (cohere.com) nutzt, hat Hosting in den USA oder Kanada – für Schweizer Mandate unter revDSG-Strenge problematisch. Die Bedrock-Variante ist der pragmatische EU-Pfad.

Drittens die Reife und Standardisierung. Cohere Rerank ist seit 2023 im Markt, hat eine sehr stabile API-Semantik, ist in fast jedem RAG-Framework (LangChain, LlamaIndex, Haystack, Cohere-Connect) als first-class-Integration vorhanden. Die Wahrscheinlichkeit, dass eine Migration oder ein Update Schmerzen verursacht, ist niedriger als bei jüngeren Anbietern. Für Banken, Versicherungen und Treuhandgesellschaften mit langen Beschaffungszyklen ist diese Stabilität selber ein Asset.

Der Schwachpunkt: Berufsgeheimnis-strenge Mandate nach StGB Art. 321 können Cohere auch über Bedrock kritisch sehen, weil der Hersteller US-Recht unterliegt. Hier bleibt BGE-Reranker-v2-m3 als Self-Host-Lösung die saubere Antwort.

Wie es funktioniert

Cohere Rerank ist ein klassischer Cross-Encoder. Anders als ein Bi-Encoder-Embedding-Modell (das pro Text einen Vektor liefert) sieht der Reranker Frage und Dokument-Passage gleichzeitig in der Eingabe. Das interne Transformer-Netz bewertet Wort-Ebenen-Beziehungen zwischen Frage und Dokument paarweise – daher der Begriff Cross-Encoder. Output ist ein Skalar zwischen 0 (irrelevant) und 1 (sehr relevant).

Die typische zweistufige Pipeline sieht so aus. Stage 1: aus Qdrant werden 50 Kandidaten via Vektor-Ähnlichkeit gezogen. Stage 2: alle 50 Kandidaten werden mit der Frage paarweise durch Cohere Rerank geschickt und nach dem zurück gelieferten Score sortiert. Top 3 oder Top 5 gehen ans Sprachmodell. Die Latenz von Stage 2 beträgt etwa 200-400 ms pro 50 Kandidaten – typisch ein Drittel der gesamten RAG-Antwortzeit.

Integrations-Beispiel über den Cohere-eigenen Endpoint:

```python import cohere

co = cohere.Client(api_key="cohere-xxx")

resp = co.rerank( model="rerank-multilingual-v3.0", query="Welche Frist gilt für die MWST-Abrechnung?", documents=candidates, # Liste von 50 Strings aus Qdrant top_n=5, )

for result in resp.results: print(result.relevance_score, candidates[result.index]) ```

Die API liefert die Top-N-Treffer mit Score und Original-Index. Ein Limit pro Aufruf liegt bei 1000 Dokumenten – für praktische Anwendungen mit 30-100 Kandidaten irrelevant.

Über AWS Bedrock läuft der Aufruf über das boto3-SDK:

```python import boto3, json

bedrock = boto3.client("bedrock-runtime", region_name="eu-central-1")

resp = bedrock.invoke_model( modelId="cohere.rerank-multilingual-v3.0", body=json.dumps({ "query": "Welche Frist gilt für die MWST-Abrechnung?", "documents": candidates, "top_n": 5, }), ) results = json.loads(resp["body"].read())["results"] ```

Damit sind Frage und Dokument physisch in eu-central-1. Wichtig: der Bedrock-Modell-Katalog kann sich ändern, Mai 2026 ist Cohere Rerank in eu-central-1, us-east-1 und ap-northeast-1 verfügbar.

Kalibrierung des top_n-Parameters: Wir empfehlen, in Stage 1 etwa 30-50 Kandidaten zu holen und in Stage 2 auf 3-5 zu reduzieren. Mehr Kandidaten in Stage 1 erhöhen den Recall, kosten aber Reranker-Latenz. Weniger als 30 in Stage 1 führt zu Top-K-Verlust, wenn das relevante Dokument auf Position 40 lag.

Cohere Rerank in 5 Schritten produktiv

  1. 01Hosting-Pfad wählen: Cohere-Endpoint (cohere.com, US/CA) oder AWS Bedrock eu-central-1 – CH-Mandate fast immer Bedrock.
  2. 02Modell festlegen: rerank-multilingual-v3.0 für DE/FR/IT/EN-Mix, rerank-english-v3.0 für reine EN-Bestände (1-2 Punkte besser).
  3. 03Pipeline aufbauen: Stage 1 Qdrant zieht 30-50 Kandidaten, Stage 2 Cohere Rerank ranked, Top 3-5 gehen ans LLM. Latenz-Profil messen.
  4. 04Baseline und Vergleich: vor Reranker Recall@5 und nDCG@10 auf Eval-Suite messen, dann mit, Differenz dokumentieren. Erwartung +12-18 Punkte.
  5. 05Monitoring: Cohere-Call-Latenz, Token-Usage, Score-Verteilung in Grafana/Loki. Anomalien (sehr niedrige Top-Score) als Alarm für Korpus-Drift.

Wann Cohere Rerank einsetzen

Cohere Rerank ist die richtige Wahl, wenn (a) maximale Reranking-Qualität in Mehrsprachigkeit gefragt ist, (b) EU-Hosting via AWS Bedrock akzeptabel ist, (c) eine etablierte und stabile API gewünscht wird, oder (d) das Team bereits in der Cohere-Welt (Embed v3, Cohere Command R+) lebt.

Konkrete Fälle: eine Treuhand mit DE/FR/IT-Mandanten, die maximalen RAG-Recall will und kein eigenes GPU-Setup betreiben möchte. Eine Anwaltskanzlei mit deutscher und englischer Praxis, die auf BEIR-Benchmark-Niveau ranken will. Ein Versicherer mit langjährigem AWS-Stack, der über Bedrock alles aus einer Hand bezieht.

Sehr sinnvoll ist die Kombination Cohere-Embed-v3 plus Cohere-Rerank-3 – beide vom selben Anbieter, beide über Bedrock-Frankfurt, semantische Ausrichtung gut aufeinander abgestimmt. Diese Cohere-Stack-Wahl ist im Schweizer Enterprise-Segment Mai 2026 sehr verbreitet.

Auch für Migrations-Setups von OpenAI-only-RAG ist Cohere Rerank ein einfacher Erstschritt zum Hybrid-Stack. OpenAI text-embedding-3-small in Stage 1, Cohere Rerank in Stage 2 – ein API-Schlüssel mehr, dafür 15-20 Prozent mehr Recall. Das ist die einfachste Qualitäts-Verbesserung in vielen produktiven RAG-Setups.

Wann NICHT

Wenn Sie unter striktem Berufsgeheimnis nach StGB Art. 321 arbeiten und keine US-Vendor-Bindung akzeptieren, ist Cohere Rerank trotz Bedrock-EU-Hosting kritisch. Cohere Inc. unterliegt US/Kanada-Recht; die Daten physisch in Frankfurt machen das nicht vollständig sauber. Hier bleibt BGE-Reranker-v2-m3 als Apache-2.0-Self-Host die saubere Antwort.

Wenn Ihr Latenz-Budget unter 200 ms End-to-End ist, ist Cohere Rerank mit 200-400 ms Reranking-Schritt zu langsam. FlashRank auf CPU oder kein Reranker sind die Alternative. Live-Chat mit Tippanzeige toleriert die Cohere-Latenz nicht.

Wenn Sie sehr viele Queries pro Monat haben (über 1 Million), wird Cohere Rerank teuer (USD 2000 pro Monat). Voyage rerank-2 ist mit USD 0.05 pro 1000 Queries dort dramatisch günstiger; alternativ Self-Host mit BGE-Reranker-v2-m3 auf einer Mittelklasse-GPU.

Wenn Sie bereits ein anderes Vendor-Setup haben – Mistral plus Voyage, OpenAI plus Self-Host – vermeiden Sie ggf. einen zusätzlichen Cohere-Schlüssel. Cohere Rerank ist Spitze, aber nicht so weit vorne, dass es ein Drei-Vendor-Setup rechtfertigt.

Vor- und Nachteile

STÄRKEN

  • Mai 2026 etablierter Industrie-Standard mit stabilster API
  • EU-Hosting via AWS Bedrock eu-central-1 verfügbar
  • Beste oder zweitbeste Reranker-Qualität auf DE/FR/IT/EN
  • Standard-Integration in LangChain, LlamaIndex, Haystack

SCHWÄCHEN

  • US/Canada-Vendor – Berufsgeheimnis-strenge Mandate brauchen Self-Host
  • USD 2 pro 1k Calls – bei hohen Volumina teuer (Voyage ist 40x billiger)
  • 200-400 ms Latenz – für Live-Voice-Agents zu langsam
  • Pricing in USD, EUR-Abrechnung über Bedrock zusätzlich an Wechselkurs gebunden

Häufige Fragen

Wie wird die Search-Anfrage abgerechnet?

Pro Aufruf zählt es als eine Search-Anfrage, unabhängig davon, ob 5 oder 1000 Dokumente geranked werden. Der Preis ist USD 2 pro 1000 Anfragen. Bei einer Treuhand mit 200 RAG-Anfragen pro Monat sind das USD 0.40 – vernachlässigbar. Bei einer Plattform mit 100.000 Anfragen pro Tag wird es USD 200 pro Tag, dann lohnt Voyage oder Self-Host.

Wie viel Latenz fügt der Reranker hinzu?

Pro 50 Kandidaten typisch 200-400 ms über den Standard-Endpoint, über Bedrock eu-central-1 leicht höher (250-450 ms). Bei interaktiven Anwendungen ist das oft akzeptabel, im Hintergrund von Mail-Triage oder Batch-Reports irrelevant. Live-Voice-Agents brauchen FlashRank stattdessen.

Wie verhält sich Cohere Rerank zu BGE-Reranker-v2-m3?

Cohere führt Mai 2026 auf MTEB-Reranking um 2-4 Punkte vor BGE-Reranker-v2-m3. Dafür ist BGE Apache 2.0 und self-hostable – keine Datenübermittlung, keine USD-Kosten. Faustregel: API mit Top-Qualität und EU-Hosting = Cohere. Self-host für Berufsgeheimnis = BGE. Beide sind gute Standards.

Kann Cohere Rerank auf Schweizerdeutsch ranken?

Schwer. Schweizerdeutsch ist in den Trainingsdaten kaum vertreten. Hochdeutsche Texte ranken zuverlässig; Mundart-E-Mails oder Voice-Transkripte mit Mundart-Anteilen verlieren Qualität. Workaround: vor Reranking eine Hochdeutsch-Konvertierung via LLM-Schritt einfügen, dann ranken.

Verwandte Themen

EMBEDDINGS · AI-KONZEPTEmbeddings und Vektoren: Wie Sprache zu Mathematik wirdEMBEDDINGS · TOOL-VERGLEICHEmbedding-Modelle im Vergleich: BGE-M3, E5, OpenAI, Cohere, Voyage, Jina, Mistral, Nomic, mxbai, GeckoRERANKER · TOOL-VERGLEICHReranker im Vergleich: Cohere, BGE, Jina, Voyage, ColBERT, mxbai, Mistral, sentence-transformers, RankGPT, FlashRankRAG · AI-KONZEPTRetrieval-Augmented Generation (RAG): Wie KI aus eigenen Dokumenten antwortetHYBRIDSUCHE · AI-KONZEPTHybridsuche: BM25 plus Vektor mit Reciprocal Rank Fusion in Elasticsearch, Qdrant, OpenSearchQDRANT · TECHQdrant: produktive Vektor-Datenbank für RAG und Semantische Suche

Quellen

  1. Cohere documentation – Rerank API and pricing · 2026-05
  2. AWS Bedrock – Cohere Rerank foundation model availability · 2026-05
  3. BEIR benchmark – reranker performance reference · 2026-04
  4. MTEB Leaderboard – reranking sub-track · 2026-05

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen