fairlane.systems

RERANKER · TOOL-VERGLEICH

Reranker im Vergleich: Cohere, BGE, Jina, Voyage, ColBERT, mxbai, Mistral, sentence-transformers, RankGPT, FlashRank

Zehn Reranker-Optionen, vier Auswahl-Achsen, +15-30% Recall für RAG-Pipelines. Stand Mai 2026.

Recherche & Faktencheck: · Stand: 2026-05

Was ist ein Reranker?

Ein Reranker ist ein zweistufiges Such-Pattern: Stufe 1 holt schnell aus einer Vektor-Datenbank z.B. 50 Kandidaten zur Frage. Stufe 2 bewertet jeden dieser 50 Kandidaten paarweise mit einem Cross-Encoder-Modell – das sieht Frage und Kandidat gleichzeitig und gibt einen präziseren Score. Anschliessend werden die Top-3 oder Top-5 ans Sprachmodell weitergegeben. Der Trick: Stufe 1 ist schnell, aber ungenauer; Stufe 2 ist langsamer, aber deutlich genauer. Die Kombination liefert in fast allen Fall-Studien zwischen 15% und 30% mehr Recall@5 als reine Vektorsuche.

In typischen Schweizer Treuhand-RAG-Setups (Mai 2026) zählt der Reranker zu den grössten Hebeln für Antwort-Qualität – grösser als das Wechseln des Embedding-Modells, kleiner nur als sauberes Chunking. Trotzdem wird er gerne weggelassen, weil er eine zusätzliche Latenz von 100-500 ms kostet und entweder eine API-Bindung oder ein eigenes Modell auf einer GPU verlangt.

Im Mai 2026 existieren ungefähr zehn ernsthafte Optionen. Vier sind reine APIs (Cohere, Voyage, Mistral plus Mini-Modelle über Together/Bedrock), fünf sind Self-host-tauglich (BGE-Reranker-v2, Jina, mxbai, ColBERT, sentence-transformers), eine ist LLM-basiert (RankGPT/RankZephyr) und eine ist auf Latenz getrimmt (FlashRank).

Warum Reranking wichtig ist

Vier Achsen entscheiden über Eignung: Qualitätsgewinn, Latenz-Budget, Hosting-Modell und Kosten. Wer einen Reranker einsetzt, kauft Genauigkeit für Zeit und Geld – und muss wissen, wie viel von jedem er bereit ist zu opfern.

Qualitätsgewinn: Auf BEIR (BeIR Benchmark, Stand 2026) hebt ein Cohere-Rerank-3 die nDCG@10 gegenüber reiner BM25-Suche um durchschnittlich 30%, gegenüber Dense-Retrieval allein um 12-18%. Für Anwaltsmandate, wo das richtige Praeezedenz-Urteil zwischen Position 4 und 5 stehen kann, ist das der Unterschied zwischen brauchbar und unbrauchbar.

Latenz: Reranking eines 50-Kandidaten-Sets dauert typisch 100-400 ms auf einer GPU oder über eine schnelle API. FlashRank schafft das auch auf CPU in unter 100 ms. RankGPT (LLM-basiert) braucht 1-3 Sekunden – für interaktive Anwendungen oft zu lang.

Hosting: Wie bei Embeddings gilt auch beim Reranking: der Reranker sieht Frage und Dokument-Passage. Bei Berufsgeheimnis-Mandaten bedeutet ein API-Reranker (Cohere, Voyage) Datenübermittlung an einen Drittstaat. Self-host (BGE-Reranker-v2, Jina, mxbai-rerank) löst das. Cohere über AWS Bedrock eu-central-1 ist ein Mittelweg.

Kosten: Cohere Rerank kostet Mai 2026 USD 2 pro 1.000 Queries. Voyage rerank-2 ist mit USD 0.05 pro 1.000 Queries deutlich günstiger. Mistral Rerank EUR 0.40 pro 1.000 Queries. Bei einer Treuhand mit 200 Anfragen pro Monat sind Cohere USD 0.40, Voyage USD 0.01, Mistral EUR 0.08 – alle drei vernachlässigbar. Bei 100.000 Queries pro Monat reden wir über USD 200, USD 5 und EUR 40 – da wird die Wahl relevant.

Die zehn Optionen im Detail

Cohere Rerank (proprietär API, USD 2/1k Queries, über AWS Bedrock auch EU): rerank-multilingual-v3.0. Industrie-Standard Mai 2026, gewinnt fast jeden Benchmark, sehr gute Deutsch- und Französisch-Qualität. Bedrock-Hosting in eu-central-1 erlaubt EU-Residenz. Default-Wahl, wenn API OK ist.

BGE-Reranker-v2 (BAAI, Apache 2.0, Self-host): bge-reranker-v2-m3, mehrsprachig, qualitativ sehr nahe an Cohere. Läuft auf GPU komfortabel, mit ONNX auch auf CPU mit Geduld. Kostenloser Open-Source-Standard für on-prem RAG.

Jina Reranker (jina-reranker-v2, Apache 2.0 + Cloud, Berlin): mehrsprachig, EU-Cloud Frankfurt, auch Self-host. Berliner Vendor – EU-Datenschutz nativ. Charmant für Mandanten, die einen europäischen API-Provider wollen.

Voyage Rerank (rerank-2, proprietär API, USD 0.05/1k Queries): sehr stark in Benchmarks und mit Abstand am günstigsten. US-Hosting per default, EU via AWS Bedrock. Für englisch-lastige Setups mit Kostenfokus.

ColBERT / ColBERTv2 (Stanford, MIT-Lizenz, Self-host): Late-Interaction-Modell, geht einen anderen Weg – speichert pro Token einen kleinen Vektor und matched Token-paarweise. Sehr genau, aber Storage-intensiv (zehn- bis hundertfacher Speicherbedarf gegenüber Dense-Embeddings). Nische, aber Top-Qualität.

mxbai-rerank-large-v1 (MixedBread-AI, Apache 2.0, Self-host): 1024-dim Cross-Encoder, Apache 2.0, ONNX-tauglich. Sehr ordentliche Qualität, kompakt genug für mittlere Hardware. Solider Mid-Tier-Self-host.

Mistral Rerank (proprietär EU API, La Plateforme Paris, EUR 0.40/1k Queries): EU-natives Reranking, AVV einfach. Etwas jünger als Cohere, Qualität steigt. Sympathisch im EU-AI-Act-Kontext.

sentence-transformers Cross-Encoder (Apache 2.0, Self-host): die klassische ms-marco-Cross-Encoder-Familie (ms-marco-MiniLM-L-6-v2 und Verwandte). Inzwischen alt, aber wenn Ihr Stack ohnehin sentence-transformers nutzt, ist es 5 Zeilen Code. Englisch dominant, für Deutsch nur akzeptabel.

RankGPT / RankZephyr (Self-host, LLM-basiert): nutzt ein eigenes Sprachmodell, um den Kandidatenlisten umzusortieren. Sehr genau, aber langsam (1-3 s) und teuer (LLM-Token-Kosten). Sinnvoll für Offline-Reranking grosser Korpora, nicht für Live-Anfragen.

FlashRank (MIT-Lizenz, Self-host): ultraschneller Reranker via ONNX-Runtime, mehrere kleine Cross-Encoder-Varianten. Unter 100 ms auf CPU. Qualität leicht unter BGE-Reranker-v2, aber Latenz schlägt alles. Erst-Wahl, wenn Sub-100ms Pflicht ist.

Auswahl-Workflow in 6 Schritten

  1. 01Baseline messen: Recall@5 und nDCG@10 ohne Reranker auf einer Eval-Suite (30-50 Frage/Antwort-Paare).
  2. 02Latenz-Budget definieren: Wie viel ms darf der Reranker maximal kosten? < 100ms FlashRank, < 500ms BGE/Cohere/Voyage, > 1s nur RankGPT.
  3. 03Hosting-Constraint prüfen: Berufsgeheimnis → Self-host (BGE-Reranker-v2, mxbai-rerank, Jina-self-host). EU OK → Cohere Bedrock, Mistral, Jina-Cloud.
  4. 04Sprach-Profil: Deutsch/Französisch dominant → BGE-Reranker-v2-m3, Cohere Rerank-multilingual oder Jina-v2. Englisch dominant → Voyage rerank-2.
  5. 05Top-3 testen: A/B-Test mit jeweils 3 Reranker-Kandidaten auf derselben Eval-Suite. Recall@5-Gewinn dokumentieren.
  6. 06Top-K kalibrieren: Stage-1 holt typisch 30-50 Kandidaten, Stage-2 rankt sie, Top-3 oder Top-5 gehen ans LLM. Optimum experimentell finden.

Empfehlung je Anwendungsfall

CH-Anwalt/Treuhand on-prem-Pflicht, Standard-Latenz OK: BGE-Reranker-v2-m3 self-hosted auf derselben GPU wie BGE-M3-Embedding. Kostenlos, mehrsprachig, beste Open-Source-Qualität.

CH-KMU mit EU-Hosting OK, beste Qualität: Cohere Rerank über AWS Bedrock eu-central-1. AVV via AWS, Industrie-Standard, sehr gut auf Deutsch.

EU-Vendor erwünscht, API: Jina Reranker (Berliner Anbieter) oder Mistral Rerank (Paris). Beide AVV-friendly, EU-Hosting nativ.

Massiv Queries, Kostenfokus, EN-lastig: Voyage rerank-2. 40x günstiger als Cohere, Qualität sehr nahe dran.

Sub-100ms Latenz-Pflicht, Self-host, mittlere Qualität OK: FlashRank auf CPU. Live-Chat-Setups, wo der User nicht warten will.

Maximale Genauigkeit, Latenz egal (Offline-Reranking): RankGPT mit GPT-4o oder Claude Sonnet. Für Batch-Pipelines (Tages-Indexing, nicht Live).

Tieres Plus-Setup: Dense + Sparse + Reranker: BGE-M3 Embedding + BM25 + BGE-Reranker-v2 als Hybrid. Auf BEIR-Benchmarks oft die Top-Kombination.

Wann Reranking weggelassen werden kann

Wenn Ihr Retrieval-Recall@5 ohne Reranker schon über 85% liegt – typisch bei kleinen, sauber strukturierten Korpora mit wenigen ähnlichen Dokumenten – ist der zusätzliche Latenz-Overhead nicht wert. Erst messen, dann hinzufügen.

Wenn Ihre Latenz-Anforderung unter 200 ms End-to-End liegt (z.B. Voice-Agent, Live-Chat mit Tippanzeige), ist API-Reranking heikel. Lokales FlashRank kann es schaffen, alles andere nicht zuverlässig.

Wenn Ihre Fragen tatsächlich Stichwörter sind (Rechnungsnummer, Mandantenname, Belegdatum), ist semantisches Reranking überzogen. BM25 plus exakter Filter ist da besser.

Wenn Sie nicht in der Lage sind, A/B zu testen – also den Effekt zu messen –, fügen Sie keinen Reranker hinzu. Ohne Vergleichszahlen wissen Sie nicht, ob er hilft. Eine kleine Eval-Suite mit 30-50 Frage/Antwort-Paaren reicht: zuerst ohne Reranker messen, dann mit, Differenz dokumentieren.

Vor- und Nachteile

STÄRKEN

  • Cohere Rerank: Industrie-Standard, beste Qualität auf Deutsch und Französisch
  • BGE-Reranker-v2: bestes Open-Source-Modell, Apache 2.0, mehrsprachig
  • Voyage Rerank: 40x günstiger als Cohere bei sehr guter Qualität
  • FlashRank: einziger Reranker mit zuverlässiger Sub-100ms-CPU-Latenz

SCHWÄCHEN

  • Cohere/Voyage API: Datenübermittlung Drittstaat (es sei denn über AWS Bedrock EU)
  • Self-host BGE/Jina: GPU-Wartung, Modell-Updates, Versions-Pinning nötig
  • RankGPT: 1-3 s Latenz, LLM-Token-Kosten – nur für Offline-Batches
  • ColBERT: Storage-Overhead 10-100x gegenüber Dense-Embeddings

Häufige Fragen

Wie viel besser wird die Antwort durch Reranking wirklich?

In BEIR-Benchmarks 2025/2026 hebt Cohere Rerank-3 die nDCG@10 über Dense-Retrieval-only um 12-18%, über BM25-only um 25-30%. BGE-Reranker-v2-m3 liegt 2-4 Punkte hinter Cohere. Im konkreten Treuhand-Setup mit 5.000 Dokumenten haben wir +18% Recall@5 gemessen – die Anzahl korrekter Antworten ohne Halluzination stieg von 78% auf 89%.

Brauche ich GPU für Self-host-Reranking?

Für akzeptable Latenz: ja. BGE-Reranker-v2-m3 auf einer RTX 3060 ranked 50 Kandidaten in ~150 ms. Auf reiner CPU sind es 2-5 Sekunden. FlashRank ist die CPU-freundliche Alternative – kleinere Modelle, ONNX-optimiert, unter 100 ms auf modernem Xeon/EPYC.

Wie kombiniere ich Reranking mit Hybrid-Suche (Dense + Sparse)?

Standard-Pattern Mai 2026: Stage 1a (Dense BGE-M3, k=30) + Stage 1b (BM25 über Tantivy/Elasticsearch, k=30) → Reciprocal Rank Fusion auf k=50 → Stage 2 BGE-Reranker-v2 ranked auf Top 5. Auf BEIR oft Top-Konfiguration. Aufwand: höher, weil zwei Indexes; Qualität: deutlich besser, vor allem bei Begriffen mit Eigennamen.

Funktioniert Reranking auch auf Französisch und Italienisch?

Ja, aber nur mit mehrsprachigen Modellen. BGE-Reranker-v2-m3, Cohere rerank-multilingual-v3, Mistral Rerank und Jina-v2 sind mehrsprachig getestet. ms-marco-MiniLM und FlashRank-defaults sind englisch-zentriert – für DE/FR/IT-Korpora zu schwach. Always teste Reranker auf einem Eval-Set in derselben Sprache wie dein Bestand.

Verwandte Themen

EMBEDDINGS · TOOL-VERGLEICHEmbedding-Modelle im Vergleich: BGE-M3, E5, OpenAI, Cohere, Voyage, Jina, Mistral, Nomic, mxbai, GeckoVEKTOR-DB · AI-KONZEPTVektor-Datenbanken im Vergleich: Qdrant, Weaviate, Milvus, Pinecone, Chroma, pgvectorRAG · AI-KONZEPTRetrieval-Augmented Generation (RAG): Wie KI aus eigenen Dokumenten antwortetRAG MIT EIGENEM WISSEN · SERVICERAG mit eigenem Wissen: Antworten aus Ihren Dokumenten – mit Quelle, nicht erfundenHALLUZINATIONEN · AI-KONZEPTHalluzinationen begrenzen: Fünf Gegenmittel gegen erfundene KI-Antworten

Quellen

  1. BEIR Benchmark – Heterogeneous IR benchmark · 2026-04
  2. Cohere Rerank – rerank-multilingual-v3.0 docs · 2026-05
  3. BAAI BGE-Reranker-v2-m3 – Hugging Face model card · 2026-03
  4. Voyage AI Rerank-2 – pricing & model card · 2026-04
  5. FlashRank – ultra-fast reranker via ONNX · 2026-02

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen