BGE-RERANKER · TECH

BGE-Reranker-v2-m3: Open-Source-Reranker für mehrsprachige RAG-Setups

BGE-Reranker-v2-m3 von BAAI ist Mai 2026 der stärkste frei verfügbare Cross-Encoder-Reranker – Apache 2.0, mehrsprachig, sehr nahe an Cohere-Qualität.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Was ist BGE-Reranker?

BGE-Reranker ist eine Familie von Cross-Encoder-Modellen der Beijing Academy of Artificial Intelligence (BAAI), publiziert unter Apache-2.0-Lizenz auf HuggingFace. Die Familie deckt mehrere Grössen und Sprach-Profile ab; die im Mai 2026 dominierende Variante heisst bge-reranker-v2-m3. Sie nutzt die gleiche XLM-RoBERTa-Basis wie das BGE-M3-Embedding-Modell, ist also auf mehr als 100 Sprachen ausgelegt und kann dasselbe Vorprozessing nutzen.

Im Unterschied zu einem Embedding-Modell liefert ein Reranker keinen Vektor pro Text. Stattdessen verarbeitet er Frage und Dokument-Passage gemeinsam in einem einzigen Vorwärtspass und gibt einen Relevanz-Score zurück. Diese sogenannte Cross-Encoder-Architektur ist deutlich genauer als reine Vektor-Ähnlichkeit, weil das Modell Wort-Ebenen-Beziehungen zwischen Frage und Dokument direkt sehen kann.

Bge-reranker-v2-m3 hat rund 568 Millionen Parameter und ist damit ähnlich gross wie der Embedding-Bruder BGE-M3. Die Modell-Dateien sind etwa 2.3 GB schwer. Inferenz läuft auf einer einzelnen GPU mit 8 GB VRAM komfortabel; auf CPU mit ONNX-Runtime ist es deutlich langsamer (2-5 Sekunden pro 50-Dokumente-Batch), aber möglich. Auf einer RTX 3060 ranked das Modell etwa 50 Kandidaten in 150-200 ms – vergleichbar mit der Cohere-API.

Qualitativ liegt bge-reranker-v2-m3 Mai 2026 auf MTEB-Reranking-Sub-Tracks 2-4 Punkte hinter Cohere rerank-multilingual-v3.0, dafür aber klar vor allen anderen Open-Source-Rerankern (mxbai-rerank, sentence-transformers ms-marco, Jina-Reranker). Auf Deutsch und Französisch ist es das beste frei lizenzierte Reranker-Modell, das wir kennen.

Warum es für die Schweiz wichtig ist

Drei Gründe machen BGE-Reranker zur Standardwahl für Schweizer on-prem-RAG-Setups. Erstens die Apache-2.0-Lizenz. Anders als bei Cohere oder Voyage Rerank gibt es keinen Vendor-Vertrag, keinen DPA, keinen Drittland-Transfer. Das Modell läuft im eigenen Container und sieht die Frage-Dokument-Paare nur intern. Für Mandate unter Berufsgeheimnis nach StGB Art. 321 ist das oft die einzige juristisch saubere Variante.

Zweitens die natürliche Kombination mit BGE-M3 als Embedding-Modell. Wer BGE-M3 für Stage-1 nutzt, hat dieselbe Backbone-Architektur, dieselbe Tokenization, dasselbe Sprachprofil im Stage-2-Reranker. Diese Konsistenz vermeidet ungewollte semantische Drift zwischen den Stufen und macht die Pipeline einfacher zu kalibrieren. Im konkreten Treuhand-Setup haben wir +18 Prozent Recall@5 gegenüber reiner Dense-Suche gemessen – fast die gleiche Verbesserung wie mit Cohere Rerank, ohne API-Kosten.

Drittens Mehrsprachigkeit auf hohem Niveau. Auf deutsch- und französisch-zentrierten Reranking-Tasks liegt bge-reranker-v2-m3 mit Cohere fast gleichauf. Italienisch ist gut, Romanisch zwar nicht trainiert, aber das gilt für alle Modelle. Wer einen RAG-Stack über CH-relevante Sprachen baut, bekommt mit BGE-Reranker eine sehr nahe an Best-in-Class liegende Qualität – ohne den US-Vendor-Hop.

Für den Schweizer Markt zusätzlich relevant: BGE-Reranker hat eine reife Community, viele Beispiel-Notebooks, gute Dokumentation in der FlagEmbedding-Library, und ist in LangChain, LlamaIndex, Haystack als First-Class-Integration eingebaut. Die Operationalisierung ist kein Geheimwissen – ein typischer Backend-Engineer kann das Modell innerhalb eines Tages in eine bestehende RAG-Pipeline einbauen.

Wie es funktioniert

BGE-Reranker-v2-m3 ist ein klassischer Cross-Encoder, der ein Frage-Dokument-Paar gemeinsam durch ein 24-Layer-Transformer-Netz schickt und einen Skalar-Score ausgibt. Anders als bei einem Bi-Encoder-Embedding-Modell muss für jedes Paar ein eigener Vorwärtspass gerechnet werden – das macht die Stage-2-Latenz linear zur Anzahl Kandidaten.

Integration via die FlagEmbedding-Library:

```python from FlagEmbedding import FlagReranker

reranker = FlagReranker("BAAI/bge-reranker-v2-m3", use_fp16=True)

pairs = [ [query, candidate_1], [query, candidate_2], # bis zu 50-100 Kandidaten aus Stage 1 ]

scores = reranker.compute_score(pairs, normalize=True) ranked = sorted(zip(scores, pairs), reverse=True)[:5] ```

Der normalize-Parameter wendet eine Sigmoid auf die Logits an und gibt Scores zwischen 0 und 1 zurück – interpretierbar als Wahrscheinlichkeit, dass die Passage zur Frage passt. Ohne Normalisierung sind die Werte un-skaliert.

Für Produktion empfehlen wir ein FastAPI-Wrapper:

```python from fastapi import FastAPI from FlagEmbedding import FlagReranker

app = FastAPI() reranker = FlagReranker("BAAI/bge-reranker-v2-m3", use_fp16=True)

@app.post("/v1/rerank") async def rerank(query: str, documents: list[str], top_n: int = 5): pairs = [[query, d] for d in documents] scores = reranker.compute_score(pairs, normalize=True) ranked = sorted(zip(range(len(documents)), scores), key=lambda x: -x[1])[:top_n] return {"results": [{"index": i, "score": s} for i, s in ranked]} ```

Damit ist der Reranker ein zentraler HTTP-Service, der von mehreren Anwendungen genutzt werden kann. Modell ist einmal im Speicher, GPU-Auslastung effizient.

Für CPU-Setups lässt sich das Modell über ONNX-Runtime laufen. BAAI publiziert ONNX-Konvertierungen; die Performance ist auf einer 8-Core-VM rund 5-10 Sekunden pro 50 Kandidaten – für Standard-Treuhand-Lasten akzeptabel, für interaktive Anwendungen mit vielen Anfragen pro Sekunde zu langsam.

Die Stage-2-Pipeline sieht so aus. Stage 1: Qdrant zieht 30-50 Kandidaten via Vektor-Ähnlichkeit (Top-K=30 ist Standard, Top-K=50 wenn Recall priorisiert wird). Stage 2: BGE-Reranker bewertet alle Kandidaten paarweise, gibt Top-K=3-5 zurück. Stage 3: das LLM bekommt die Top-Kandidaten als Kontext und generiert die Antwort. Latenz-Profil ist typisch 30 ms Stage 1, 200 ms Stage 2, 800-1500 ms Stage 3 – die LLM-Latenz dominiert.

BGE-Reranker in 5 Schritten produktiv

01Hardware: idealerweise GPU mit 8 GB VRAM (RTX 3060 oder besser) für Sub-200-ms Latenz; CPU mit ONNX als Fallback für kleinere Lasten.
02Modell ziehen via FlagEmbedding-Library (BAAI/bge-reranker-v2-m3) oder direkt über HuggingFace-CLI. Modell-Cache aus dem Container-Lifetime trennen.
03FastAPI-Wrapper: POST /v1/rerank mit query, documents, top_n. Logging der Aufrufe ohne Inhalt-Persistenz. GPU-Auslastung via nvidia-smi monitoren.
04Pipeline-Integration: Stage 1 Qdrant zieht 30-50 Kandidaten, Stage 2 ruft den Reranker-Endpoint, Top 3-5 gehen an Stage 3 (LLM).
05Eval-Suite gegen Baseline: vor Reranker Recall@5 messen, dann mit, Differenz dokumentieren. Erwartung: +12-18 Punkte. Bei weniger Gewinn: top_k von Stage 1 erhöhen oder Embedding-Modell prüfen.

Wann BGE-Reranker einsetzen

BGE-Reranker-v2-m3 ist die richtige Wahl, wenn (a) Reranking auf eigener Infrastruktur laufen muss (Berufsgeheimnis, revDSG-Strenge), (b) der Bestand mehrsprachig ist mit DE/FR/IT/EN-Mix, (c) das Setup bereits BGE-M3 als Embedding nutzt – Stack-Konsistenz, oder (d) keine USD-API-Kosten gewünscht sind.

Konkrete Fälle: eine Anwaltskanzlei mit Schweizer Mandanten, die DSGVO und Berufsgeheimnis strikt ausgelegt – Self-Host ist Pflicht. Eine Treuhand mit eigener GPU-Hardware (z.B. eine Hetzner GPX130 mit RTX 3060, über Tage gemietet für Initial-Ingestion, danach reine CPU-Inferenz für Re-Ranking). Ein KMU mit hohem RAG-Traffic (1000+ Anfragen/Tag), wo Cohere-API-Kosten sich summieren würden.

Für das typische Schweizer Treuhand-Setup mit BGE-M3 als Embedding und Qdrant als Vektor-DB ist BGE-Reranker die natürliche Ergänzung. Alle drei Komponenten sind Open-Source (Apache 2.0), self-hostable, mehrsprachig, EU-konform. Der gesamte RAG-Stack liegt im eigenen Rechenzentrum oder bei einem EU-Hoster – eine architektonische Sauberkeit, die im Mandanten-Pitch überzeugt.

Die Kombination mit OpenAI- oder Anthropic-LLMs ist genauso möglich. Embedding via BGE-M3, Reranking via BGE-Reranker, LLM-Generierung über GPT-4o oder das aktuelle Claude-Spitzenmodell – die Embedding- und Rerank-Schicht ist Self-Host, das LLM ist Cloud. Das senkt das Risiko-Profil deutlich, weil Frage- und Dokument-Texte vor dem LLM-Aufruf gefiltert werden können.

Wann NICHT

Wenn maximaler Recall über alles geht und EU-Hosting über AWS Bedrock akzeptabel ist, ist Cohere Rerank 2-4 Punkte besser auf MTEB-Reranking. In Hoch-Präzisions-Setups (z.B. juristische Präzedenz-Recherche, wo das richtige Urteil zwischen Position 4 und 5 stehen kann) ist diese Differenz relevant.

Wenn Ihr Team keine GPU-Inferenz betreiben will oder kann, ist BGE-Reranker auf CPU langsam – 5-10 Sekunden pro 50 Kandidaten. Für interaktive Anwendungen ist das zu langsam. In dem Fall sind Cohere Rerank (API) oder FlashRank (CPU-optimiert mit kleineren Modellen) bessere Optionen.

Wenn Ihr Bestand fast ausschliesslich Englisch ist und Sie maximale Qualität wollen, ist Voyage rerank-2 oder Cohere rerank-english-v3.0 etwas vorne. BGE-Reranker-v2-m3 ist als Multilingual-Modell auf Englisch nicht so spezialisiert wie englisch-fokussierte Reranker.

Wenn Sie sehr lange Dokumente reranken – Passagen über 4000 Tokens – stösst BGE-Reranker an Kontext-Grenzen. Das Modell ist auf 8192 Tokens Gesamteingabe (Frage + Dokument) limitiert; lange Dokumente verlangen Chunking vor dem Reranking, was zusätzliche Komplexität ist.

Vor- und Nachteile

STÄRKEN

Apache 2.0, voll Self-host, kein API-Provider nötig
Mehrsprachig mit DE/FR/IT/EN auf Spitzenniveau bei Open-Source
Direkte Backbone-Konsistenz mit BGE-M3 Embedding
Reife Community, Standard-Integration in LangChain/LlamaIndex/Haystack

SCHWÄCHEN

2-4 Punkte hinter Cohere Rerank auf MTEB-Reranking
GPU stark empfohlen (8 GB VRAM) – CPU mit ONNX nur für Batch
Modellgrösse 2.3 GB plus VRAM-Bedarf – Hardware-Planung nötig
Kontextlimit 8192 Tokens insgesamt – lange Dokumente brauchen Chunking

Häufige Fragen

Brauche ich zwingend eine GPU?

Für akzeptable Latenz unter 500 ms: ja. Auf einer RTX 3060 rankt das Modell 50 Kandidaten in 150-200 ms. Auf einer 8-Core-EPYC-CPU mit ONNX sind es 5-10 Sekunden – für Live-Anwendungen zu langsam, für Batch-Pipelines (Mail-Triage, Tages-Indexing) akzeptabel.

Was ist der Unterschied zwischen v2-m3 und der englischen Variante?

bge-reranker-v2-m3 ist mehrsprachig auf XLM-RoBERTa-Basis. bge-reranker-large (englisch) ist auf reines Englisch optimiert und liegt dort 1-3 Punkte vor v2-m3. Für CH-Setups mit DE/FR-Mix immer v2-m3 nehmen, auch wenn ein einzelner englischer Benchmark schwächer ist.

Wie verhält sich BGE-Reranker zu mxbai-rerank?

mxbai-rerank-large-v1 ist Mai 2026 das zweite ernsthafte Open-Source-Reranker-Modell. Es ist etwas kleiner (200M vs 568M Parameter), schneller auf CPU, aber 2-3 Punkte schwächer auf MTEB-Reranking gegenüber BGE-Reranker-v2-m3. Für Edge-Setups mit Hardware-Knappheit mxbai; für Standard-on-prem-RAG BGE-Reranker.

Kann ich BGE-Reranker fine-tunen?

Ja, BAAI publiziert ein vollständiges Fine-Tuning-Rezept in der FlagEmbedding-Library. Mit 1000-5000 domänenspezifischen Frage-Dokument-Paaren lässt sich der Reranker auf juristische, medizinische oder buchhalterische Sprache spezialisieren. Aufwand: ein Tag GPU-Zeit auf einer RTX 4090. Lohnenswert nur bei klarer Domain mit messbarem Recall-Defizit.

Quellen

BAAI bge-reranker-v2-m3 – model card and benchmarks · 2026-05
FlagEmbedding GitHub – reference implementation and fine-tuning recipe · 2026-05
Chen et al., BGE-M3 paper (covers reranker training) · 2026-04
MTEB Leaderboard – reranking sub-track · 2026-05

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen