EMBEDDINGS · TOOL-VERGLEICH

Embedding-Modelle im Vergleich: BGE-M3, E5, OpenAI, Cohere, Voyage, Jina, Mistral, Nomic, mxbai, Gecko

Zehn ernsthafte Embedding-Modelle, vier Auswahl-Achsen, eine konkrete Empfehlung pro Anwendungsfall. Stand Mai 2026.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Was ist ein Embedding-Modell?

Ein Embedding-Modell wandelt einen Text (Satz, Absatz, ganzes Dokument-Chunk) in einen Vektor – eine Liste von 384, 768, 1024 oder 3072 Zahlen. Semantisch ähnliche Texte landen in diesem Vektorraum nahe beieinander. Genau das macht semantische Suche und Retrieval-Augmented Generation (RAG) möglich. Ohne brauchbare Embeddings ist jede Vektor-Datenbank wertlos: die DB findet zwar Vektoren schnell, aber der Treffer hat nur dann Bezug zur Frage, wenn das Embedding-Modell die Sprache verstanden hat.

Für Schweizer KMU ist die Wahl des Embedding-Modells eine der drei wichtigsten Entscheidungen in einem RAG-Setup – neben Vektor-DB und LLM-Provider. Sie bestimmt die Qualität der Antworten (gefundene Passagen passen oder eben nicht), die Mehrsprachigkeit (versteht das Modell Deutsch, Französisch, Italienisch?), die Storage-Kosten (1024 vs. 3072 Dimensionen verdreifachen den Platz) und die Datenresidenz (Self-host vs. US-API vs. EU-API).

Im Mai 2026 existieren rund zehn ernsthafte Optionen. Vier sind self-hosted-first (BGE-M3, E5, Nomic, mxbai), vier sind API-first (OpenAI, Cohere, Voyage, Mistral), eine ist hybrid (Jina) und eine kommt aus dem Google-Vertex-Stack (Gecko). Bei Treuhand-Mandanten unter Berufsgeheimnis ist die Reihenfolge der Prüfung anders als bei einem Standard-KMU.

Warum die Wahl wichtig ist

Vier Achsen entscheiden über Eignung: Sprach-Qualität (MTEB-Score), Hosting-Modell, Kosten und Dimension. Wer das falsche Modell wählt, bezahlt mit schlechter Recall-Rate, höheren Storage-Kosten oder einem Drittlandtransfer-Problem.

Sprach-Qualität: Schweizer Mandanten arbeiten mehrsprachig – Deutsch fast immer, Französisch oft, Italienisch in der Suedschweiz. Englische Embeddings (Ada-002 alter Generation) sind auf Deutsch nur Mittelmass. Auf der MTEB-DE-Liste (Massive Text Embedding Benchmark, deutsche Spur) führen Mai 2026 Cohere embed-multilingual-v3, BGE-M3 und Voyage-3 – alle drei deutlich vor OpenAI text-embedding-3-large für deutschen Text.

Hosting: Embeddings enthalten Wissen aus den Originaldokumenten. Die MIT-Forschung (Morris et al. 2024) zeigt: aus Embeddings lässt sich der Originaltext unter Umständen teilweise rekonstruieren. Wer also Mandanten-Korrespondenz an eine US-API gibt, hat dasselbe Problem wie beim LLM-Provider – nur leiser. revDSG und StGB Art. 321 gelten auch für den Embedding-Schritt.

Kosten: Embedding-API-Preise (Mai 2026) reichen von USD 0.02/1M Tokens (OpenAI small) bis USD 0.13/1M (OpenAI large). Pro 10.000 Dokumente mit je 1.000 Tokens bedeutet das einmalig USD 0.20 bis USD 1.30 – vernachlässigbar. Bei kontinuierlicher Re-Ingestion (täglich neue Dokumente) summiert sich das. Wirklich relevant wird der Kosten-Faktor erst, wenn man laufende API-Kosten gegen einmalige Hardware-Investition für Self-Hosting stellt.

Dimension: 1024-dim ist im Mai 2026 der vernünftige Sweet Spot. 768-dim spart Storage (30%) bei kaum messbarer Qualitätseinbusse für KMU-Lasten. 3072-dim (OpenAI large) kostet das Dreifache an Disk und bringt nur in englisch-lastigen High-Precision-Setups Mehrwert. Matryoshka-Embeddings (E5, Nomic v2) erlauben, dieselben Vektoren auf 768 oder 256 truncieren – eleganter Mittelweg.

Die zehn Optionen im Detail

BGE-M3 (BAAI, Apache 2.0, Self-host): Open-Source-Spitzenreiter Mai 2026. 1024-dim, mehrsprachig inklusive Deutsch, Französisch, Italienisch. Kombiniert Dense-, Sparse- und Multi-Vector-Retrieval in einem Modell – ungewöhnlich flexibel. Läuft auf einer einzelnen GPU oder, mit ONNX, sogar auf CPU. Unsere Standard-Wahl für on-prem RAG mit Schweizer Daten.

multilingual-e5 (Microsoft, MIT-Lizenz, Self-host): mDeBERTa-Base mit über 100 Sprachen. 1024-dim (large), 768-dim (base). Schnell, robust, gut dokumentiert. Etwas schwächer als BGE-M3 auf Deutsch, aber ausgezeichnete CPU-Performance – für kleinere Hetzner-VMs ohne GPU eine sinnvolle Wahl.

OpenAI text-embedding-3 (proprietär API, USA mit Azure-EU-Bridge): small (1536-dim) USD 0.02/1M, large (3072-dim) USD 0.13/1M. Solide Qualität, einfache Integration, Standard-Reflex. Schwäche: Auf Deutsch liegt es hinter Cohere und BGE-M3, Daten gehen an OpenAI USA. Über Azure Switzerland-North oder Sweden-Central als Azure-OpenAI bekommen Sie EU-Hosting plus AVV.

Cohere Embed v3 (proprietär API, Canada, über AWS-Bedrock Frankfurt auch in EU): embed-multilingual-v3 USD 0.10/1M, 1024-dim. Beste API-Lösung für Deutsch und Französisch laut MTEB-DE Mai 2026. Bedrock-Hosting in eu-central-1 erlaubt EU-Residenz. Bevorzugt im Cohere-Stack mit ihrem Rerank-Modell.

Voyage AI (proprietär API, USA, über AWS-Bedrock): voyage-3 USD 0.06/1M, 1024-dim. Stark in RAG-Benchmarks 2025/2026, spezialisiert auf Retrieval-Aufgaben. Für englischsprachige Mandate erstklassig, für Deutsch ebenfalls solide.

Jina Embeddings v3 (Apache 2.0 + Cloud-Tier, Self-host plus EU-Cloud Frankfurt): 1024-dim, mehrsprachig, 8192 Token Kontext (sehr lang). Berliner Anbieter – EU-Datenschutz nativ. Charmant für Mandanten, die einen europäischen Provider wollen, ohne selber zu hosten.

Mistral Embed (proprietär EU, La Plateforme Paris, auch via Azure): EUR 0.10/1M, 1024-dim. EU-natives Modell und EU-Hosting. Etwas jünger als Cohere/BGE, Qualität steigt schnell. Sympathisch im EU-AI-Act-Kontext, weil französischer Vendor.

Nomic Embed v2 (Apache 2.0, Self-host): nomic-embed-text-v2, mehrsprachig, 768-dim mit Matryoshka-Layer (auf 256 truncierbar). Klein, schnell, ehrlich open-source mit Trainingsdaten dokumentiert. Beliebt für lokale Ollama-Setups.

mxbai-embed-large-v1 (MixedBread-AI, Apache 2.0, Self-host): 1024-dim, kompakt, ONNX-freundlich. Sehr starkes Preis-Leistungs-Verhältnis im Self-Host. Für englisch-dominierte Setups mit gelegentlichem Deutsch.

Google Gecko (proprietär, Vertex AI, europe-west3 Frankfurt + europe-west6 Zürich): gecko-001, USD 0.025/1M Tokens, 768-dim. Wichtig: Vertex AI hat eine Schweizer Region. Damit ist Gecko der einzige Hyperscaler-Embedding-Provider mit Schweiz-Hosting. Für Mandanten, die explizit „Daten in der Schweiz" wollen, aber dennoch eine API präferieren.

Auswahl-Workflow in 6 Schritten

01Sprach-Profil klären: Welche Sprachen kommen vor (DE/FR/IT/EN)? Wenn DE/FR dominiert, scheiden englisch-only Modelle aus.
02Hosting-Constraint prüfen: Berufsgeheimnis-Mandate → Self-host (BGE-M3, E5, Nomic). EU-Hosting OK → Cohere/Mistral/Jina. CH-Hosting Pflicht → Google Gecko in Zürich.
03Volumen schätzen: < 10.000 Dokumente → API auch bei kontinuierlicher Re-Ingestion bezahlbar. > 1 Mio Dokumente → Self-host rechnet sich schneller.
04Dimension wählen: Standard 1024-dim (BGE-M3, Cohere v3, Mistral, mxbai). 768-dim wenn Storage knapp (E5, Nomic, Gecko). Matryoshka als Versicherung.
05PoC: 5.000 echte Dokumente einliefern, 30 echte Fragen gegen Top-3 Kandidaten benchmarken, Recall@5 und nDCG@10 messen. Erst dann auswählen.
06Versions-Pin fixieren: Modell + Version in einer Konfigurationsdatei. Re-Indexing-Plan bei Modellwechsel dokumentieren – sonst ist Drift garantiert.

Empfehlung je Anwendungsfall

CH-Treuhand/Anwalt unter Berufsgeheimnis, on-prem-Pflicht: BGE-M3 auf Hetzner Falkenstein. Open-Source, mehrsprachig, beste Qualität ohne API-Abhängigkeit. Hardware-Bedarf: eine CPX31-VM mit GPU-Add-on oder eine GPX130 mit RTX 3060.

CH-KMU, EU-Hosting akzeptabel, beste DE-Qualität gewünscht: Cohere Embed v3 über AWS Bedrock eu-central-1. Datenresidenz EU, MTEB-DE-Spitze, einfache Integration via Bedrock-API.

CH-KMU, Schweiz-Datenresidenz Pflicht, API bevorzugt: Google Gecko auf Vertex AI europe-west6 (Zürich). Einziger Hyperscaler mit Schweiz-Region für Embeddings.

EU-AI-Act-konformer Stack, französischer Vendor erwünscht: Mistral Embed auf La Plateforme Paris. EU-natives Unternehmen, EU-Hosting, EUR-Abrechnung.

Standard-RAG, US-Hosting OK, schnelle Inbetriebnahme: OpenAI text-embedding-3-small. Bekannt, dokumentiert, sehr günstig. Erst-Wahl wenn keine Datenschutz-Constraints und Englisch dominiert.

Lokales Ollama-Setup ohne GPU: Nomic Embed v2 oder multilingual-e5-base. Beide CPU-tauglich, Apache 2.0, klein genug für eine 8-GB-RAM-VM.

RAG-spezialisiert, beste englische Retrieval-Qualität: Voyage-3 via API oder BGE-M3 self-hosted. Beide in 2026er RAG-Benchmarks vorn.

Wann Embedding-Modelle überzogen sind

Wenn Ihre Suche tatsächlich nur Stichworte braucht – Belegnummer, Mandantenname, Datum, Rechnungsbetrag –, dann ist Volltextsuche (Postgres GIN-Index, Elasticsearch) schneller, billiger und exakter. Embeddings rechnen aufwändig nach „semantischer Ähnlichkeit", aber wer eine eindeutige Rechnungsnummer sucht, will keine semantischen Treffer, sondern exakte.

Wenn Ihr Bestand unter 1.000 Dokumenten liegt und jedes Dokument in den Kontext eines modernen LLM passt (das aktuelle Claude-Spitzenmodell mit 200k, Gemini 2.5 Pro mit 2M Tokens), brauchen Sie kein Embedding-Setup – fügen Sie die Dokumente direkt in den Prompt ein. Schneller einzurichten, keine Vektor-DB nötig, kein Embedding-Modell-Versions-Risiko.

Wenn Sie nicht in der Lage sind, das Embedding-Modell zu fixieren (Version, Provider) und Re-Indexing bei Modellwechsel zu organisieren, fangen Sie nicht mit Embeddings an. Ein stiller Provider-Wechsel oder ein Modell-Update zwingt zu Re-Embedding des gesamten Bestands. Wer das nicht versteht, baut sich eine Zeitbombe.

Wenn Sie kein klares Mehrsprachen-Profil haben – also nicht wissen, in welcher Sprache die Dokumente sind und in welcher Sprache die Fragen kommen – bauen Sie kein Embedding-System ohne kurzen Sprach-Audit. Ein deutsches Modell auf französischen Dokumenten ist Geld zum Fenster hinaus.

Vor- und Nachteile

STÄRKEN

BGE-M3: bestes Open-Source-Multilingual-Modell, Self-host, kostenlos
Cohere Embed v3: beste API-Qualität auf Deutsch und Französisch
Google Gecko: einziger API-Provider mit Schweizer Region (Zürich)
Mistral Embed + Jina v3: EU-native, AVV-freundlich, DSGVO-konform

SCHWÄCHEN

OpenAI: US-Hosting per default, auf Deutsch nur Mittelfeld
Self-Hosting (BGE-M3, E5): GPU-Wartung, Versions-Management nötig
API-Provider-Wechsel: erzwingt Re-Embedding des gesamten Bestands
Voyage AI: USA-only, kein EU-Hosting ausser via AWS-Bedrock-Workaround

Häufige Fragen

Welches Modell ist Mai 2026 das beste auf Deutsch?

Auf MTEB-DE liegen Cohere embed-multilingual-v3, BGE-M3 und Voyage-3 sehr eng beieinander, alle drei deutlich vor OpenAI text-embedding-3-large. Für API-Setup nehmen wir Cohere v3 über AWS Bedrock Frankfurt; für Self-Hosting BGE-M3.

Kann ich Embeddings ohne GPU produzieren?

Ja. multilingual-e5-base, Nomic Embed v2 und mxbai-embed-large laufen mit ONNX-Runtime auf reinen CPU-Maschinen. Durchsatz reicht für Ingestion-Lasten unter 100.000 Dokumenten pro Tag. Für höhere Volumina ist GPU (RTX 3060 oder höher) deutlich wirtschaftlicher.

Wie reagiert mein Setup auf einen Modellwechsel?

Vektoren von Modell A sind nicht kompatibel mit Modell B. Ein Wechsel zwingt zu Re-Embedding des gesamten Bestands. Bei 100.000 Dokumenten mit text-embedding-3-small kostet das einmalig rund USD 2 und 1-3 Stunden Laufzeit. Bei Self-Hosting auf BGE-M3 kostet es nur GPU-Zeit. Plan: Original-Dokumente immer aufheben und Embedding-Modell + Version explizit dokumentieren.

Was ist mit Multimodal-Embeddings (Text + Bild)?

CLIP-Style-Modelle (Jina CLIP v2, Cohere embed v4 multimodal) sind Mai 2026 verfügbar und sinnvoll für Setups mit Rechnungs-Scans, Plänen, Diagrammen. Für reine Text-Pipelines (Belegtext, Mail, Verträge) reicht ein Text-Embedding wie BGE-M3 – und ist günstiger.

Quellen

MTEB Leaderboard – Massive Text Embedding Benchmark (HuggingFace) · 2026-05
OpenAI Embeddings – pricing & models (text-embedding-3) · 2026-04
Cohere Embed v3 – embed-multilingual-v3.0 docs · 2026-04
BAAI BGE-M3 – Multi-Lingual, Multi-Functionality, Multi-Granularity · 2026-03
Google Vertex AI Embeddings – regions (incl. europe-west6 Zurich) · 2026-05
Morris et al., Text Embeddings Reveal (Almost) As Much As Text · 2023-10

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen