QWEN 3 · TECH
Qwen 2.5 und Qwen 3: Alibabas Open-Weight-Familie mit Mathe- und Code-Stärke
Qwen 2.5 und Qwen 3 von Alibaba Cloud. Apache-2.0 für kleinere Modelle. Stark multilingual, führend in Mathe und Code. Self-Host löst die PRC-Frage.
Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05
Was ist Qwen?
Qwen (vom chinesischen "Tongyi Qianwen", "1000-fache Antwort") ist die Open-Weight-Sprachmodell-Familie von Alibaba Cloud. Erste Veröffentlichungen 2023, mit Qwen 2.5 als ausgereifter Familie seit Sommer 2024 und Qwen 3 als nächste Generation seit frühem 2026.
Die Qwen-Familie ist breit aufgestellt. Qwen 2.5 umfasst Mai 2026 Modelle in den Grössen 0.5B, 1.5B, 3B, 7B, 14B, 32B und 72B, jeweils in Base- und Instruct-Varianten. Qwen 3, im März 2026 in der ersten Welle veröffentlicht, bietet zusätzlich MoE-Varianten (Qwen3-30B-A3B mit 3B aktiven Parametern, Qwen3-235B-A22B mit 22B aktiv) und verbesserte Reasoning-Fähigkeit über einen "Thinking Mode" – ähnlich dem DeepSeek-R1- oder o3-mini-Ansatz, in dem das Modell vor der eigentlichen Antwort einen ausführlichen Reasoning-Schritt durchläuft.
Lizenz-Lage Mai 2026: Modelle bis Qwen2.5-72B (einschliesslich) sind Apache 2.0. Modelle über 72B (etwa Qwen2.5-72B-Plus, einige Qwen-3-Premium-Varianten) sind unter Tongyi Qianwen License, einer Custom-Lizenz mit kommerzieller Nutzung bis 100 Millionen monatlich aktiven Nutzern. Für Schweizer KMU ist die 100M-Schwelle nicht relevant – beide Lizenzen sind in der Praxis kommerziell nutzbar.
Verfügbarkeit: Hugging Face (Qwen/Qwen2.5-72B-Instruct, Qwen/Qwen3-30B-A3B-Instruct usw.), Alibaba Cloud DashScope API (mit chinesischem oder Singapur-Hosting), Together AI, Fireworks AI, sowie Self-Host via vLLM, TGI, Ollama, llama.cpp.
Die Qwen-Familie umfasst zusätzlich spezialisierte Varianten: Qwen2.5-Coder für Programmierung (auf SWE-Bench Mai 2026 nahe an Top-Frontier-Modellen), Qwen2.5-Math für Mathematik (auf MATH und AIME Spitze unter Open-Weight), QwenVL für Vision-Sprache und Qwen-Audio für Sprach-Verarbeitung. Diese Spezialisierung ist Mai 2026 ein klarer Differenzierungs-Punkt.
Warum Qwen für CH-Daten zählt
Qwen hat Mai 2026 für Schweizer Setups vier konkrete Argumente – und zwei wichtige Vorbehalte.
Erstens: Mathematik und Code als Klassen-Best. Qwen2.5-Math und Qwen2.5-Coder schlagen auf den jeweiligen Benchmarks alle anderen Open-Weight-Familien deutlich. Für eine Treuhandgesellschaft mit komplexen Steuer-Berechnungs-Pipelines (MWST-Sonderfälle, internationale Verrechnungspreise, Pensionskasse-Mathematik) ist Qwen2.5-Math eine produktive Hilfe. Für eine interne Tool-Entwicklungs-Mannschaft, die Skripte und Mikroservices generieren lässt, ist Qwen2.5-Coder auf der Höhe von Claude Sonnet im Code-Bereich.
Zweitens: Multilingual-Stärke und Qwen3-Thinking-Mode. Qwen ist auf rund 30 Sprachen kompetent trainiert, mit besonderem Augenmerk auf Mandarin (logisch für Alibaba), Englisch, Deutsch, Französisch, Spanisch und Japanisch. Auf Deutsch ist Qwen Mai 2026 produktiv-tauglich, wenn auch nicht ganz auf Mistral-Niveau. Der Qwen3-Thinking-Mode liefert auf schwierigen Logik-Aufgaben Resultate, die nahe an Frontier-Modellen liegen – für komplexe Treuhand- oder Anwalts-Reasoning-Fälle interessant.
Drittens: Apache 2.0 für relevante Grössen. Qwen 2.5 bis 72B Apache 2.0 ist die saubererste Lizenz-Konstellation. Self-Host ohne kommerzielle Beschränkungen, Fine-Tuning erlaubt, Modifikation erlaubt. Für KMU-Compliance-Setups ist das attraktiv.
Viertens: Spezialisierte Modelle decken bestimmte Use-Cases optimal ab. Wer eine Beleg-Foto-Verarbeitung mit Vision-Sprache-Modell braucht, hat in QwenVL eine Top-Option. Wer eine interne Code-Assistenz braucht, hat mit Qwen2.5-Coder eine Premium-Variante. Diese Spezialisierung erspart das Suchen nach einzelnen Best-of-Breed-Modellen.
Vorbehalt eins: PRC-Origin. Alibaba ist eine chinesische Firma. Bei API-Use direkt über DashScope gehen Anfragen entweder ins chinesische Festland-Rechenzentrum oder ins Singapur-Zentrum. Für Schweizer Mandanten unter Berufsgeheimnis nach Art. 321 StGB ist das ausgeschlossen – und auch für DSGVO-konforme Setups ist die Drittland-Übertragung mit zusätzlichen TIA-Pflichten verbunden. Self-Host via Hugging Face löst das Problem: die Gewichte sind Open-Weight und laufen im eigenen Rack, ohne dass eine Anfrage Alibaba erreicht.
Vorbehalt zwei: politisches Risiko und Sanktions-Lage. Die US-EU-PRC-Beziehung ist Mai 2026 angespannt. Es ist nicht ausgeschlossen, dass kuenftige Sanktionen Hugging-Face-Downloads von PRC-Modellen einschränken. Wer auf Qwen aufbaut, sollte eine Backup-Strategie haben (Modell-Gewichte lokal sichern, Apertus oder Mistral als Plan-B-Modelle bereithalten).
Qwen in der Praxis
Architektur. Qwen 2.5 ist ein dichtes Transformer-Decoder-Modell mit Grouped-Query-Attention, Rotary Position Embeddings und SwiGLU-Aktivierungs-Funktion – sehr ähnlich zur Llama-Familie. Context-Fenster bei den Hauptmodellen 128k Tokens. Qwen 3 führt MoE-Varianten ein (Qwen3-30B-A3B: 30B total, 3B aktiv) sowie den Thinking Mode, der über den /think-Prompt-Tag aktiviert wird und das Modell zu einem ausführlichen internen Reasoning-Schritt veranlasst.
Setup-Beispiel mit Ollama. Qwen 2.5 72B auf zwei H100 oder einer H100 mit Quantisierung:
``` ollama pull qwen2.5:72b-instruct-q4_K_M ollama run qwen2.5:72b-instruct-q4_K_M "Berechne die Schweizer MWST für EUR 12500 zu 8.1 Prozent." ```
Performance: auf zwei H100 80GB in 4-Bit-AWQ rund 30-50 Tokens/s, auf einer H100 mit GGUF Q4_K_M rund 15-25 Tokens/s.
Setup-Beispiel mit vLLM. Qwen3-30B-A3B (MoE) auf einer H100:
``` docker run --gpus all -p 8000:8000 \ vllm/vllm-openai:v0.6.3 \ --model Qwen/Qwen3-30B-A3B-Instruct \ --max-model-len 32768 \ --gpu-memory-utilization 0.92 \ --enable-prefix-caching ```
MoE-Architektur bedeutet: 30B-Total-Parameter, aber nur 3B aktiv pro Token. Resultat: niedrige Inferenz-Kosten auf einer einzelnen H100, vergleichbar mit einem dichten 3B-Modell – aber Qualität eher auf 14B-Niveau.
Thinking Mode Qwen 3. Aktivierung über System-Prompt:
``` System: /think User: Löse diese Aufgabe Schritt für Schritt: Ein Unternehmen hat 12 Mitarbeiter, davon 3 Teilzeit. Es können pro Vollzeit-Stelle CHF 500 BVG-Beitrag pro Monat geltend gemacht werden. Wie hoch ist die Jahres-Summe? ```
Das Modell generiert zuerst einen "Thinking-Block" mit ausführlichem Reasoning, dann die finale Antwort. Der Thinking-Block ist im Output sichtbar und kann für Audit-Zwecke geloggt werden – wichtig für EU-AI-Act-Art-15-Logging-Pflichten.
Code-Workflow mit Qwen2.5-Coder. Qwen2.5-Coder gibt es in 7B, 14B und 32B. Auf einer RTX 4090 läuft Qwen2.5-Coder-32B in 4-Bit-AWQ-Quantisierung mit 30-50 Tokens/s – produktiv für interne Code-Assistenz. Integration über Continue.dev oder VS-Code-Extension mit OpenAI-API-Endpunkt.
RAG-Setup mit Qwen-Embeddings. Qwen hat eigene Embedding-Modelle (Qwen3-Embedding-8B Mai 2026 auf MTEB-Benchmark führend). In einer Schweizer RAG-Pipeline lässt sich Qwen3-Embedding-8B in LocalAI oder TEI laden, mit Qdrant als Vektor-DB und Apertus 70B oder Mistral Large 2 als Generator-Modell.
Hosting-Empfehlung. Apache-2.0-Qwen-Modelle laufen am besten Self-Host: Hugging-Face-Download einmalig, dann komplett offline-fähig. Für EU/CH-Compliance ist diese Variante die saubere Wahl. DashScope-API über Singapur kann für nicht-sensitive Workloads eine Option sein, aber DSGVO-TIA und DSG-Drittland-Prüfung sind dabei Pflicht.
Qwen produktiv in 5 Schritten
- 01Compliance-Prüfung: PRC-Origin im Kontext der Mandanten-Sensitivität und Compliance-Politik bewerten. Self-Host ist die saubere Variante; API-Use über DashScope verlangt TIA und DSG-Drittland-Prüfung.
- 02Modell-Wahl: Qwen2.5-72B als allgemeines Workhorse (Apache 2.0), Qwen2.5-Math für Mathematik, Qwen2.5-Coder-32B für Code, Qwen3-30B-A3B für effiziente MoE-Inferenz, Qwen3-Thinking-Variante für komplexes Reasoning.
- 03Hardware-Prüfung: Qwen2.5-72B in 4-Bit-AWQ braucht ca. 45 GB VRAM (eine H100 oder zwei RTX 4090). MoE-Varianten sind speichereffizient – Qwen3-30B-A3B passt auf eine RTX 4090.
- 04Self-Host via vLLM oder Ollama, OpenAI-kompatibler Endpunkt, LiteLLM davor mit logischen Modell-Namen (qwen-math-local, qwen-coder-local, qwen3-thinking-local).
- 05Use-Case-Benchmark gegen Apertus 70B, Mistral Large 2 und das aktuelle Claude-Spitzenmodell. Routing-Regeln daraus: Mathematik-intensive Anfragen an Qwen-Math, Code-Generierung an Qwen-Coder, sensitive CH-Sprache an Apertus, allgemeines Reasoning an Mistral oder Claude.
Wann Qwen einsetzen
Qwen ist die richtige Wahl, wenn (a) Mathematik- oder Code-spezialisierte Workloads im Vordergrund stehen, (b) eine Apache-2.0-Lizenz im Vordergrund steht, oder (c) der Qwen3-Thinking-Mode für komplexes Reasoning gebraucht wird.
Konkrete Fälle: Treuhand mit komplexen Steuer-Berechnungs-Pipelines – Qwen2.5-Math als Self-Host für Mathematik-intensive Workloads. Software-Beratungs-Boutique mit interner Code-Generierung – Qwen2.5-Coder-32B auf einer RTX 4090. KMU mit RAG-Setup, das Embeddings lokal halten will – Qwen3-Embedding-8B in LocalAI oder TEI.
Für Schweizer Setups, die ausschliesslich Self-Host machen und Apache-2.0-Lizenz im Vordergrund haben, ist Qwen 2.5 bis 72B eine direkte Konkurrenz zu Apertus 70B. Apertus ist bei CH-spezifischer Sprache voraus; Qwen ist bei Mathematik und Code voraus. Eine Multi-Provider-Strategie mit beiden ist sinnvoll.
Wann NICHT
Für Setups mit hochsensitive Mandanten-Daten (Berufsgeheimnis, FINMA-strenge Mandate) ist die API-Variante über DashScope ausgeschlossen – auch das Singapur-Hosting bleibt Drittland. Self-Host bleibt offen, aber das über-politische Argument (PRC-Origin) muss in der internen Diskussion adressiert werden. Wer das nicht will, geht zu Apertus, Mistral oder Llama 4 als Alternativen.
Für Romansh- oder Schwizerdütsch-Workloads ist Qwen nicht trainiert. Hier bleibt Apertus die richtige Wahl.
Für Top-Frontier-Reasoning auf der Spitze (Mathematik-Olympiade-Stufe über Qwen2.5-Math hinaus, komplexe juristische Vier-Schritte-Argumentation) ist das aktuelle Claude-Spitzenmodell oder das aktuelle GPT-Spitzenmodell noch voraus. Qwen3 mit Thinking Mode ist nahe, aber nicht ganz auf Frontier-Niveau.
Für Setups, in denen eine US- oder EU-Provider-Bindung aus Compliance-Gründen gewünscht ist (etwa eine Schweizer Bank, die nur Westliche Anbieter akzeptiert), ist Qwen die falsche Wahl unabhängig von der technischen Qualität.
Vor- und Nachteile
STÄRKEN
- Apache 2.0 für Modelle bis 72B – saubere Lizenz für kommerzielle Self-Host-Setups
- Klasse-Best bei Mathematik (Qwen2.5-Math) und Code (Qwen2.5-Coder)
- Qwen3 Thinking Mode liefert auf schwierigen Reasoning-Fällen Top-Resultate
- MoE-Varianten (Qwen3-30B-A3B) sind speicher- und kosten-effizient bei guter Qualität
SCHWÄCHEN
- PRC-Origin – API-Use über DashScope nicht für Berufsgeheimnis-Mandate
- Romansh und Schwizerdütsch nicht trainiert – Apertus bleibt für CH-Sprache voraus
- Politisches Risiko durch mögliche Sanktionen – Backup-Strategie nötig
- Deutsch produktiv, aber nicht ganz auf Mistral-Niveau bei juristischer Präzision
Häufige Fragen
Was unterscheidet Qwen 2.5 von Qwen 3?
Qwen 2.5 ist die ausgereifte dichte Familie, breit getestet, stabil. Qwen 3 bringt Mai 2026 drei wichtige Neuerungen: MoE-Architektur für effiziente Inferenz (Qwen3-30B-A3B, Qwen3-235B-A22B), Thinking Mode für Reasoning-Schritt-für-Schritt-Generierung, und verbesserte Multilingual-Fähigkeit. Für Standard-Workloads ist Qwen 2.5 ausreichend; für Reasoning-intensive Fälle lohnt Qwen 3.
Ist Qwen via DashScope DSG-konform nutzbar?
Bedingt. DashScope bietet Hosting in Singapur – ein Drittland gegenüber der Schweiz und der EU. Eine TIA (Transfer Impact Assessment) ist Pflicht, eine Rechtsgrundlage nach DSG Art. 16-18 (oder DSGVO Art. 44-49) muss gegeben sein. Standardvertragsklauseln nach EU-Modell sind via DashScope verfügbar. Für hochsensitive Mandanten-Daten bleibt Self-Host die saubere Wahl; für nicht-sensitive Workloads (öffentliche Texte, generische Code-Generierung) ist DashScope nutzbar.
Welche Performance liefert Qwen2.5-Math?
Auf dem MATH-Benchmark Mai 2026 erreicht Qwen2.5-Math-72B etwa 85 Punkte, das ist deutlich vor Llama 3.3 70B (etwa 56) und Apertus 70B (etwa 62). Auf AIME (American Invitational Mathematics Examination) liefert Qwen2.5-Math-72B mit Thinking Mode Ergebnisse, die mit Claude 3.5 Sonnet vergleichbar sind. Für Treuhand-Mathematik-Workloads (BVG, Steuer-Berechnung, Verrechnungspreise) ist Qwen2.5-Math klar die beste Open-Weight-Wahl.
Wie sicher ist die langfristige Verfügbarkeit?
Die Open-Weight-Gewichte sind via Hugging Face frei und in vielen Mirrors verfügbar. Mai 2026 sind sie nicht von Sanktionen betroffen. Risiko-Szenario: kuenftige US- oder EU-Sanktionen könnten Hugging-Face-Hosting von PRC-Modellen einschränken oder Software-Lieferketten betreffen. Vorsorge: Modell-Gewichte einmal lokal sichern (etwa via huggingface-cli), Backup-Modell-Strategie mit Apertus oder Mistral, Compliance-Klausel-Prüfung jährlich.
Verwandte Themen
Quellen
PASSEND ZU IHREM STACK?