fairlane.systems

QWEN 3 · TECH

Qwen 2.5 und Qwen 3: Alibabas Open-Weight-Familie mit Mathe- und Code-Stärke

Qwen 2.5 und Qwen 3 von Alibaba Cloud. Apache-2.0 für kleinere Modelle. Stark multilingual, führend in Mathe und Code. Self-Host löst die PRC-Frage.

Recherche & Faktencheck: · Stand: 2026-05

Was ist Qwen?

Qwen (vom chinesischen "Tongyi Qianwen", "1000-fache Antwort") ist die Open-Weight-Sprachmodell-Familie von Alibaba Cloud. Erste Veröffentlichungen 2023, mit Qwen 2.5 als ausgereifter Familie seit Sommer 2024 und Qwen 3 als nächste Generation seit frühem 2026.

Die Qwen-Familie ist breit aufgestellt. Qwen 2.5 umfasst Mai 2026 Modelle in den Grössen 0.5B, 1.5B, 3B, 7B, 14B, 32B und 72B, jeweils in Base- und Instruct-Varianten. Qwen 3, im März 2026 in der ersten Welle veröffentlicht, bietet zusätzlich MoE-Varianten (Qwen3-30B-A3B mit 3B aktiven Parametern, Qwen3-235B-A22B mit 22B aktiv) und verbesserte Reasoning-Fähigkeit über einen "Thinking Mode" – ähnlich dem DeepSeek-R1- oder o3-mini-Ansatz, in dem das Modell vor der eigentlichen Antwort einen ausführlichen Reasoning-Schritt durchläuft.

Lizenz-Lage Mai 2026: Modelle bis Qwen2.5-72B (einschliesslich) sind Apache 2.0. Modelle über 72B (etwa Qwen2.5-72B-Plus, einige Qwen-3-Premium-Varianten) sind unter Tongyi Qianwen License, einer Custom-Lizenz mit kommerzieller Nutzung bis 100 Millionen monatlich aktiven Nutzern. Für Schweizer KMU ist die 100M-Schwelle nicht relevant – beide Lizenzen sind in der Praxis kommerziell nutzbar.

Verfügbarkeit: Hugging Face (Qwen/Qwen2.5-72B-Instruct, Qwen/Qwen3-30B-A3B-Instruct usw.), Alibaba Cloud DashScope API (mit chinesischem oder Singapur-Hosting), Together AI, Fireworks AI, sowie Self-Host via vLLM, TGI, Ollama, llama.cpp.

Die Qwen-Familie umfasst zusätzlich spezialisierte Varianten: Qwen2.5-Coder für Programmierung (auf SWE-Bench Mai 2026 nahe an Top-Frontier-Modellen), Qwen2.5-Math für Mathematik (auf MATH und AIME Spitze unter Open-Weight), QwenVL für Vision-Sprache und Qwen-Audio für Sprach-Verarbeitung. Diese Spezialisierung ist Mai 2026 ein klarer Differenzierungs-Punkt.

Warum Qwen für CH-Daten zählt

Qwen hat Mai 2026 für Schweizer Setups vier konkrete Argumente – und zwei wichtige Vorbehalte.

Erstens: Mathematik und Code als Klassen-Best. Qwen2.5-Math und Qwen2.5-Coder schlagen auf den jeweiligen Benchmarks alle anderen Open-Weight-Familien deutlich. Für eine Treuhandgesellschaft mit komplexen Steuer-Berechnungs-Pipelines (MWST-Sonderfälle, internationale Verrechnungspreise, Pensionskasse-Mathematik) ist Qwen2.5-Math eine produktive Hilfe. Für eine interne Tool-Entwicklungs-Mannschaft, die Skripte und Mikroservices generieren lässt, ist Qwen2.5-Coder auf der Höhe von Claude Sonnet im Code-Bereich.

Zweitens: Multilingual-Stärke und Qwen3-Thinking-Mode. Qwen ist auf rund 30 Sprachen kompetent trainiert, mit besonderem Augenmerk auf Mandarin (logisch für Alibaba), Englisch, Deutsch, Französisch, Spanisch und Japanisch. Auf Deutsch ist Qwen Mai 2026 produktiv-tauglich, wenn auch nicht ganz auf Mistral-Niveau. Der Qwen3-Thinking-Mode liefert auf schwierigen Logik-Aufgaben Resultate, die nahe an Frontier-Modellen liegen – für komplexe Treuhand- oder Anwalts-Reasoning-Fälle interessant.

Drittens: Apache 2.0 für relevante Grössen. Qwen 2.5 bis 72B Apache 2.0 ist die saubererste Lizenz-Konstellation. Self-Host ohne kommerzielle Beschränkungen, Fine-Tuning erlaubt, Modifikation erlaubt. Für KMU-Compliance-Setups ist das attraktiv.

Viertens: Spezialisierte Modelle decken bestimmte Use-Cases optimal ab. Wer eine Beleg-Foto-Verarbeitung mit Vision-Sprache-Modell braucht, hat in QwenVL eine Top-Option. Wer eine interne Code-Assistenz braucht, hat mit Qwen2.5-Coder eine Premium-Variante. Diese Spezialisierung erspart das Suchen nach einzelnen Best-of-Breed-Modellen.

Vorbehalt eins: PRC-Origin. Alibaba ist eine chinesische Firma. Bei API-Use direkt über DashScope gehen Anfragen entweder ins chinesische Festland-Rechenzentrum oder ins Singapur-Zentrum. Für Schweizer Mandanten unter Berufsgeheimnis nach Art. 321 StGB ist das ausgeschlossen – und auch für DSGVO-konforme Setups ist die Drittland-Übertragung mit zusätzlichen TIA-Pflichten verbunden. Self-Host via Hugging Face löst das Problem: die Gewichte sind Open-Weight und laufen im eigenen Rack, ohne dass eine Anfrage Alibaba erreicht.

Vorbehalt zwei: politisches Risiko und Sanktions-Lage. Die US-EU-PRC-Beziehung ist Mai 2026 angespannt. Es ist nicht ausgeschlossen, dass kuenftige Sanktionen Hugging-Face-Downloads von PRC-Modellen einschränken. Wer auf Qwen aufbaut, sollte eine Backup-Strategie haben (Modell-Gewichte lokal sichern, Apertus oder Mistral als Plan-B-Modelle bereithalten).

Qwen in der Praxis

Architektur. Qwen 2.5 ist ein dichtes Transformer-Decoder-Modell mit Grouped-Query-Attention, Rotary Position Embeddings und SwiGLU-Aktivierungs-Funktion – sehr ähnlich zur Llama-Familie. Context-Fenster bei den Hauptmodellen 128k Tokens. Qwen 3 führt MoE-Varianten ein (Qwen3-30B-A3B: 30B total, 3B aktiv) sowie den Thinking Mode, der über den /think-Prompt-Tag aktiviert wird und das Modell zu einem ausführlichen internen Reasoning-Schritt veranlasst.

Setup-Beispiel mit Ollama. Qwen 2.5 72B auf zwei H100 oder einer H100 mit Quantisierung:

``` ollama pull qwen2.5:72b-instruct-q4_K_M ollama run qwen2.5:72b-instruct-q4_K_M "Berechne die Schweizer MWST für EUR 12500 zu 8.1 Prozent." ```

Performance: auf zwei H100 80GB in 4-Bit-AWQ rund 30-50 Tokens/s, auf einer H100 mit GGUF Q4_K_M rund 15-25 Tokens/s.

Setup-Beispiel mit vLLM. Qwen3-30B-A3B (MoE) auf einer H100:

``` docker run --gpus all -p 8000:8000 \ vllm/vllm-openai:v0.6.3 \ --model Qwen/Qwen3-30B-A3B-Instruct \ --max-model-len 32768 \ --gpu-memory-utilization 0.92 \ --enable-prefix-caching ```

MoE-Architektur bedeutet: 30B-Total-Parameter, aber nur 3B aktiv pro Token. Resultat: niedrige Inferenz-Kosten auf einer einzelnen H100, vergleichbar mit einem dichten 3B-Modell – aber Qualität eher auf 14B-Niveau.

Thinking Mode Qwen 3. Aktivierung über System-Prompt:

``` System: /think User: Löse diese Aufgabe Schritt für Schritt: Ein Unternehmen hat 12 Mitarbeiter, davon 3 Teilzeit. Es können pro Vollzeit-Stelle CHF 500 BVG-Beitrag pro Monat geltend gemacht werden. Wie hoch ist die Jahres-Summe? ```

Das Modell generiert zuerst einen "Thinking-Block" mit ausführlichem Reasoning, dann die finale Antwort. Der Thinking-Block ist im Output sichtbar und kann für Audit-Zwecke geloggt werden – wichtig für EU-AI-Act-Art-15-Logging-Pflichten.

Code-Workflow mit Qwen2.5-Coder. Qwen2.5-Coder gibt es in 7B, 14B und 32B. Auf einer RTX 4090 läuft Qwen2.5-Coder-32B in 4-Bit-AWQ-Quantisierung mit 30-50 Tokens/s – produktiv für interne Code-Assistenz. Integration über Continue.dev oder VS-Code-Extension mit OpenAI-API-Endpunkt.

RAG-Setup mit Qwen-Embeddings. Qwen hat eigene Embedding-Modelle (Qwen3-Embedding-8B Mai 2026 auf MTEB-Benchmark führend). In einer Schweizer RAG-Pipeline lässt sich Qwen3-Embedding-8B in LocalAI oder TEI laden, mit Qdrant als Vektor-DB und Apertus 70B oder Mistral Large 2 als Generator-Modell.

Hosting-Empfehlung. Apache-2.0-Qwen-Modelle laufen am besten Self-Host: Hugging-Face-Download einmalig, dann komplett offline-fähig. Für EU/CH-Compliance ist diese Variante die saubere Wahl. DashScope-API über Singapur kann für nicht-sensitive Workloads eine Option sein, aber DSGVO-TIA und DSG-Drittland-Prüfung sind dabei Pflicht.

Qwen produktiv in 5 Schritten

  1. 01Compliance-Prüfung: PRC-Origin im Kontext der Mandanten-Sensitivität und Compliance-Politik bewerten. Self-Host ist die saubere Variante; API-Use über DashScope verlangt TIA und DSG-Drittland-Prüfung.
  2. 02Modell-Wahl: Qwen2.5-72B als allgemeines Workhorse (Apache 2.0), Qwen2.5-Math für Mathematik, Qwen2.5-Coder-32B für Code, Qwen3-30B-A3B für effiziente MoE-Inferenz, Qwen3-Thinking-Variante für komplexes Reasoning.
  3. 03Hardware-Prüfung: Qwen2.5-72B in 4-Bit-AWQ braucht ca. 45 GB VRAM (eine H100 oder zwei RTX 4090). MoE-Varianten sind speichereffizient – Qwen3-30B-A3B passt auf eine RTX 4090.
  4. 04Self-Host via vLLM oder Ollama, OpenAI-kompatibler Endpunkt, LiteLLM davor mit logischen Modell-Namen (qwen-math-local, qwen-coder-local, qwen3-thinking-local).
  5. 05Use-Case-Benchmark gegen Apertus 70B, Mistral Large 2 und das aktuelle Claude-Spitzenmodell. Routing-Regeln daraus: Mathematik-intensive Anfragen an Qwen-Math, Code-Generierung an Qwen-Coder, sensitive CH-Sprache an Apertus, allgemeines Reasoning an Mistral oder Claude.

Wann Qwen einsetzen

Qwen ist die richtige Wahl, wenn (a) Mathematik- oder Code-spezialisierte Workloads im Vordergrund stehen, (b) eine Apache-2.0-Lizenz im Vordergrund steht, oder (c) der Qwen3-Thinking-Mode für komplexes Reasoning gebraucht wird.

Konkrete Fälle: Treuhand mit komplexen Steuer-Berechnungs-Pipelines – Qwen2.5-Math als Self-Host für Mathematik-intensive Workloads. Software-Beratungs-Boutique mit interner Code-Generierung – Qwen2.5-Coder-32B auf einer RTX 4090. KMU mit RAG-Setup, das Embeddings lokal halten will – Qwen3-Embedding-8B in LocalAI oder TEI.

Für Schweizer Setups, die ausschliesslich Self-Host machen und Apache-2.0-Lizenz im Vordergrund haben, ist Qwen 2.5 bis 72B eine direkte Konkurrenz zu Apertus 70B. Apertus ist bei CH-spezifischer Sprache voraus; Qwen ist bei Mathematik und Code voraus. Eine Multi-Provider-Strategie mit beiden ist sinnvoll.

Wann NICHT

Für Setups mit hochsensitive Mandanten-Daten (Berufsgeheimnis, FINMA-strenge Mandate) ist die API-Variante über DashScope ausgeschlossen – auch das Singapur-Hosting bleibt Drittland. Self-Host bleibt offen, aber das über-politische Argument (PRC-Origin) muss in der internen Diskussion adressiert werden. Wer das nicht will, geht zu Apertus, Mistral oder Llama 4 als Alternativen.

Für Romansh- oder Schwizerdütsch-Workloads ist Qwen nicht trainiert. Hier bleibt Apertus die richtige Wahl.

Für Top-Frontier-Reasoning auf der Spitze (Mathematik-Olympiade-Stufe über Qwen2.5-Math hinaus, komplexe juristische Vier-Schritte-Argumentation) ist das aktuelle Claude-Spitzenmodell oder das aktuelle GPT-Spitzenmodell noch voraus. Qwen3 mit Thinking Mode ist nahe, aber nicht ganz auf Frontier-Niveau.

Für Setups, in denen eine US- oder EU-Provider-Bindung aus Compliance-Gründen gewünscht ist (etwa eine Schweizer Bank, die nur Westliche Anbieter akzeptiert), ist Qwen die falsche Wahl unabhängig von der technischen Qualität.

Vor- und Nachteile

STÄRKEN

  • Apache 2.0 für Modelle bis 72B – saubere Lizenz für kommerzielle Self-Host-Setups
  • Klasse-Best bei Mathematik (Qwen2.5-Math) und Code (Qwen2.5-Coder)
  • Qwen3 Thinking Mode liefert auf schwierigen Reasoning-Fällen Top-Resultate
  • MoE-Varianten (Qwen3-30B-A3B) sind speicher- und kosten-effizient bei guter Qualität

SCHWÄCHEN

  • PRC-Origin – API-Use über DashScope nicht für Berufsgeheimnis-Mandate
  • Romansh und Schwizerdütsch nicht trainiert – Apertus bleibt für CH-Sprache voraus
  • Politisches Risiko durch mögliche Sanktionen – Backup-Strategie nötig
  • Deutsch produktiv, aber nicht ganz auf Mistral-Niveau bei juristischer Präzision

Häufige Fragen

Was unterscheidet Qwen 2.5 von Qwen 3?

Qwen 2.5 ist die ausgereifte dichte Familie, breit getestet, stabil. Qwen 3 bringt Mai 2026 drei wichtige Neuerungen: MoE-Architektur für effiziente Inferenz (Qwen3-30B-A3B, Qwen3-235B-A22B), Thinking Mode für Reasoning-Schritt-für-Schritt-Generierung, und verbesserte Multilingual-Fähigkeit. Für Standard-Workloads ist Qwen 2.5 ausreichend; für Reasoning-intensive Fälle lohnt Qwen 3.

Ist Qwen via DashScope DSG-konform nutzbar?

Bedingt. DashScope bietet Hosting in Singapur – ein Drittland gegenüber der Schweiz und der EU. Eine TIA (Transfer Impact Assessment) ist Pflicht, eine Rechtsgrundlage nach DSG Art. 16-18 (oder DSGVO Art. 44-49) muss gegeben sein. Standardvertragsklauseln nach EU-Modell sind via DashScope verfügbar. Für hochsensitive Mandanten-Daten bleibt Self-Host die saubere Wahl; für nicht-sensitive Workloads (öffentliche Texte, generische Code-Generierung) ist DashScope nutzbar.

Welche Performance liefert Qwen2.5-Math?

Auf dem MATH-Benchmark Mai 2026 erreicht Qwen2.5-Math-72B etwa 85 Punkte, das ist deutlich vor Llama 3.3 70B (etwa 56) und Apertus 70B (etwa 62). Auf AIME (American Invitational Mathematics Examination) liefert Qwen2.5-Math-72B mit Thinking Mode Ergebnisse, die mit Claude 3.5 Sonnet vergleichbar sind. Für Treuhand-Mathematik-Workloads (BVG, Steuer-Berechnung, Verrechnungspreise) ist Qwen2.5-Math klar die beste Open-Weight-Wahl.

Wie sicher ist die langfristige Verfügbarkeit?

Die Open-Weight-Gewichte sind via Hugging Face frei und in vielen Mirrors verfügbar. Mai 2026 sind sie nicht von Sanktionen betroffen. Risiko-Szenario: kuenftige US- oder EU-Sanktionen könnten Hugging-Face-Hosting von PRC-Modellen einschränken oder Software-Lieferketten betreffen. Vorsorge: Modell-Gewichte einmal lokal sichern (etwa via huggingface-cli), Backup-Modell-Strategie mit Apertus oder Mistral, Compliance-Klausel-Prüfung jährlich.

Verwandte Themen

APERTUS · COMPLIANCEApertus: das offene Schweizer KI-Modell von ETH Zurich, EPFL und CSCS – Stand Mai 2026OPEN-WEIGHT-MODELLE - VERGLEICHOpen-Weight-Modelle im Vergleich: Llama 3.3/4, Mistral, DeepSeek, Qwen, Gemma, Phi-4, Command R, Falcon, GLM, ApertusDEEPSEEK · TECHDeepSeek (V- und R-Linie): das chinesische MoE-Reasoning-Modell mit Self-Host-OptionMISTRAL LARGE · TECHMistral Large 2 und Mistral Small 3.1: das EU-Modell-Paar mit FR/DE/IT-StärkeVLLM · TECHvLLM: Production-Serving für Open-Weight-LLMs mit hoher Throughput und PagedAttentionOLLAMA · TECHOllama: lokale LLMs auf eigener Hardware – wo es funktioniert und wo nichtSELF-HOSTED VS. CLOUD · AI-KONZEPTSelf-Hosted vs. Cloud-LLM: Entscheidungs-Framework für KMU und Treuhand

Quellen

  1. Qwen – official model collection on Hugging Face · 2026-05
  2. Qwen 3 – release notes and Thinking Mode introduction · 2026-03
  3. Qwen2.5-Math – paper and benchmarks · 2026-04
  4. Alibaba Cloud DashScope – Qwen API documentation · 2026-05

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen