fairlane.systems

OPEN-WEIGHT-MODELLE - VERGLEICH

Open-Weight-Modelle im Vergleich: Llama 3.3/4, Mistral, DeepSeek, Qwen, Gemma, Phi-4, Command R, Falcon, GLM, Apertus

Elf Open-Weight-Modell-Familien plus das Schweizer Apertus, im Mai 2026 verfügbar. Lizenz, VRAM-Bedarf, Mehrsprachigkeit, Praxis-Empfehlung.

Recherche & Faktencheck: · Stand: 2026-05

Was sind Open-Weight-Modelle?

Ein Open-Weight-Modell ist ein Sprachmodell, dessen trainierte Parameter (die "Gewichte") öffentlich heruntergeladen, lokal ausgeführt und teilweise auch kommerziell genutzt werden dürfen. Der Begriff ist bewusst enger als "Open Source": Trainings-Daten, Trainings-Code und Trainings-Recheneinsatz sind in der Regel nicht offengelegt. Wer Open-Weight einsetzt, bekommt das Modell, nicht den Bauplan dazu.

Die Lizenz-Frage ist Mai 2026 nicht trivial. Llama hat die Meta Community License, die für Firmen mit mehr als 700 Millionen monatlich aktiven Nutzern eine zusätzliche Lizenz verlangt - für KMU irrelevant, aber rechtlich erwähnenswert. Mistral mischt Apache-2.0 (kleine Modelle) und eine eigene Research-Lizenz (grössere Modelle). DeepSeek hat eine eigene Lizenz mit Nutzungs-Einschränkungen. Qwen ist bis 72B Apache 2.0, daruber Tongyi-Qianwen-Lizenz. Gemma hat eine Custom-Lizenz, die kommerzielle Nutzung erlaubt aber Use-Cases einschränkt. Phi-4 ist MIT, das einfachste Setup. Command R+ ist CC-BY-NC-4.0 NON-COMMERCIAL - kommerziell nur über die Cohere-API, nicht im Self-Hosting. Falcon und GLM sind grossteils Apache 2.0.

Für Treuhand- und Anwalts-Buros heisst das: vor jedem Self-Hosting muss die Lizenz gegen den geplanten Use-Case geprüft werden. Ein als "open" beworbenes Modell mit NC-Klausel ist für Honorar-Arbeit am Mandanten ausgeschlossen.

Warum die Wahl wichtig ist

Drei Achsen entscheiden im Schweizer Kontext: Mehrsprachigkeit, VRAM-Bedarf und Lizenz-Kompatibilität. Die vierte, oft unterschätzte Achse ist die Daten-Herkunft des Trainings - relevant für Compliance unter EU AI Act 2026 und für das Vertrauen der Mandanten.

Mehrsprachigkeit: Schweizer Mandate kommen in Deutsch, Französisch, Italienisch, gelegentlich Englisch und in Graubünden auch Romanisch. Modelle, die nur Englisch gut können (viele US-Modelle in frühen Versionen), sind für Treuhand und Recht in der Romandie oder im Tessin nicht brauchbar. Mistral (EU-Origin), Llama 4 (offiziell multilingual), Apertus (CH-Origin, Romanisch inklusive) und Qwen 2.5/3 sind hier stark. Phi-4 ist gut auf Englisch, schwächer auf Deutsch. Command R hat einen multilingualen Fokus.

VRAM-Bedarf: Ein 70B-Modell in voller FP16-Präzision braucht etwa 140 GB VRAM. In 4-Bit-Quantisierung schrumpft das auf 35-45 GB - passt auf eine H100 oder zwei RTX 4090. Ein 17B-Modell wie Llama 4 Scout reicht in 4-Bit-Quantisierung mit 12-15 GB VRAM aus, läuft also auf einer RTX 4060 Ti. Phi-4 (14B) ist mit 8-10 GB VRAM zufrieden. Das entscheidet die Hardware-Investition.

Lizenz-Kompatibilität: Wer Mandanten-Beratung als Honorar abrechnet, ist "kommerzielle Nutzung". Damit fallen Command R+ (NC), Llama 3 (mit über 700M MAU-Klausel) und Teile von Mistral (Research-Lizenz) je nach Konstellation raus. Apache 2.0 (vLLM-Phi-Qwen-Falcon-GLM) und MIT (Phi-4) sind die saubersten Optionen. Apertus ist Apache 2.0 - und damit für CH-Use-Cases doppelt attraktiv.

Die elf Modell-Familien im Detail

Llama 3.3 (70B): Meta Community License. Englisch plus offiziell 8 weitere Sprachen, Deutsch und Französisch ordentlich. Auf einer H100 (80 GB) in 4-Bit läuft Llama 3.3 70B problemlos mit 15-22 Tokens/s in Ollama. Solide Allzweck-Wahl bis Llama 4 sich produktiv durchgesetzt hat.

Llama 4 Scout / Maverick: Im April 2026 von Meta veröffentlicht. MoE-Architektur (Mixture of Experts). Scout hat 17B aktive Parameter mit 16 Experten und 10 Millionen Token Kontext - passt auf eine H100. Maverick hat 17B aktive Parameter mit 128 Experten, 400B total, schlägt GPT-4o auf vielen Benchmarks. Multilingual designed, mit echtem Deutsch-Support. Behemoth (288B aktiv, 2T total) ist Mai 2026 angekündigt aber noch nicht released.

Mistral Large 2 / Small 3.1: Mistral License (kommerziell mit Einschränkungen bei grösseren Modellen, Apache 2.0 für kleinere). Frankreich-basiert, EU-Origin, sehr stark bei DE/FR/IT - Mistral hat die EU-Sprachen in den Trainingsdaten überproportional repräsentiert. Standard-Wahl, wenn EU-Datenresidenz ein Argument ist.

DeepSeek V3 / V4: DeepSeek-Lizenz (Self-Host möglich). PRC-Origin - bei API-Use direkt bei DeepSeek-Cloud gilt: Daten gehen nach China. Bei Self-Hosting via Hugging Face ist das kein Problem mehr. Sehr starkes Modell, vor allem bei Code und Reasoning, überraschend günstig zu betreiben (effizientes MoE-Design).

Qwen 2.5 / Qwen 3: Apache 2.0 bis 72B, daruber Tongyi-Qianwen-Lizenz. Alibaba-Origin (PRC) - selbe Anmerkung wie DeepSeek: bei Self-Host kein Daten-Problem. Sehr stark bei Mathe, Code und multilingual (Mai 2026 inklusive ordentliches Deutsch). Qwen 3 erschien Anfang 2026 mit verbesserter Reasoning-Fähigkeit.

Gemma 2 / Gemma 3: Google, Custom-Lizenz mit Use-Case-Einschränkungen (keine Waffen, kein Stalking). 2B bis 27B, also Edge-tauglich. Gut auf Englisch, schwächer auf Deutsch. Für mobile oder embedded-Setups die kompakteste Option neben Phi-4.

Phi-4: Microsoft, MIT-Lizenz, 14B Parameter. Sehr stark für die Grösse - auf vielen Reasoning-Benchmarks auf Höhe von 70B-Modellen. Trainings-Fokus auf synthetisch generierte Curriculum-Daten. Englisch sehr gut, Deutsch akzeptabel. Lieblings-Wahl für Setups mit begrenztem VRAM.

Command R / Command R+: Cohere, CC-BY-NC-4.0 für die Open-Weight-Variante. NICHT kommerziell nutzbar als Self-Host - für kommerzielle Anwendung muss die Cohere-API gebucht werden. Multilingual stark, RAG-optimiert. Im Vergleich hier nur für den Vollständigkeits-Sinn - für Honorar-Arbeit fällt es aus.

Falcon 3: TII (UAE), Apache 2.0. 7B bis 180B. Starke Arabisch- und Englisch-Fähigkeiten. Wer mit nahoestlichen Mandanten arbeitet (was in Genfer und Züricher Treuhand vorkommt), findet hier eine Option.

GLM-4 / GLM-4.5: Tsinghua-University, MIT-Lizenz für kleinere Versionen. PRC-Origin, aber Self-Host löst das. Multilingual mit Chinesisch-Stärke. In westlichen Setups weniger verbreitet, gewinnt aber Boden.

Apertus (8B / 70B): Im September 2025 von ETH Zürich, EPFL und CSCS veröffentlicht. Apache 2.0. Auf 15 Billionen Tokens in über 1000 Sprachen trainiert, davon 40% nicht-Englisch. Schweizerdeutsch, Romanisch und alle Schweizer Landessprachen explizit vertreten. Trainings-Daten und -Recipe sind vollständig offengelegt - das ist für EU-AI-Act-Compliance ein echter Vorteil. Verfügbar bei Swisscom, Hugging Face und Public AI Network. Mai 2026 die natürlichste Wahl, wenn Daten-Souveränität und CH-Bezug Priorität haben.

Modell-Auswahl in 6 Schritten

  1. 01Lizenz prüfen: ist kommerzielle Nutzung erlaubt? Command R+ (NC) und Teile von Mistral raus, falls Honorar abgerechnet wird.
  2. 02Sprachen-Set definieren: DE/FR/IT/Romanisch nötig? Apertus, Mistral, Llama 4 führend. Phi-4 und Gemma nur für Englisch-zentrierte Use-Cases.
  3. 03Hardware-Budget festlegen: 8 GB VRAM (Gemma, Phi-4 quantisiert), 24 GB (Llama 4 Scout, Apertus 8B), 80 GB (Apertus 70B, Llama 3.3 70B quantisiert), 2x 80 GB (Llama 4 Maverick, die aktuelle DeepSeek-V-Generation).
  4. 04Reasoning-Anspruch quantifizieren: Standard-Triage reicht Phi-4 oder Llama 4 Scout; juristische Argumentation lieber Apertus 70B, Mistral Large 2 oder Llama 4 Maverick.
  5. 05Daten-Provenance bewerten: für Mandanten, die Wert auf Trainings-Transparenz legen, ist Apertus die einzige vollständig dokumentierte Wahl.
  6. 06PoC mit zehn echten Fällen: dieselben zehn typischen Mandanten-Fragen durch zwei bis drei Modell-Kandidaten laufen lassen, manuell bewerten, dann produktiv.

Empfehlung je Anwendungsfall

CH-Treuhand, Deutsch + Französisch + Italienisch, Datensouveränität zentral: Apertus 70B. Schweizer Origin, alle Landessprachen incl. Romanisch, vollständig offene Trainings-Daten. Standardwahl Mai 2026, wenn die Hardware (eine H100 oder zwei RTX 4090) verfügbar ist.

CH-Treuhand, kleinere Hardware (eine RTX 4090 oder 24 GB GPU): Apertus 8B oder Mistral Small 3.1 oder Phi-4. Apertus 8B für maximalen CH-Bezug, Mistral Small für ausgereifte EU-Wahl, Phi-4 für maximales Reasoning-pro-VRAM.

Anwaltskanzlei, RAG-Pipeline, multilingual: Command R+ via Cohere-API (nicht Self-Host) ODER Apertus 70B im Self-Host. Command R+ ist RAG-optimiert, hat eine NC-Lizenz für Open-Weight aber kommerziell über API.

Code-lastige Use-Cases, etwa internes Tool-Building: DeepSeek V3 oder Qwen 3. Beide sind im Code-Benchmark-Bereich auf GPT-4-Niveau, beide via Self-Host kostenfrei.

Edge-Geräte oder mobile Setups: Gemma 3 oder Phi-4. Beide laufen mit 4-Bit-Quantisierung auf 8-12 GB VRAM, also auch auf Notebook-GPUs.

Höchster Throughput, beste Reasoning-Qualität, GPU-Budget nicht knapp: Llama 4 Maverick. Schlägt GPT-4o auf vielen Benchmarks, braucht aber zwei H100 für komfortablen Self-Host. Alternative: Llama 4 Scout - passt auf eine H100, etwas geringere Qualität.

Sehr lange Kontexte (juristische Dokument-Analyse, > 200k Tokens): Llama 4 Scout mit 10M Token Kontextfenster. Mai 2026 unangefochten an der Spitze für Long-Context.

Wann ein Open-Weight-Modell falsch ist

Wenn Sie absolute Spitze brauchen, ist Open-Weight Mai 2026 noch nicht da. Das aktuelle Claude-Spitzenmodell, das jeweils aktuelle GPT-Spitzenmodell und Gemini 2.5 schlagen das beste Open-Weight (Llama 4 Maverick, die aktuelle DeepSeek-V-Generation) bei komplexem Reasoning und Tool-Use weiterhin um 5-15 Prozentpunkte je nach Benchmark. Für juristische Fälle mit hoher Argumentations-Tiefe ist eine Claude-Sonnet-API mit revDSG-konformem EU-Hosting noch immer die beste Wahl.

Wenn Ihr Use-Case lange Kontexte mit hoher Präzision braucht (z.B. komplette Mandatsakten über Jahre), reicht ein offenes Modell nur bei Llama 4 Scout mit dem 10M-Token-Kontextfenster - und auch dort sind die Aufmerksamkeits-Schwankungen bei sehr langen Eingaben grösser als bei dem aktuellen Claude-Spitzenmodell oder Gemini 2.5.

Und: Wenn niemand im Haus Hardware betreut, ist Open-Weight Self-Host der falsche Weg. Eine Mistral-API mit EU-Hosting kostet pro Monat weniger als die Halbjahres-Wartung eines lokalen Setups - bis ein gewisses Token-Volumen erreicht ist (typischerweise 5-10 Millionen Tokens pro Monat).

Vor- und Nachteile

STÄRKEN

  • Daten bleiben im eigenen Setup - keine Cloud-API-Abhängigkeit
  • Keine Token-Kosten nach der Hardware-Investition
  • Apertus, Mistral und Llama 4 decken alle Schweizer Landessprachen ab
  • Apache 2.0 / MIT bei vielen Modellen - sauber für kommerzielle Nutzung

SCHWÄCHEN

  • Mai 2026 noch hinter dem aktuellen Claude-Spitzenmodell / das jeweils aktuelle GPT-Spitzenmodell bei sehr komplexem Reasoning
  • Lizenzen sind heterogen - jede Modell-Familie braucht eigene Prüfung
  • Hardware-Investition: H100 ab CHF 30000 oder Hetzner-Miete EUR 184-300+/Monat
  • Modell-Updates müssen selbst eingespielt werden - kein automatischer Vendor-Upgrade

Häufige Fragen

Ist Apertus Mai 2026 wirklich produktionsreif?

Ja. Apertus wurde am 2. September 2025 von ETH Zürich, EPFL und CSCS unter Apache-2.0-Lizenz veröffentlicht und ist via Swisscom, Hugging Face sowie das Public AI Network operativ verfügbar. Mai 2026 setzen erste Schweizer Treuhand- und Anwalts-Buros das Modell ein. Empfehlung: 70B-Variante für Production, 8B für Edge-Cases oder Tests. Setup-Aufwand mit Ollama oder vLLM analog zu Llama.

DeepSeek und Qwen kommen aus China - sind die ein Risiko?

Bei Self-Hosting: nein. Die Gewichte sind auf Hugging Face frei verfügbar, das Modell läuft komplett auf eigener Hardware ohne Netzwerk-Anbindung nach China. Bei API-Use direkt bei DeepSeek-Cloud oder Tongyi Qianwen: Daten gehen ins Ausland (China), das ist ein Drittlandtransfer-Problem. Wer DeepSeek oder Qwen einsetzen will, hostet selbst - nicht über die Vendor-API.

Wie unterscheidet sich Llama 4 von Llama 3.3?

Drei Punkte. Erstens: Architektur - Llama 4 ist Mixture-of-Experts (MoE), Llama 3.3 ist Dense. Scout hat 17B aktive von 109B total, Maverick 17B aktive von 400B total. Damit läuft Llama 4 schneller pro Token bei vergleichbarer Reasoning-Qualität. Zweitens: Multimodal - Llama 4 versteht nativ Text und Bilder. Drittens: Kontext - Scout hat 10M Token Kontextfenster, Llama 3.3 hat 128k.

Welches Modell ist Mai 2026 das beste für Schweizerdeutsch?

Apertus. Es ist das einzige grosse Open-Weight-Modell, das Schweizerdeutsch explizit in den Trainingsdaten hat und auch in eigenen Benchmarks gut abschneidet. Llama 4 und Mistral verstehen Schweizerdeutsch teilweise, antworten aber meist in Hochdeutsch. Für Mandanten-Dialog in Schweizerdeutsch ist Apertus konkurrenzlos.

Verwandte Themen

LOKALE LLM-RUNTIMES - VERGLEICHLokale LLM-Runtimes im Vergleich: Ollama, vLLM, llama.cpp, LM Studio, LocalAI, TGI, GPT4All, KoboldCpp, Jan, OpenLLMSOUVERÄNES HOSTING - VERGLEICHSouveränes Hosting im Vergleich: Hetzner, Infomaniak, Exoscale, OVHcloud, Scaleway, Swisscom, Safe Swiss Cloud, netcup, Contabo, On-PremMETA LLAMA · LLM-ANBIETERMeta Llama im Schweizer Einsatz: Open-Weight-Modell, Self-Host oder ProviderSELF-HOSTED VS. CLOUD · AI-KONZEPTSelf-Hosted vs. Cloud-LLM: Entscheidungs-Framework für KMU und TreuhandDEEPSEEK · LLM-ANBIETERDeepSeek im Schweizer Einsatz: PRC-Anbieter, Self-Host-Option und revDSG-Realität

Quellen

  1. Apertus - fully open, transparent, multilingual language model (ETH Zurich press release) · 2025-09
  2. The Llama 4 herd - Meta AI blog (Scout & Maverick release) · 2026-04
  3. Mistral AI - models and licences overview · 2026-05
  4. Hugging Face - Llama 4 Maverick & Scout model cards · 2026-04
  5. Microsoft Phi-4 technical report · 2026-01

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen