OPEN-WEIGHT · TREND 2026

Trend Open-Weight vs Closed-Source 2026: Wie nahe sind Llama 4, DeepSeek und Mistral an GPT und Claude?

Mai 2026: Open-Weight schliesst die Lücke. Die aktuelle DeepSeek-V-Generation erreicht GPT-4o, Llama 4 Maverick liegt bei Claude Sonnet. Was Lizenz und Hosting bedeuten.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Was bedeutet Open-Weight im Mai 2026?

Open-Weight bezeichnet Sprachmodelle, deren trainierte Gewichte öffentlich heruntergeladen und auf eigener Hardware betrieben werden können. Davon zu unterscheiden ist "Open-Source" im strengen Sinn – dafür müssten zusätzlich Trainingscode, Datensätze und Training-Logs offen sein. Mai 2026 erfüllen nur sehr wenige Modelle diesen strengen Open-Source-Standard (OLMo von AI2, Apertus von ETH/EPFL, K2 von LLM360).

Die Open-Weight-Familie Mai 2026:

- Meta Llama 4 (April 2025): Maverick (400B sparse MoE), Scout (kompakt für Edge), unter Meta Community License. Multimodal. Bench-Stand etwa Claude 3.5 Sonnet bis Claude 4-Niveau. - Mistral Large 2 / Codestral / Mistral Small 3 (2024-2025): Mistral Research License für Large, Apache 2.0 für Small 3. Französisch fokussiert, gut für DE-Markt. - DeepSeek V3 / V4 / R1 / R2: MIT-Lizenz, vollständig offen. V3 (Dezember 2024) liegt bei GPT-4o, V4 (März 2026 erwartet) soll GPT-4.5-Niveau erreichen. - Alibaba Qwen 2.5 / Qwen 3 (2024-2025): Apache 2.0 für die meisten Varianten. Sehr stark in CJK, mittelmässig in Deutsch. - Google Gemma 3 (Januar 2026): Gemma License (eingeschränkte Use Policy), 1B-27B Varianten. - Apertus (ETH Zürich / EPFL, März 2026): erstes wirklich vollständig offenes Schweizer LLM unter Apache 2.0 – Code, Daten, Gewichte.

Die Closed-Source-Welt:

- OpenAI GPT-4o, GPT-4.5, o3, o4 (gegen API-Aufrufe nutzbar, keine Gewichte). - Anthropic Claude 3.5 / 4 / 4.7 (gegen API-Aufrufe oder via AWS Bedrock, Google Vertex). - Google Gemini 1.5 / 2.0 / 2.5 (gegen API-Aufrufe via Vertex AI oder AI Studio).

Warum es 2026 wichtig ist

Mai 2026 ist die Qualitätslücke zwischen Open-Weight und Closed deutlich kleiner als zwölf Monate zuvor. Auf den offenen Benchmarks (MMLU-Pro, GPQA, HumanEval, HellaSwag) liegen DeepSeek V3, Llama 4 Maverick und Qwen 2.5 72B im selben Band wie GPT-4o und Claude 3.5 Sonnet. Auf Reasoning-Benchmarks (AIME, MATH) holt DeepSeek-R1 nahezu zu o1 auf. Auf den ganz oberen Frontier-Bereichen (das aktuelle Claude-Spitzenmodell, o3, Gemini 2.5 Pro mit Thinking) bleibt eine Lücke von 5-15 Prozentpunkten.

Drei praktische Konsequenzen für CH-KMU:

Selbst-Hosting wird verlockend: Wer Compliance-Gründen ein lokales oder EU-Modell brauchen muss, hat 2026 echte Alternativen. Eine Hetzner-GPU (RTX 4090 Hosting CHF 250-400/Monat oder Cluster H100 über Spot-Preise) reicht für Llama 3.3 70B in 4-Bit-Quantisierung als Treuhand-Standard-Modell. Mistral Small 3 (24B, Apache 2.0) läuft sogar auf einer einzelnen RTX A6000. Qualität: gut genug für Mail-Triage, Beleg-Erkennung, RAG-Antworten – nicht ausreichend für hochkomplexe Steuerfragen oder lange Code-Refactorings.

Preisdruck auf API-Anbieter: Die Existenz brauchbarer Open-Weight-Modelle hat OpenAI und Anthropic 2025 zu Preissenkungen gezwungen. GPT-4o ist Mai 2026 70% billiger als bei Release Mai 2024; Claude Sonnet etwa halb so teuer wie Sonnet 3.5 vor zwei Jahren. Wer als Treuhand-IT auf Cloud-API-Anbieter setzt, profitiert direkt.

Lizenz-Fallen bleiben: Open-Weight ist nicht gleich Open-Source. Meta Community License (Llama 4), Gemma License und Mistral Research License haben Klauseln, die kommerzielle Nutzung einschränken können. Apertus, Mistral Small 3, DeepSeek V3/R1 und Qwen unter Apache 2.0 sind ohne diese Klauseln nutzbar.

Wie es funktioniert

Open-Weight-Modelle werden über drei Pfade konsumiert.

Eigene Hardware (On-Premise): Modell-Dateien von Hugging Face oder vom Vendor herunterladen, in einem Runtime-Stack betreiben – vLLM (Python, schnell, Production-tauglich), Ollama (einfacher Dev-Mode), llama.cpp (CPU-only oder Mixed). Hardware-Anforderungen Mai 2026: 7B-Modell in 4-Bit läuft auf 8 GB VRAM, 70B-Modell braucht 48 GB. Eine Server-Anschaffung mit 2x RTX 4090 (48 GB total) liegt bei rund CHF 5000-8000.

Managed Hosting (Inference Provider): Together AI, Fireworks AI, DeepInfra, Groq, Hyperbolic, OpenRouter – alle bieten Open-Weight-Modelle als API an, oft 3-10x billiger als die geschlossenen Konkurrenten. EU-Region und DPA sind möglich, aber nicht überall Standard. Hetzner GPU Cloud und Exoscale (CH) bieten Mai 2026 GPU-Instanzen, auf denen man vLLM selbst hostet – mehr Aufwand, volle Datenkontrolle.

Hybrid mit Routing: über LiteLLM, OpenRouter oder Portkey lassen sich Open- und Closed-Modelle in einer einzigen API kombinieren. Sensible Daten gehen an Llama 4 / DeepSeek auf eigener Hardware, weniger sensible an GPT/Claude in der Cloud. Routing-Regel: pro Request anhand Mandanten-Klassifikation, Token-Budget und Modell-Skill auswählen.

Lizenzprüfung Mai 2026 (kurz): - Apache 2.0 / MIT (Apertus, Mistral Small 3, DeepSeek V3/R1, Qwen 2.5 Apache-Varianten): kommerzielle Nutzung uneingeschränkt. - Meta Community License (Llama 3/4): kommerziell ok, ausser bei > 700 Millionen MAU. Use Policy verbietet bestimmte Anwendungen. - Gemma License: kommerziell ok mit Use Policy. - Mistral Research License (für Mistral Large): nur Forschung, kommerziell über separates Abo.

Trend beobachten und einsetzen in 5 Schritten

01Marktbeobachtung: monatlich die Release-Seiten von Meta AI, Mistral, DeepSeek, Qwen und Apertus verfolgen sowie die Open-Source-Benchmark-Leaderboards (LMSys Chatbot Arena, OpenLLM Leaderboard).
02Lizenz-Inventur: überprüfen, ob das genutzte Modell unter Apache 2.0, MIT, Meta Community License, Gemma License oder anderer Lizenz steht. Dokumentation als Compliance-Nachweis ablegen.
03Use-Case-Split: pro Aufgabe entscheiden, ob sie an die Frontier-Kapazität stösst (dann Closed) oder ob Mid-Tier-Qualität reicht (dann Open-Weight via Managed-Inference).
04Routing-Pilot: über LiteLLM oder OpenRouter eine Routing-Schicht aufsetzen. Sensible Anfragen automatisch an Mistral Small 3 / Llama 3.3 70B leiten, andere an GPT-4o-mini / Claude Sonnet.
05Kosten-Vergleich nach 3 Monaten: Token-Kosten pro Anfragetyp messen. Falls sich On-Premise rechnet (> CHF 300-500/Monat API-Aufwand für Open-Weight-Klasse), GPU-Server kalkulieren – sonst bei Managed bleiben.

Wann Open-Weight einsetzen

Open-Weight ist die richtige Wahl, wenn (a) die Daten das Land oder den eigenen Kontrollbereich nicht verlassen dürfen, (b) eine vorhersagbare Kostenstruktur wichtiger ist als Spitzenqualität oder (c) Vendor-Lock-In als strategisches Risiko gesehen wird.

Konkrete Anwendungsfälle in CH-KMU Mai 2026: Treuhandbüro mit > 50 Mandanten, das ein eigenes RAG-System über alle Mandanten-Akten haben möchte – Mistral Small 3 oder Llama 3.3 70B on-premise. Anwaltskanzlei mit FINMA-Mandanten: nur Schweizer Hosting – Apertus auf Infomaniak oder Exoscale GPU. KMU mit hohen API-Kosten (> CHF 500/Monat für Mail-Triage, Belegerkennung): Wechsel zu OpenRouter mit Llama 4 oder Together-AI-DeepSeek senkt die Kosten typischerweise um 60-80%.

Apertus (ETH/EPFL, März 2026) verdient besondere Erwähnung: ein 8B-Modell trainiert auf 70% europäischen Sprachdaten (DE, FR, IT, EN), volle Apache-2.0-Lizenz, gehostet bei Infomaniak in der Schweiz. Mai 2026 ist es noch nicht auf Sonnet-Niveau, aber für Mehrsprachigkeits-Aufgaben (DE-FR-IT-Korrespondenz) gut. Politisch und compliance-seitig die saubereste Wahl.

Wann NICHT

Open-Weight ist die falsche Wahl, wenn (a) die Aufgabe an der Grenze des Modell-Könnens liegt – Frontier-Tasks bleiben Mai 2026 Domäne von dem aktuellen Claude-Spitzenmodell, o3, Gemini 2.5 Pro mit Thinking. (b) Der Betrieb des Modells in der eigenen Verantwortung mehr Personalkosten verursacht als der API-Aufpreis. (c) Sehr seltene Anfragen (unter 1000/Monat) – die Server-Standzeit kostet, selbst wenn das Modell idle ist.

Weitere Fälle: Multimodale Anwendungen mit Audio oder Video gehen Mai 2026 nur sauber mit GPT-4o oder Gemini 2.5 – Open-Weight-Modelle haben hier noch nicht aufgeschlossen. Echtzeit-Streaming-Voice überhaupt nur in der Cloud.

Lizenz-Fallen Mai 2026: Wer Llama 4 in ein verkauftes SaaS-Produkt einbaut, muss die Meta Use Policy lesen – bestimmte Branchen (Wahlmanipulation, Waffenentwicklung) sind ausgeschlossen, für Treuhand irrelevant, aber dokumentationspflichtig. Wer Mistral Large 2 produktiv nutzt, braucht ein Mistral-Commercial-Abo, da die Research License das nicht abdeckt. Qwen 2.5 hat unterschiedliche Lizenzen je Varianten – die meisten Apache 2.0, einige restriktiver. Vorsicht bei Qwen 2.5 72B: in einigen Versionen mit eigener "Tongyi Qianwen License", die kommerziell ok, aber eigene Bedingungen hat.

Kostentrap: Selbst-Hosting wird oft als billiger angenommen, ist aber bei niedrigem Volumen teurer. Eine RTX 4090 Server im Hetzner-Rechenzentrum (CHF 250-400/Monat) lohnt sich erst, wenn der API-Aufwand bei OpenRouter / Together / Fireworks über CHF 300/Monat liegt. Sonst ist Managed-Inference billiger und einfacher.

Vor- und Nachteile

STÄRKEN

Daten-Souveränität – Modell läuft im eigenen Rechenzentrum oder bei CH/EU-Hoster
Kein Vendor-Lock-In – Modell lässt sich mitnehmen, kein Sunset-Risiko
Mai 2026 nur 5-15% Qualitätslücke zur Frontier bei Alltagsaufgaben
API-Kosten über Managed-Inference (Together, Fireworks) typisch 3-10x billiger als GPT-4o

SCHWÄCHEN

Frontier-Tasks (komplexes Reasoning, Tool-Use) bleiben Domäne von Closed-Modellen
Lizenz-Komplexität – Meta CL, Gemma License, Mistral Research License haben Klauseln
Multimodal (Audio, Video) noch nicht auf Closed-Niveau
Selbst-Hosting nur bei > CHF 300-500/Monat API-Budget wirtschaftlich

Häufige Fragen

Ist Llama 4 echt Open Source?

Nein, Llama 4 ist Open-Weight, nicht Open-Source nach OSI-Definition. Meta veröffentlicht Gewichte, aber nicht das Trainingsdatum, nicht den Trainings-Code und stellt eine eigene Lizenz (Meta Community License) mit Use-Policy-Klauseln. Für 99% kommerzieller Anwendungen ist das ohne Praxisfolgen – wer aber stricte "OSI-konforme Open-Source-Lieferkette" auditieren muss, sollte Apertus, Mistral Small 3 oder DeepSeek-V3 wählen.

Reicht DeepSeek-V3 für eine 10-Personen-Treuhand?

Für Alltagsaufgaben (Mail-Triage, Belegerkennung, einfache RAG) absolut. DeepSeek-V3 liegt Mai 2026 auf GPT-4o-Niveau, in Mehrsprachigkeit-Tests (DE/FR/IT) etwas darunter. Über Together AI oder Fireworks API kostet 1M Output-Tokens etwa USD 1.50 versus GPT-4o bei USD 2.50. Für hochkomplexe Steuerfragen oder mehrstufige Argumentation lieber Claude Sonnet / o3.

Apertus oder Mistral Small 3 für Schweizer Treuhand?

Beide unter Apache 2.0. Mistral Small 3 (24B, Januar 2025) ist auf Englisch und Französisch stärker, in Deutsch ordentlich. Apertus (8B, März 2026) ist auf Schweizer Mehrsprachigkeit trainiert und politisch sauberste Wahl (ETH/EPFL Hosting). Qualitativ ist Mistral Small 3 noch vorn, Apertus holt aber auf. Empfehlung Mai 2026: Mistral Small 3 für Produktion, Apertus für Marketing-Erzählung und politisch sensible Mandanten.

Wie schliesst sich die Qualitätslücke?

Hauptsächlich durch zwei Faktoren. Erstens: Trainings-Compute. DeepSeek hat für V3 angeblich nur 5.5 Mio USD ausgegeben (vor RL-Phase) – Bruchteil von OpenAI-Schätzungen – durch effiziente Architektur (MoE, Multi-Head Latent Attention). Zweitens: RL und Distillation. Frontier-Closed-Modelle dienen als "Lehrer" für Open-Weight-Schüler. Resultat: die Qualitätslücke bei "alltags-Aufgaben" liegt Mai 2026 unter 10 Prozentpunkten. Bei Reasoning- und Tool-Use-Spitzenwerten noch grosser (15-30 Prozentpunkte).

Quellen

Meta AI – Llama 4 release notes and Community License · 2025-04
DeepSeek-V3 technical report (DeepSeek-AI) · 2024-12
Mistral AI – Mistral Small 3 announcement (Apache 2.0) · 2025-01
ETH Zurich / EPFL – Apertus open Swiss LLM announcement · 2026-03
LMSys – Chatbot Arena leaderboard · 2026-05

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen