LLAMA 4 · TECH

Llama 4 Scout und Maverick: Metas MoE-Familie mit 10M-Context und 400B-Total-Parametern

Llama 4 Scout (17B aktiv, 10M Context) und Maverick (17B aktiv, 128 Experten, 400B total) – released 5. April 2026 unter Llama Community License.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Was ist Llama 4?

Llama 4 ist die vierte Generation der Open-Weight-Sprachmodell-Familie von Meta AI, veröffentlicht am 5. April 2026. Anders als die Vorgänger (Llama 2, Llama 3, Llama 3.1, Llama 3.3) sind alle Llama-4-Modelle als Mixture-of-Experts (MoE) konzipiert. Die Lizenz ist Meta Llama Community License – kommerziell nutzbar für Firmen mit weniger als 700 Millionen monatlich aktiven Nutzern, was praktisch alle Schweizer Treuhand- und Anwaltsbüro-Setups abdeckt. Wichtig: dies ist NICHT Apache 2.0, sondern eine eigene Lizenz mit spezifischen Nutzungs-Klauseln.

Die Llama-4-Familie umfasst Mai 2026 drei Modelle. Llama 4 Scout (17B aktive Parameter, 109B total, 16 Experten) ist die Edge- und Single-GPU-Variante. Llama 4 Maverick (17B aktive Parameter, 400B total, 128 Experten) ist die Flaggschiff-Variante für ernsthafte Reasoning-Workloads. Llama 4 Behemoth (288B aktiv, 2T total) ist Mai 2026 angekündigt, aber noch nicht released – ein Modell auf der gleichen Skala wie das aktuelle GPT-Spitzenmodell und das aktuelle Claude-Spitzenmodell, gedacht für Forschungs-Einsätze.

Der technisch bemerkenswerte Aspekt: Scout hat ein Context-Fenster von 10 Millionen Tokens. Das ist Mai 2026 der mit Abstand grösste produktive Context im Open-Weight-Bereich und auch im Vergleich zu Closed-Source-Modellen (das aktuelle GPT-Spitzenmodell 1M, das aktuelle Claude-Spitzenmodell 1M, Gemini 2.5 2M) ein Faktor 5 voraus. Praktische Bedeutung: ganze Vertrags-Korpora oder mehrjährige Mandanten-Akten passen in einen einzigen Prompt, ohne RAG-Pipeline.

Trainings-Daten: Llama 4 wurde auf rund 30 Billionen Tokens trainiert, davon nach Meta-Angaben über 200 Sprachen, mit deutlich besserer Multilingual-Fähigkeit als Llama 3. Deutsch, Französisch, Italienisch und Englisch sind produktiv stark; Romansh ist nicht offiziell trainiert (hier bleibt Apertus die richtige Wahl). Native Tool-Use, Vision-Fähigkeit (Multimodal Pre-Training mit Bildern), und JSON-Output mit Grammar-Constraints sind integriert.

Verfügbarkeit Mai 2026: Hugging Face (meta-llama/Llama-4-Scout-17B-Instruct, meta-llama/Llama-4-Maverick-17B-128E-Instruct), Meta-eigene Hosted-Variante über llama.com, AWS Bedrock, Azure AI Foundry, Google Cloud Vertex, Groq, Together AI, Fireworks AI. Lokale Self-Host-Optionen: vLLM, Text Generation Inference, Ollama, llama.cpp.

Warum Llama 4 für CH-Daten zählt

Llama 4 hat für Schweizer Treuhand- und Anwalts-Setups vier konkrete Anwendungs-Argumente, aber auch zwei wichtige Vorbehalte.

Erstens: Long-Context als Game-Changer. Scout mit 10M Tokens löst für juristische Praxen ein altes Problem. Eine vollständige Akte mit allen Schriftsätzen, Verträgen, E-Mail-Verkehr und Gerichts-Entscheiden über sieben Jahre passt typisch in 2-5 Millionen Tokens. Mit Llama 4 Scout lässt sich diese Akte in einen einzigen Prompt laden und Anfragen wie "Welche Aussagen des Mandanten zur Vermögens-Lage widersprechen den späteren Schriftsätzen?" direkt beantworten. Eine RAG-Pipeline mit Embeddings und Chunk-Suche ist hier nicht nötig. Das vereinfacht die Architektur erheblich.

Zweitens: Self-Host-Fähigkeit. Wer Llama 4 Scout auf zwei H100 80GB selbst betreibt (in 4-Bit-AWQ-Quantisierung passt es auf eine H100, mit Tensor-Parallel auf zwei H100 für höheren Throughput), behält volle Daten-Souveränität. Das ist relevant für Mandate unter Berufsgeheimnis nach Art. 321 StGB. Maverick verlangt dagegen acht H100 – operativ nur für grosse Firmen sinnvoll.

Drittens: Vision-Fähigkeit Out-of-the-Box. Llama 4 ist natively multimodal: Bilder können direkt im Prompt mitgegeben werden. Für Vertrags-Foto-Scan, Unterschriften-Erkennung, OCR-Vorverarbeitung und Beleg-Klassifikation in Treuhand-Workflows ist das praktisch – kein separates Vision-Modell nötig.

Viertens: Multilingual-Verbesserungen. Llama 4 ist deutlich besser auf Deutsch, Französisch und Italienisch als Llama 3.3. Mistral Large 2 bleibt für EU-Sprachen typisch noch leicht voraus, aber der Abstand ist klein. Für CH-Treuhand-Setups, die nicht primär Romansh brauchen, ist Llama 4 eine ernsthafte Option.

Vorbehalt eins: die Llama Community License ist NICHT Apache 2.0. Es gibt eine Acceptable Use Policy mit konkreten Einschränkungen (keine illegalen Aktivitäten, keine Diskriminierung, keine Manipulation kritischer Infrastruktur). Eine 700-Millionen-MAU-Klausel verlangt für sehr grosse Firmen eine separate Lizenz von Meta – für Schweizer KMU nicht relevant. Trotzdem muss die Lizenz vor jedem Self-Host-Setup geprüft werden.

Vorbehalt zwei: Llama 4 hat keinen Schweizer Origin. Wer auf Daten-Souveränität mit CH-Origin Wert legt (FINMA-strenge Setups, Mandate mit Bezug zu Schweizer Konzern-Holdings), bleibt bei Apertus 70B als Erstwahl. Llama 4 kommt als Self-Host in eigenem CH-Rechenzentrum sehr nahe heran, aber der Trainings-Daten-Herkunfts-Punkt bleibt.

Llama 4 in der Praxis

Modell-Architektur. Llama 4 ist ein MoE-Transformer. Bei jeder Token-Vorhersage wählt ein "Router" eine kleine Untermenge der Experten aus (typisch 2 von 16 bei Scout, 2 von 128 bei Maverick). Das bedeutet: nur ein Bruchteil der Gewichte ist pro Forward-Pass aktiv. Resultat: Inferenz-Kosten skalieren mit der "aktiven Parameter"-Zahl (17B), nicht mit den Total-Parametern (109B bzw. 400B). Daher der Sweet-Spot: hohe Qualität, moderater Inferenz-Aufwand.

Setup-Beispiel mit vLLM auf zwei H100 80GB:

``` docker run --gpus all -p 8000:8000 \ vllm/vllm-openai:v0.6.3 \ --model meta-llama/Llama-4-Scout-17B-Instruct \ --max-model-len 1000000 \ --tensor-parallel-size 2 \ --quantization awq \ --gpu-memory-utilization 0.93 ```

Mit --max-model-len 1000000 (1M Tokens) bleibt eine signifikante Reserve für den KV-Cache pro Anfrage. Für den vollen 10M-Context muss --enable-prefix-caching gesetzt und die GPU-Memory aktiv gemanagt werden – in der Praxis sind 1-2M Tokens pro Anfrage der vernünftige Bereich.

Maverick auf 8x H100. Llama 4 Maverick ist mit 400B-Total-Parametern grossformatig. In 4-Bit-Quantisierung benötigt es rund 220 GB VRAM aktiv, plus KV-Cache. Setup auf einer H100-SXM5-Box (8x 80GB = 640 GB VRAM) mit --tensor-parallel-size 8 ist die übliche Konfiguration. Operativ-Kosten Mai 2026: rund CHF 25.000-35.000 pro Monat Mietkosten oder etwa CHF 250.000-350.000 für den Hardware-Kauf.

Mit Ollama auf RTX 4090. Llama 4 Scout in 4-Bit-Quantisierung passt knapp auf eine RTX 4090 24GB:

``` ollama pull llama4:scout ollama run llama4:scout "Erkläre kurz das DSG Art. 6" ```

Ollama erkennt automatisch die MoE-Architektur. Performance: rund 30-50 Tokens/Sekunde, Context bis 128k komfortabel, bis 1M mit angepasstem KV-Cache-Management.

Tool-Use. Llama 4 hat natives Tool-Calling im OpenAI-Schema. Beispiel-Prompt mit JSON-Schema für eine Bexio-Belegabfrage funktioniert direkt. Das macht Llama 4 für n8n-Workflows und LangChain-Agenten attraktiv.

Vision-Fähigkeit. Llama 4 akzeptiert Bilder als Base64-encoded JSON-Felder oder URLs nach der OpenAI-Vision-Spezifikation. Praktisches Beispiel: Foto eines Belegs hochladen, "Klassifiziere diesen Beleg nach den Kategorien Bewirtung, Reise, Büro, Mandanten-Auslage" – Llama 4 liest den Beleg und antwortet strukturiert.

Hosting Mai 2026. Drei produktive Pfade. Pfad 1: Self-Host in eigenem CH-Rack auf zwei H100 – volle Souveränität, hohe Initial-Kosten. Pfad 2: Mietoption über Infomaniak GPU-Instanzen – Schweizer Data-Residency, mittlere Kosten. Pfad 3: Cloud-API über AWS Bedrock Frankfurt oder Together AI EU – schnellste Inbetriebnahme, geringere Souveränität.

Llama 4 produktiv in 5 Schritten

01Lizenz-Prüfung: Meta Llama Community License lesen, Acceptable Use Policy gegen den geplanten Use-Case abgleichen, ggf. Compliance- und Rechts-Abteilung einbinden.
02Modell-Wahl: Scout für Long-Context und Single-GPU-Setups, Maverick für Top-Reasoning auf 8x H100, Behemoth nicht produktiv (Mai 2026).
03Hosting-Pfad: Self-Host via vLLM auf zwei H100 (Souveränität), Infomaniak GPU-Instanzen (CH-Residency), AWS Bedrock Frankfurt (EU-Residency).
04Integration: Hugging-Face-Token konfigurieren, Modell via meta-llama/Llama-4-Scout-17B-Instruct über vLLM oder TGI laden, LiteLLM-Proxy davor.
05Use-Case-Test: 50-100 echte Mandanten-typische Anfragen gegen Apertus 70B, Mistral Large 2 und Llama 4 Scout testen, Treffer-Quote messen, Routing-Regeln daraus ableiten.

Wann Llama 4 einsetzen

Llama 4 Scout ist die richtige Wahl, wenn (a) sehr lange Kontexte gebraucht werden (mehrjährige Akten, vollständige Vertrags-Korpora), (b) Vision-Fähigkeit Out-of-the-Box gewünscht ist, oder (c) Multilingual-DE/FR/IT-Qualität mit GPU-Selbst-Betrieb verlangt ist.

Konkrete Fälle: Anwaltskanzlei mit mehrjährigen Mandanten-Akten – Llama 4 Scout auf zwei H100 mit 1-2M Tokens pro Anfrage, ganze Akten ohne RAG-Pipeline. Treuhand-Gruppe mit Belegen-Foto-Workflow – Llama 4 Scout mit Vision-Fähigkeit für direkte Beleg-Klassifikation aus Smartphone-Fotos. Beratungs-Boutique mit komplexen Verträgen – Scout für Long-Context-Analyse, Maverick für schwierige Vergleichs-Fälle.

Llama 4 Maverick ist die richtige Wahl bei (a) sehr anspruchsvollem Reasoning, das das aktuelle GPT-Spitzenmodell- oder Claude-4.7-Niveau verlangt, (b) Mehr-Sprachen-Anforderungen mit hoher Präzision, und (c) ausreichendem GPU-Budget (8 H100). Maverick liegt auf vielen Benchmarks gleichauf mit GPT-4o und nahe an Claude 3.5 Sonnet – für 2026-Standards ist das die obere Mittelklasse im Closed-Source-Vergleich.

Wann NICHT

Wenn Sie Romansh- oder Schwizerdütsch-Fähigkeit brauchen, ist Apertus 70B die richtige Wahl, nicht Llama 4. Meta hat Romansh nicht offiziell in den Trainings-Daten – die Qualität ist entsprechend schwach.

Wenn die Lizenz-Hygiene bei der Compliance-Prüfung im Vordergrund steht und Apache-2.0 das gewünschte Standard ist, sind Apertus, Mistral-Small-Apache-Variante oder Phi-4 die saubereren Optionen. Llama Community License ist kommerziell nutzbar, aber nicht so simpel wie Apache 2.0 oder MIT.

Für reine Throughput-Workloads mit kurzen Anfragen (Klassifikation, Triage) ist Maverick mit seinen 400B-Parametern überdimensioniert. Hier sind Apertus 8B, Phi-4 oder Mistral Small 3.1 effizienter – gleiche Qualität auf der spezifischen Aufgabe, deutlich geringere GPU-Last.

Für Setups, in denen US-Origin als problematisch wahrgenommen wird (FINMA-strenge Mandate, Bundes-Verwaltungen, Holdings mit ausschliesslich EU-Daten-Politik), bleibt Apertus oder Mistral die richtige Wahl. Self-Host mildert das Argument, löst es aber nicht vollständig (Trainings-Daten-Origin bleibt US/Meta).

Vor- und Nachteile

STÄRKEN

10M-Token-Context bei Scout – ganze Mandanten-Akten in einem Prompt
Native Multimodal-Fähigkeit für Vision-Aufgaben ohne separates Modell
MoE-Architektur – Inferenz-Kosten skalieren mit aktiver Parameter-Zahl (17B), nicht mit Total (109B/400B)
Self-Host-fähig auf zwei H100 (Scout) – volle Daten-Souveränität möglich

SCHWÄCHEN

Llama Community License – kommerziell nutzbar, aber nicht so simpel wie Apache 2.0 oder MIT
Kein offizielles Romansh-Training – für CH-RM-Fälle bleibt Apertus die richtige Wahl
Maverick verlangt 8 H100 oder 4 H200 – operativ teuer für kleine bis mittlere Buros
Trainings-Daten-Herkunft bei Meta – für streng souveräne CH-Setups bleibt Apertus voraus

Häufige Fragen

Was ist der praktische Nutzen von 10M Context?

Mai 2026 ist 10M Context noch experimentell – KV-Cache-Speicher und Reasoning-Qualität über so lange Distanzen sind nicht in jeder Anfrage perfekt. Realistisch produktiv: 1-2M Tokens pro Anfrage, das deckt vollständige Mandanten-Akten oder mehrjährige Vertrags-Sammlungen ab. Vorteil gegenüber RAG-Pipelines: keine Chunk-Strategie, keine Retrieval-Latenz, gesamte Information in einem Kontext.

Wie steht Llama 4 gegen Apertus 70B?

Auf MMLU und allgemeinem Reasoning liegt Llama 4 Scout leicht vor Apertus 70B (etwa 81 vs 80 Punkte). Auf Long-Context-Aufgaben ist Llama 4 mit 10M klar voraus. Auf Romansh und Schwizerdütsch ist Apertus klar voraus. Auf Trainings-Daten-Transparenz ist Apertus klar voraus (vollständig offengelegt vs Meta-intern). Für CH-Treuhand-Standardarbeit ist Apertus die natürlichere Wahl, für komplexe Long-Context-Fälle Llama 4 Scout.

Brauche ich für Maverick wirklich 8 H100?

Für komfortable Produktiv-Last ja. Maverick in 4-Bit-Quantisierung passt theoretisch auf 4 H100 80GB (220 GB VRAM aktiv plus KV-Cache), aber Tensor-Parallel-Split auf 4 GPUs erzeugt mehr Communication-Overhead als auf 8. Operatives Praxis: 8x H100 SXM5 in einer DGX-ähnlichen Konfiguration, alternativ 4x H200 (141 GB pro GPU) als kompaktere Lösung. Mietoption: AWS p5.48xlarge oder vergleichbar bei Together AI.

Welche EU-AI-Act-Pflichten gelten für Llama 4?

Llama 4 ist ein General-Purpose-AI-Modell nach EU-AI-Act-Definition. Art. 50 verlangt Transparenz: das Modell muss als KI-System ausgewiesen sein, technische Dokumentation muss verfügbar sein. Meta liefert eine Modell-Karte und einen Technical Report – das deckt die Pflichten auf Modell-Seite ab. Der Betreiber muss zusätzlich seinen Use-Case klassifizieren (Annex III prüfen), bei Hochrisiko eine Konformitäts-Bewertung durchführen und ein DPIA nach DSGVO Art. 35 / DSG Art. 22 erstellen.

Quellen

Meta – Introducing Llama 4 (official blog, 5 April 2026) · 2026-04
Llama 4 Scout – Hugging Face model card · 2026-05
Llama 4 Maverick – Hugging Face model card · 2026-05
Meta Llama Community License (current version) · 2026-04

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen