META LLAMA · LLM-ANBIETER
Meta Llama im Schweizer Einsatz: Open-Weight-Modell, Self-Host oder Provider
Llama 4 Scout/Maverick und Llama 3.3 70B als Open-Weight-Option. Lizenz, Hardware-Anforderungen, Preise bei Groq/Together/Fireworks und Self-Host-Realität.
Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05
Was ist Meta Llama?
Llama ist die LLM-Familie von Meta, deren Gewichte öffentlich heruntergeladen werden können. Im Mai 2026 sind drei Generationen relevant: Llama 3.3 70B (Ende 2024, das stabile Arbeitstier), Llama 4 Scout (April 2025, MoE-Architektur mit 17B aktiven von 109B Parametern, 10-Mio-Token-Kontext) und Llama 4 Maverick (April 2025, MoE mit 17B aktiven von 400B Parametern, 1-Mio-Kontext, Top-Modell der Open-Weight-Welt).
Wichtig: Open-Weight ist nicht Open-Source. Llama-Modelle stehen unter der Llama-Community-License, nicht unter Apache 2.0 oder MIT. Die Lizenz erlaubt kommerzielle Nutzung – solange der eigene Service unter 700 Millionen monatlichen Nutzern bleibt. Eine "Built with Llama"-Attribution ist Pflicht, und Metas Acceptable Use Policy ist einzuhalten. Für ein Schweizer KMU oder eine Treuhand ist die 700-Mio-Grenze irrelevant; die Attribution kann im Impressum oder Footer landen. EU-Multimodal-Restriktion ist zu beachten: die Bild-/Video-Capabilities sind in der EU nur eingeschränkt nutzbar (DSA/AI-Act-Vorsicht von Meta).
Deployment-Optionen sind dreifach: (a) Self-Host auf eigener GPU-Hardware oder Hetzner-GPU-Server, (b) Provider-API bei Groq, Together AI, Fireworks AI, DeepInfra, Lambda, Novita oder Sambanova – alle laufen Llama 4 zu Preisen ab USD 0.15 / USD 0.60 pro 1M Tokens, (c) Cloud-Bridge über Vertex AI (Llama 3.3 70B verfügbar) oder AWS Bedrock. Welche Variante Sinn macht, hängt am Workload-Volumen und am Compliance-Anspruch.
Warum es wichtig ist
Llama löst ein Problem, das geschlossene Modelle strukturell nicht lösen können: vollständige Kontrolle über den Datenfluss. Wer die Gewichte selbst lädt und auf eigener Hardware betreibt, hat keine API-Calls in fremde Clouds. Für ein Treuhand-Büro mit Berufsgeheimnis-Pflicht (StGB Art. 321) ist das der einzige Weg, bestimmte Sensitiv-Daten zu verarbeiten, ohne den Mandanten um separate Einwilligung zu bitten.
Der zweite Punkt ist Kosten-Vorhersagbarkeit. Eine eigene Hetzner-GPU-Box (z.B. eine A100 80GB für rund CHF 600/Monat) erlaubt unbeschränkte Inferenz für Llama 3.1 70B Q4-quantisiert. Bei einem Cloud-Provider mit USD 0.30 pro 1M Output-Tokens hätten Sie ab etwa 2 Mio. Output-Tokens pro Monat die gleiche Rechnung – und sind dann gefangen am Verbrauchs-Modell. Wer berechenbar abrechnen will, fährt mit Self-Host besser.
Dritter Punkt: Vendor-Lock-in ist null. Sie können die Gewichte heute auf einer Hetzner-GPU laufen lassen, nächsten Monat auf einem AWS-G5-Server, das übernächste Monat hybrid mit Burst-zu-Groq. Die Schnittstelle ist OpenAI-kompatibel und identisch. Im Vergleich zu OpenAI- oder Claude-Lock-in (Modell weg = Stack weg) ist Llama eine Versicherungspolice.
Viertens: Innovationsgeschwindigkeit. Llama 4 hat ein 10-Mio-Token-Kontextfenster bei Scout – mehr als jedes geschlossene Modell zum Zeitpunkt der Veröffentlichung. Open-Weight-Modelle schliessen die Lücke zu dem jeweils aktuellen GPT-Spitzenmodell und dem aktuellen Claude-Spitzenmodell zwar nicht ganz, aber stabil genug für 70% der Treuhand-Use-Cases.
Wie es funktioniert
Self-Host-Pfad: Gewichte von llama.com oder Hugging Face herunterladen (Lizenz-Akzeptanz erforderlich), Quantisierung wählen (Q4_K_M ist der Standard für Hardware-Effizienz), Inferenz-Server aufsetzen (Ollama oder vLLM für Production), HTTP-Endpoint freigeben (OpenAI-kompatibel).
Hardware-Anforderungen Mai 2026: Llama 3.1 8B / 3.3 8B läuft Q4-quantisiert in 6-12 GB VRAM, also auf einer RTX 3060 12GB oder einer kleinen Cloud-GPU. CPU-only ist möglich, aber langsam (unter 10 Tokens/Sekunde auf einem starken Server). Llama 3.3 70B braucht Q4-quantisiert rund 42 GB Speicher – eine A100 80GB, eine H100, ein Mac Studio M2 Ultra oder zwei zusammengeschaltete RTX 3090 24GB. Llama 4 Maverick mit 400B Gesamt-Parametern braucht in Q4 rund 240 GB; das ist 8x A100 oder gleichwertig – für ein KMU faktisch nur via Cloud-GPU oder Provider-API erreichbar. Llama 4 Scout (109B) liegt zwischen 70B und Maverick, etwa 60-70 GB in Q4.
Provider-API-Pfad: Konto bei Groq/Together/Fireworks anlegen, Karte hinterlegen, API-Key generieren. Aufruf identisch zu OpenAI, nur api_base wechseln: https://api.groq.com/openai/v1 oder https://api.together.xyz/v1. LiteLLM erlaubt das Routing transparent, gleicher Code, anderer Endpoint. Preise Mai 2026: Llama 4 Maverick ab USD 0.15 Input / USD 0.60 Output pro 1M Tokens (DeepInfra, Together), bei Groq schneller (~500 Tokens/Sekunde) aber leicht teurer.
Für eine Schweizer Treuhand mit revDSG-Anspruch ist Groq/Together USA-gehostet – nicht ideal. Hetzner-GPU-Server in Falkenstein (DE) oder Helsinki (FI) sind die EU-Variante; Server in Schweizer Rechenzentren (Infomaniak, Exoscale) sind die revDSG-saubere Variante, aber teurer.
CIO-Entscheidung: Self-Host oder Provider?
- 01Volumen schätzen: Pro Monat erwartete Input- und Output-Tokens berechnen. Unter 1 Mio Tokens/Monat: Provider-API. Über 10 Mio: Self-Host wirtschaftlich prüfen.
- 02Daten-Klassifikation: Welche Daten fliessen durch das Modell? Höchste Vertraulichkeitsstufe entscheidet, ob US-Provider akzeptabel ist oder EU/CH-Self-Host nötig.
- 03Modellgrösse: 8B reicht für Klassifikation und einfache QA. 70B für juristische Analyse. Maverick (400B Total) nur via Provider, nicht KMU-Self-Host.
- 04Lizenz-Prüfung: Llama-Community-License vom Legal-Team absegnen lassen. Attribution-Pflicht im Impressum/Footer planen. EU-Multimodal-Beschränkung dokumentieren.
- 05Provider-Auswahl: Together oder DeepInfra für EU-Hosting + niedrigste Preise. Groq für Latenz-kritische Anwendungen (Live-Chat).
- 06Self-Host-Variante: Hetzner GPU (A100 80GB ab CHF 600/Monat) oder Schweizer Anbieter (Infomaniak, Exoscale). vLLM oder Ollama-mit-OpenAI-Endpoint.
- 07LiteLLM-Gateway davor: Routing-Regel definiert, ob Llama, Gemini Flash oder Claude angerufen wird. Failover und Logging zentral.
Wann Llama einsetzen
Llama ist die richtige Wahl, wenn (a) Self-Host nötig ist und kein anderer Anbieter die nötige Kontrolle bietet, (b) Vendor-Lock-in vermieden werden soll oder (c) ein hoher Code-Anteil im Workload liegt – Llama 4 ist bei Code-Tasks stark.
Konkrete Anwendungen: Mandanten-FAQ-Bot, der nichts ins Ausland leitet (Llama 3.3 8B auf einem Schweizer Server, Q4-quantisiert, plus Qdrant-RAG). Code-Generierung für interne Tools (Llama 4 Maverick über Together-API, bezahlt nach Verbrauch). Hochvolumen-Klassifikation, bei der OpenAI-Preise erschlagen (Llama 3.3 70B auf eigener Hetzner-GPU, Stückpreis quasi 0).
Im Vergleich zu anderen Open-Weight-Optionen: Mistral (EU-Anbieter) ist eine Alternative mit besserem EU-Compliance-Profil, dafür kleinere Modelle. Qwen (Alibaba) und DeepSeek (PRC) sind technisch stark, aber rechtlich problematisch für Schweizer Treuhand. Llama bleibt der Open-Weight-Default für Code und allgemeines Reasoning.
Wann NICHT
Llama ist die falsche Wahl, wenn (a) die Aufgabe höchste Reasoning-Qualität verlangt (Claude Opus oder das jeweils aktuelle GPT-Spitzenmodell sind überlegen), (b) keine GPU-Hardware verfügbar ist und der Workload klein bleibt (ein Vertex-AI-Aufruf zu Gemini Flash-Lite ist günstiger als ein Hetzner-GPU-Setup ab CHF 600/Monat), oder (c) eine Apache-2.0- oder MIT-Lizenz vom Legal-Team vorgeschrieben ist – die Llama-Community-License ist nicht OSI-konform.
Weitere Fälle: Wenn Multimodal-Capabilities (Bild, Video) in der EU genutzt werden sollen, hat Meta die Llama-4-Multimodal-Funktionen aus DSA/AI-Act-Vorsicht in der EU restriktiv freigeschaltet – eine geschlossene Lösung wie Gemini 2.5 Pro oder das jeweils aktuelle GPT-Spitzenmodell ist hier vollständiger.
Self-Host ohne MLOps-Routine ist eine Falle. Modell laden ist einfach; produktiv betreiben (GPU-Monitoring, Updates, Sicherheits-Patches der Inferenz-Server, A/B-Tests neuer Versionen) ist ein Job. Wer die Routine nicht hat, soll lieber bei einem Provider bleiben – Together, Fireworks oder DeepInfra in der EU-Region.
Achtung mit der 700-Mio-MAU-Klausel und EU-Multimodal-Restriktion: keine Endkonsumenten-App in der EU mit Llama-4-Vision ohne Rechtsprüfung.
Vor- und Nachteile
STÄRKEN
- Open-Weight: vollständige Kontrolle über Datenfluss, kein API-Lock-in
- Self-Host möglich, Schweizer Souveränität realistisch erreichbar
- Llama 4 Scout: 10-Mio-Token-Kontextfenster, mehr als jedes geschlossene Modell
- Provider-Konkurrenz drückt Preise: USD 0.15/0.60 pro 1M Tokens für Maverick
- Code-Fähigkeiten bei Llama 4 auf Augenhöhe mit dem jeweils aktuellen GPT-Spitzenmodell und dem aktuellen Claude-Spitzenmodell
SCHWÄCHEN
- Llama-Community-License ist nicht OSI-konform – Legal-Prüfung nötig
- EU-Multimodal-Restriktion: Bild/Video in der EU eingeschränkt verfügbar
- Self-Host erfordert MLOps-Routine, GPU-Hardware, laufende Pflege
- 70B/Maverick brauchen ernsthaftes VRAM-Budget (A100 80GB+ oder 8x H100)
- Reasoning-Spitze (juristische Logik, mathematische Beweise) bleibt hinter Claude/GPT
Häufige Fragen
Kann ich Llama kommerziell nutzen?
Ja, solange Ihr Dienst unter 700 Millionen monatlich aktiven Nutzern bleibt – für eine Schweizer Treuhand oder ein KMU nie ein Thema. Sie müssen "Built with Llama" im Impressum oder Footer führen und Metas Acceptable Use Policy einhalten (keine Waffen, kein Missbrauch, keine illegale Aktivität). Die Lizenz ist nicht OSI-konform, also wenn Ihr Legal-Team explizit Apache 2.0 oder MIT verlangt, fällt Llama aus.
Welche Hardware brauche ich für ein Mandanten-FAQ?
Für Llama 3.3 8B Q4-quantisiert reicht eine RTX 3060 12GB oder eine kleine Cloud-GPU. Bei einem Vier-Personen-Büro mit 200 Anfragen/Tag ist das überdimensioniert. CPU-only auf einem starken Server (32 Kerne, 64 GB RAM) liefert ~5-10 Tokens/Sekunde – für einen FAQ-Bot ausreichend, wenn die Wartezeit dem Nutzer akzeptabel ist. Für 70B oder Llama 4 brauchen Sie GPU oder Provider-API.
Ist Llama 4 oder Llama 3.3 die bessere Wahl?
Mai 2026 ist Llama 3.3 70B die robustere Wahl für Treuhand: stabilere Provider-Landschaft, mehr getestete Quantisierungen, etablierte MLOps-Praxis. Llama 4 Scout/Maverick ist im Kontextfenster (10 Mio Tokens bei Scout) und in Code-Benchmarks überlegen, aber jünger und braucht mehr VRAM. Empfehlung: 3.3 70B als Self-Host-Default, Llama 4 über Provider-API für Aufgaben, die das lange Kontextfenster brauchen.
Wie verhält sich Llama im EU-AI-Act?
Llama 4 Maverick liegt mit hoher Wahrscheinlichkeit über dem 10^25-FLOP-Schwellwert und ist als General-Purpose-AI mit systemischem Risiko klassifiziert. Meta liefert die Modell-Karten und das Trainingsdaten-Summary, das Art. 53 verlangt. Wenn Sie als Schweizer Treuhand Llama nur als Deployer nutzen (also nicht selbst trainieren oder feintunen), liegt der grosse Teil der Pflichten bei Meta. Ihre Aufgabe: dokumentieren, in welchem Prozess das Modell läuft, Transparenzhinweise gegenüber Mandanten geben.
Verwandte Themen
Quellen
- Meta – Llama 4 Multimodal Intelligence (release post) · 2025-04
- Llama Community License (Llama 4 variant) · 2025-04
- Llama 4 Pricing Across Providers (DeepInfra, Together, Fireworks) · 2026-05
- Llama 3.1 Hardware Requirements: 8B, 70B, 405B (VRAM guide) · 2026-04
- Llama 4 Complete Developer Guide 2026 (Codersera) · 2026-03
PASSEND ZU IHREM STACK?