APERTUS · TECH

Apertus als Tool: das Schweizer LLM von ETH, EPFL und CSCS in der Praxis betreiben

Apertus 8B und 70B unter Apache 2.0. Self-Host, Swisscom-API oder HuggingFace. 15T Tokens, 1000+ Sprachen inkl. Schweizerdeutsch und Rätoromanisch.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Was ist Apertus aus Tool-Perspektive?

Apertus ist das erste vollständig offene Schweizer Sprachmodell, entwickelt von ETH Zurich, EPFL und dem Centro Svizzero di Calcolo Scientifico (CSCS) und am 2. September 2025 veröffentlicht. Verfügbarkeit Mai 2026: zwei Modell-Grössen (Apertus-8B und Apertus-70B), beide unter Apache 2.0, beide über Hugging Face (swiss-ai/Apertus-8B-Instruct, swiss-ai/Apertus-70B-Instruct), Swisscom-API und das Public AI Network zugänglich. Das offizielle Portal ist apertus.ethz.ch.

Dieser Artikel betrachtet Apertus als Tool – also: wie wird es in einem produktiven CH-Setup deployed, welche Hardware braucht es, welche Runtime ist die richtige, wie integriert es sich in LiteLLM-Routing, wie sieht Monitoring aus. Die strategische Compliance-Perspektive ist separat im Artikel "Apertus Swiss AI Modell" behandelt.

Trainings-Daten: rund 15 Billionen Tokens, davon 40 Prozent Nicht-Englisch. Über 1.000 Sprachen sind im Trainings-Korpus, mit besonderem Augenmerk auf die Schweizer Landessprachen: Hochdeutsch mit CH-Helvetismen, Französisch (incl. Suisse-Romande-Eigenheiten), Italienisch (incl. Ticino-Eigenheiten), Rätoromanisch in fünf Idiomen (Sursilvan, Surmiran, Puter, Vallader, Rumantsch Grischun) und Schweizerdeutsch in den Hauptdialekten (Berner, Zürcher, Walliser, Bundner). Diese CH-spezifische Sprach-Abdeckung ist Mai 2026 einzigartig – kein anderes Frontier-Modell, weder Open noch Closed, hat dieses Profil.

Architektur: Transformer-Decoder, sehr ähnlich Llama 3, mit Grouped-Query-Attention und Rotary Position Embeddings. Context-Fenster: 128k Tokens bei beiden Varianten. Vocabulary: rund 256k Tokens, optimiert für europäische Sprachen plus Romansh. Trainings-Pipeline: erste Stufe Pre-Training auf 15T Tokens, dann Supervised Fine-Tuning (SFT) und Direct Preference Optimization (DPO) für Chat-Fähigkeit, RLHF-Komponente von ETH-internen Annotator-Teams.

Die verfügbaren Quantisierungen (Mai 2026) auf Hugging Face: FP16 (Original), AWQ-4-Bit, GPTQ-4-Bit, GGUF Q4_K_M, GGUF Q5_K_M, GGUF Q6_K und GGUF Q8_0. Diese Breite erlaubt Setups von Edge-Hardware (Apertus 8B Q4 auf RTX 4060 mit 8 GB VRAM) bis Production-GPU-Cluster (Apertus 70B FP16 auf zwei H100 mit Tensor-Parallel).

Warum Apertus operativ wichtig ist

Apertus ist Mai 2026 in Schweizer Treuhand- und Anwalts-Setups das Modell mit der höchsten Diskussions-Frequenz. Fünf operative Gründe.

Erstens: Apache-2.0-Lizenz ohne Klauseln. Keine kommerziellen Beschränkungen, keine MAU-Schwelle, keine Research-Variante mit anderer Lizenz für kommerzielle Nutzung. Self-Host, Fine-Tuning, Modifikation, kommerzielle Weiterverteilung – alles erlaubt. Für KMU-Compliance ist Apertus die saubererste Konstellation.

Zweitens: CH-Sprach-Domaine. Wer Mandanten-Korrespondenz in Schwizerdütsch, Verträge in italienischer Tessin-Variante oder Beratung in Romansh hat, findet kein anderes produktives Modell auf diesem Niveau. Apertus deckt diese Sprach-Mischung als einziges Frontier-Modell ab. Für Treuhand in Graubünden, Beratung in der Engadin-Region, Tessiner Familienrecht-Mandate ist Apertus die einzige operative Option.

Drittens: drei Hosting-Pfade mit unterschiedlichen Kosten-Souveränitäts-Profilen. Pfad 1 (Swisscom-API): kommerzielle API mit CH-Data-Residency, niedrigste Eintritts-Schwelle, Preise bei CHF 0.4-1.5 pro 1M Tokens. Pfad 2 (Infomaniak GPU-Instanz): Self-Host auf gemieteter Schweizer GPU, mittlere Kosten (CHF 6.000-12.000/Monat), volle Compliance-Kontrolle. Pfad 3 (Eigenes Rack): höhere Initial-Investition (CHF 80.000-150.000 für 2x H100), maximale Souveränität.

Viertens: tighte Integration in CH-Cloud-Stack. Swisscom als Service-Anbieter ist im Schweizer Markt ein anerkannter Partner mit eigenem DPA-Template und SLA-Strukturen. Infomaniak als zweiter Anker bietet GPU-Instanzen in Genf mit Schweizer Datenschutz. Diese Infrastruktur ist Mai 2026 in produktiven CH-Treuhand- und Anwalts-Setups etabliert.

Fünftens: Trainings-Daten-Transparenz. ETH/EPFL publizieren Trainings-Daten-Quellen, Trainings-Setup und Evaluations-Suite vollständig. Apertus ist Mai 2026 das am besten dokumentierte Frontier-Modell weltweit – für FINMA-AM-08/2024-Säule-3 (Modell-Validierung) und EU-AI-Act-Art-50 (Transparenz bei GPAI) ist das ein operativer Vorteil. DPIA und Modell-Validierungs-Berichte sind mit Apertus deutlich schneller erstellbar als bei US- oder PRC-Modellen.

Apertus deployen: Setup, Runtime, Integration

Pfad 1: Swisscom-API. Schnellste Inbetriebnahme. Vertrag mit Swisscom abschliessen, API-Key erhalten, Anfrage:

```python import os from openai import OpenAI client = OpenAI( base_url="https://api.swisscom.ch/apertus/v1", api_key=os.environ["SWISSCOM_APERTUS_KEY"] ) response = client.chat.completions.create( model="apertus-70b", messages=[{"role": "user", "content": "Was ist Art. 321 StGB?"}] ) print(response.choices[0].message.content) ```

Die API ist OpenAI-kompatibel. CH-Data-Residency ist vertraglich garantiert. SLA-Stufen sind verhandelbar.

Pfad 2: Self-Host mit vLLM auf Infomaniak. Apertus 70B in AWQ-4-Bit auf einer Infomaniak-H100-Instanz:

``` docker run --gpus all -p 8000:8000 \ vllm/vllm-openai:v0.6.3 \ --model swiss-ai/Apertus-70B-Instruct \ --max-model-len 32768 \ --gpu-memory-utilization 0.93 \ --quantization awq \ --api-key sk-apertus-prod ```

Dieser Befehl startet Apertus 70B auf einer einzelnen H100 80GB mit AWQ-4-Bit-Quantisierung (rund 45 GB VRAM aktiv). Performance: 25-35 Tokens/Sekunde pro Anfrage, aggregiert 80-130 Tokens/Sekunde über alle parallelen Anfragen.

Pfad 3: Self-Host mit Ollama. Apertus 8B auf einer kleineren Hardware (RTX 4070 12GB oder Workstation mit Apple Silicon):

``` ollama pull apertus:8b-instruct-q4_K_M ollama run apertus:8b-instruct-q4_K_M "Klassifiziere diese E-Mail: ..." ```

Für eine Treuhand-Büro-Workstation mit 16-32 GB RAM und ohne GPU läuft Apertus 8B in Q4_K_M-Quantisierung mit 10-20 Tokens/Sekunde – produktiv tauglich für Klassifikation und einfache Generierungs-Aufgaben.

LiteLLM-Routing. Apertus-Anbindung in LiteLLM config.yaml:

```yaml model_list: - model_name: apertus-70b-ch litellm_params: model: openai/apertus-70b api_base: https://api.swisscom.ch/apertus/v1 api_key: os.environ/SWISSCOM_APERTUS_KEY - model_name: apertus-8b-local litellm_params: model: openai/apertus-8b api_base: http://localhost:11434/v1 api_key: dummy router_settings: routing_strategy: simple-shuffle ```

Mit dieser Konfiguration kann eine Anwendung "apertus-70b-ch" für komplexe Fälle über Swisscom und "apertus-8b-local" für einfache Klassifikation über den lokalen Ollama-Endpunkt nutzen.

Monitoring. Prometheus-Metriken aus vLLM oder Ollama, LiteLLM-Audit-Logs in Loki, Grafana-Dashboard mit p95-Latenz und Modell-Wahl-Verteilung. Für FINMA-AM-08/2024-Säule-3 wird zusätzlich pro Anfrage ein Prompt-Hash (nicht der Klartext) geloggt und der Modell-Output mit Konfidenz-Score gespeichert.

Fine-Tuning. Apache-2.0-Lizenz erlaubt Modifikation. LoRA-Fine-Tuning auf einer H100 mit Apertus 8B als Basis dauert 4-8 Stunden für ein 50.000-Beispiele-Datenset. Wichtige Praxis: Trainings-Daten müssen DSG-konform aufbereitet sein (Mandanten-Daten ohne klare Einwilligung sind ausgeschlossen). Boutiquen wie LatticeFlow und Inspire AI Schweiz bieten Fine-Tuning-Services mit klarer Datenschutz-Pipeline.

Apertus produktiv in 5 Schritten

01Hosting-Pfad wählen: Swisscom-API für schnelle Inbetriebnahme, Infomaniak GPU-Instanz für mittlere Souveränität, Eigenes Rack mit 2x H100 für maximale Kontrolle.
02Modell-Variante: Apertus 70B für Standard-Workloads (komplexes Reasoning, Mandanten-Korrespondenz, juristische Analyse), Apertus 8B für Edge-Use-Cases (Klassifikation, Triage, schnelle Antworten).
03Runtime-Setup: vLLM für Production-Throughput auf GPU, Ollama für Workstation-Setups oder Apple Silicon. Beide OpenAI-kompatibel.
04LiteLLM-Anbindung: Apertus als Provider eintragen, Routing-Regeln definieren ("sensitive Mandanten-Daten an Apertus, FR-spezifische Anfragen an Mistral, harte Reasoning-Fälle an Claude").
05Monitoring und Compliance: Prometheus auf Runtime, Loki für Audit-Logs, Grafana-Dashboard mit p95-Latenz und Modell-Wahl-Verteilung. FINMA-Quartals-Bericht und DPIA quartalsmässig aktualisieren.

Wann Apertus einsetzen

Apertus ist die richtige Wahl, wenn (a) CH-Daten-Souveränität oder Berufsgeheimnis nach Art. 321 StGB im Vordergrund stehen, (b) Romansh, Schwizerdütsch oder CH-spezifische Sprache trainiert sein muss, (c) eine Apache-2.0-Lizenz für kommerzielle Self-Host-Nutzung gefragt ist, oder (d) Trainings-Daten-Transparenz für FINMA-AM-08/2024 oder EU-AI-Act-Art-50 Pflicht ist.

Konkrete Fälle: Anwaltskanzlei mit Mandanten-Korrespondenz in Schwizerdütsch – Apertus 70B Self-Host auf zwei H100 in Genf oder eigenem Rack. Treuhandgesellschaft in Graubünden mit gemischten DE-IT-RM-Mandaten – Apertus 70B via Swisscom-API als Standard, Apertus 8B Self-Host für Triage. Versicherungs-Vertrag-Pipeline mit Schweizer Rechtsrahmen – Apertus 70B mit LoRA-Fine-Tuning auf den Versicherungs-spezifischen Vokabular. Wealth-Management-Büro mit Schweizer Spitzen-Mandaten – Apertus 70B On-Premises, kein Trafficaustritt aus dem CH-Perimeter.

Für pragmatische Multi-Provider-Setups in Mai 2026 ist Apertus der Sovereign-Anker: hochsensitive Workloads an Apertus, FR/IT-spezifische Workloads an Mistral, Top-Frontier-Reasoning-Fallback an Claude. Eine Routing-Regel in LiteLLM verteilt nach Anfrage-Klassifikation, eine Audit-Spur landet in Loki, ein FINMA-Bericht ist quartalsmässig erstellbar.

Wann NICHT

Für komplexes Top-Frontier-Reasoning auf Mathematik-Olympiade-Stufe oder für juristische Vier-Schritte-Argumentation ist das aktuelle Claude-Spitzenmodell oder das aktuelle GPT-Spitzenmodell noch deutlich voraus. Apertus 70B liegt auf MMLU bei 78-82 Punkten – solide, aber nicht an der Spitze.

Für reine Code-Generierung sind Qwen2.5-Coder, die aktuelle DeepSeek-V-Generation oder das aktuelle Claude-Spitzenmodell produktiv stärker. Apertus ist nicht primär als Code-Modell trainiert.

Für Long-Context-Workloads über 128k Tokens (vollständige mehrjährige Mandanten-Akten) ist Llama 4 Scout mit 10M Context die richtige Wahl, nicht Apertus.

Für Vision-Sprache-Fälle (Beleg-Foto-Klassifikation, Vertrag-Scan) muss bis zur Apertus-Vision-Release (Q4 2026 - Q2 2027) auf andere Modelle (Llama 4 Scout, Pixtral, QwenVL) zurückgegriffen werden.

Für Setups mit sehr niedrigem Budget und unter 5 Millionen Tokens pro Monat ist die Apertus-Self-Host-Hardware-Investition nicht amortisierbar. Hier ist Apertus via Swisscom-API oder ein günstigeres Cloud-Modell die wirtschaftlichere Wahl.

Für Latenz-kritische Echtzeit-Chat-UI ist die Apertus-Self-Host-TTFT (Time To First Token) typisch 300-600ms auf zwei H100 – für Streaming-Chat akzeptabel, für Voice-Bots eher schwach. Cloud-Modelle mit optimierter Inferenz-Pipeline (Claude, das aktuelle GPT-Spitzenmodell über Groq) sind hier schneller.

Vor- und Nachteile

STÄRKEN

Apache-2.0-Lizenz ohne Beschränkungen – kommerzielle Self-Host- und Fine-Tuning-Nutzung erlaubt
Einziges Frontier-Modell mit Romansh-, Schwizerdütsch- und Tessiner-IT-Fähigkeit
Drei Hosting-Pfade mit verschiedenen Souveränitäts-Profilen (Swisscom-API, Infomaniak, On-Premises)
Vollständig dokumentierte Trainings-Daten erleichtern FINMA-AM-08/2024- und EU-AI-Act-Audits

SCHWÄCHEN

Top-Frontier-Reasoning leicht hinter dem aktuellen Claude-Spitzenmodell und dem aktuellen GPT-Spitzenmodell
Kein offizielles Vision- oder Audio-Modell bis Apertus 2 (erwartet Q4 2026 - Q2 2027)
On-Premises-Hosting verlangt 2x H100 mit Initial-Investition CHF 80-150k
Code-Generierung schwächer als Qwen2.5-Coder oder die aktuelle DeepSeek-V-Generation

Häufige Fragen

Was kostet Apertus-Self-Host vs Swisscom-API?

Swisscom-API: rund CHF 0.40-1.50 pro 1M Tokens (70B), CHF 0.05-0.20 pro 1M Tokens (8B). Bei 5 Millionen Tokens pro Monat sind das CHF 2-7.5 für 70B. Self-Host auf Infomaniak: CHF 6.000-12.000 pro Monat für eine H100-Instanz. Self-Host im eigenen Rack: rund CHF 80.000-150.000 Initial für 2x H100, plus CHF 500-1000 pro Monat Strom und Wartung. Faustregel: unter 10M Tokens/Monat lohnt Swisscom-API, über 50M Tokens/Monat lohnt Self-Host.

Welche Runtime ist für Apertus die beste Wahl?

Für Production mit hohem Throughput: vLLM (10-20 Tokens/s pro Anfrage, aggregiert 80-130 über alle Anfragen auf 2x H100). Für kleinere Setups oder Workstations: Ollama (komfortabel, OpenAI-kompatibel, gut auf Apple Silicon). Für Multi-Modal-Setups: LocalAI mit Apertus als LLM-Backend. Für Hub-Nähe und Multi-Modell-Testing: Text Generation Inference. Apertus läuft auf allen vier produktiv.

Kann ich Apertus 70B auf einer H100 betreiben?

Ja, in AWQ-4-Bit-Quantisierung. Speicher-Bedarf rund 45 GB VRAM aktiv plus KV-Cache, passt komfortabel auf eine H100 80GB. Performance: 25-35 Tokens/s pro Anfrage, aggregiert 50-80 Tokens/s über alle parallelen Anfragen. Für höhere Throughput-Anforderungen lohnt Tensor-Parallel auf 2x H100 (aggregiert 80-130 Tokens/s). FP16-Original verlangt zwei H100.

Wann kommt Apertus 2?

Offizielles Release-Datum Stand Mai 2026 nicht kommuniziert. ETH/EPFL haben Februar 2026 eine Roadmap publiziert mit Komponenten Apertus-Voice (CH-DE-Dialekt-Fähigkeit für Audio), Apertus-Code (Programmierung), Apertus-Vision (multimodal), eventuell Apertus-MoE (200B/active-30B). Vernünftige Spekulation: Voice und Code zuerst (Q4 2026 - Q1 2027), Vision und MoE später (Q2-Q4 2027). Bis dahin Apertus 8B und 70B als produktive Versionen.

Quellen

Apertus model card on Hugging Face (swiss-ai/Apertus-70B-Instruct) · 2026-05
ETH AI Center – Apertus project page · 2026-05
Swisscom – Apertus API for Business · 2026-05
CSCS – Alps supercomputer used for Apertus training · 2026-05
Public AI Network – Apertus public inference compute · 2026-05

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen