DEEPSEEK · TECH

DeepSeek (V- und R-Linie): das chinesische MoE-Reasoning-Modell mit Self-Host-Option

Die DeepSeek-V- und R-Modelle unter DeepSeek License. Self-Host via Hugging Face. Sehr starkes Reasoning, sehr günstig zu betreiben. API-Nutzung Warnung bei Mandantendaten. Modell-Versionen ändern sich laufend – aktuelle Bezeichnungen vor Einsatz prüfen.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Was ist DeepSeek?

DeepSeek ist eine in Hangzhou, China ansässige Firma, gegründet 2023, die mit einer Serie offener Sprachmodelle global Aufmerksamkeit erregt hat. Die DeepSeek-Familie umfasst zwei Hauptlinien: DeepSeek V (General-Purpose-Chat) und DeepSeek R (Reasoning-spezialisiert).

DeepSeek V3 (671 Milliarden Total-Parameter, 37B aktiv pro Token in MoE-Architektur) und das Reasoning-Modell DeepSeek R1 haben die Linie bekannt gemacht. DeepSeek aktualisiert die Modelle laufend; nachfolgende V- und R-Generationen bringen typischerweise verbesserte Multilingual-Fähigkeit, effizientere Inferenz und einen stärkeren Thinking-Mode. Die jeweils aktuellen Modell-Namen und Verfügbarkeiten stehen auf api-docs.deepseek.com und Hugging Face – vor Produktiv-Einsatz prüfen, da sich Bezeichnungen und Aliase mit neuen Releases ändern.

Lizenz: DeepSeek-Modelle unterliegen der DeepSeek License, einer Custom-Lizenz mit erlaubter kommerzieller Nutzung. Die Lizenz hat sich Richtung Apache-2.0-Nähe entwickelt; Self-Host, Fine-Tuning und kommerzielle Nutzung sind erlaubt. Den verbindlichen, jeweils aktuellen Lizenz-Text bitte direkt im jeweiligen Modell-Repository prüfen (github.com/deepseek-ai).

Der Markt-Eindruck: DeepSeek gehört zu den effizientesten Open-Weight-Anbietern. Auf Standard-Benchmarks (MMLU, HumanEval, LiveCodeBench) spielen die V-Modelle laut öffentlichen Berichten in der Spitzengruppe der Open-Weight-Welt mit, bei einem Bruchteil der Inferenz-Kosten geschlossener Modelle; konkrete Punktzahlen variieren je nach Modell-Version und Test-Setup und sollten nicht als feste Werte verstanden werden. Auf reinem Reasoning ist die R-Linie die stärkere Variante. Konkrete Benchmark-Zahlen vor einer Architektur-Entscheidung selbst nachmessen.

Verfügbarkeit: Hugging Face (Repos unter deepseek-ai/), DeepSeek-eigene API (api.deepseek.com mit PRC-Hosting), Together AI, Fireworks AI, sowie Self-Host via vLLM, TGI, Ollama.

Warum DeepSeek für CH-Daten zählt

DeepSeek ist Mai 2026 eines der interessantesten Open-Weight-Modelle überhaupt – aber für Schweizer Treuhand- und Anwalts-Setups gilt eine spezifische Vorsicht. Drei konkrete Vorteile, drei wichtige Vorbehalte.

Vorteil eins: maximale Effizienz. DeepSeek V ist mit MoE-Architektur (37B aktiv von 671B total) auf einer Box mit 4-8 GPUs lauffähig. In 4-Bit-AWQ-Quantisierung reichen 4 H100 80GB. Resultat: Top-Quality-Inferenz zu Hardware-Kosten, die deutlich unter Llama 4 Maverick (8 H100) liegen. Für Schweizer Beratungs-Boutiquen mit Self-Host-Ambition ist das attraktiv.

Vorteil zwei: Reasoning-Spitze. DeepSeek R ist Mai 2026 das Open-Weight-Reasoning-Modell. Auf AIME, MATH und schwierigen Logik-Benchmarks erreicht es Werte nahe an aktuellen Claude-Spitzenmodellen. Für komplexe juristische Vier-Schritte-Argumentation, für Treuhand-Steuer-Sonderfälle mit verflochtenen internationalen Bezügen, für mehrstufige Versicherungs-Schaden-Prüfungen ist R2 produktiv brauchbar – Self-Host vorausgesetzt.

Vorteil drei: aktualisierte Lizenz. Die DeepSeek License Mai 2026 ist deutlich freundlicher als ihre früheren Versionen. Kommerzielle Nutzung ist klar erlaubt, Self-Host ist explizit beschrieben, Fine-Tuning ist erlaubt. Für KMU-Compliance ist die Lizenz akzeptabel.

Vorbehalt eins: PRC-Origin, identisch wie bei Qwen. DeepSeek ist eine chinesische Firma. API-Use über api.deepseek.com geht nach China. Für Berufsgeheimnis-Mandate nach Art. 321 StGB ist das ausgeschlossen. Self-Host löst das Problem – die Gewichte sind via Hugging Face frei und laufen im eigenen Rack ohne externe Verbindung.

Vorbehalt zwei: Schadens-Risiko bei Trainings-Daten. DeepSeek hat in frühen Versionen verschiedene Hinweise auf Trainings-Daten gegeben, die auf US-Modelle (GPT-4-Output) zurückverweisen. Mai 2026 ist die Trainings-Daten-Lage transparenter, aber nicht so klar dokumentiert wie bei Apertus oder Mistral. Für Compliance-Setups mit FINMA-AM-08/2024-Säule-3 (Modell-Validierung) verlangt das mehr eigene Prüfung.

Vorbehalt drei: politisches und Sanktions-Risiko. Wie bei Qwen – US- und EU-Sanktionen könnten kuenftig Software-Lieferketten betreffen. Backup-Strategie ist Pflicht.

Die pragmatische Empfehlung Mai 2026: DeepSeek ist eine interessante Option für technische Workloads (Code-Generierung, Mathematik, generisches Reasoning), wenn Self-Host stattfindet und PRC-Origin im Compliance-Diskurs adressiert ist. Für Mandanten-direkte Workflows (Korrespondenz-Klassifikation, Vertrags-Generierung) bleiben Apertus, Mistral oder Llama 4 die saubereren Wahlen.

DeepSeek in der Praxis

Architektur. DeepSeek V ist ein MoE-Modell mit 671B Total-Parametern, organisiert in 256 Experten pro MoE-Layer, mit 8 aktiven Experten pro Token. Aktive Parameter pro Forward-Pass: rund 37B. Context-Fenster: 128k Tokens. Die Architektur nutzt eine Variante der Multi-Head Latent Attention (MLA), die den KV-Cache deutlich reduziert – eine wichtige Effizienz-Innovation.

DeepSeek R baut auf der V-Architektur auf, mit zusätzlichem Reasoning-Training (GRPO-ähnliche Reinforcement-Learning-Schicht). Output enthält einen "Reasoning-Block" vor der finalen Antwort, der über das System-Prompt-Setting steuerbar ist.

Setup-Beispiel mit vLLM auf 4 H100 80GB:

``` docker run --gpus all --shm-size 16g -p 8000:8000 \ vllm/vllm-openai:v0.6.3 \ --model deepseek-ai/DeepSeek-V3 \ --max-model-len 32768 \ --tensor-parallel-size 4 \ --quantization awq \ --gpu-memory-utilization 0.93 ```

Dieser Befehl startet DeepSeek V auf 4 H100 mit Tensor-Parallel und 4-Bit-AWQ-Quantisierung. Speicher-Bedarf rund 320 GB VRAM aktiv. Performance: aggregiert 80-130 Tokens/s über alle parallelen Anfragen.

DeepSeek-API als Alternative. Wer kein Self-Host machen will und PRC-Hosting akzeptiert (nicht für Mandanten-Daten!), erreicht via api.deepseek.com sehr günstige Preise (laut Anbieter-Preisliste Stand Mai 2026 Grössenordnung deutlich unter USD 1 pro 1M Tokens; aktuelle Tarife auf api-docs.deepseek.com prüfen). Das ist deutlich unter Mistral, das aktuelle GPT-Spitzenmodell und aktuelle Claude-Spitzenmodelle. Für öffentliche Texte, generische Code-Generierung oder synthetische Test-Datensätze ist die API eine Option.

R2 mit Reasoning-Mode. R2 unterstützt zwei Modi: "Reasoning On" mit ausführlichem Thinking-Block, "Reasoning Off" für direkte Antworten. Aktivierung:

```python response = client.chat.completions.create( model="deepseek-reasoner", messages=[{"role": "user", "content": "Löse: ..."}], extra_body={"reasoning": True} ) # response.choices[0].message.reasoning_content enthält den Thinking-Block # response.choices[0].message.content enthält die Antwort ```

Routing-Beispiel. Eine Schweizer Boutique mit Multi-Provider-Strategie nutzt DeepSeek V als Self-Host auf 4 H100 für Code-Generierung und technische Workloads (interne Skripte, automatische Test-Generierung, Datenanalyse), Apertus 70B für Mandanten-direkte Workflows, Mistral Large 2 für FR/IT-Reasoning, aktuelle Claude-Spitzenmodelle als Fallback für Top-Frontier-Fälle. Routing über LiteLLM, Audit-Logs in Loki, Metriken in Grafana.

Fine-Tuning. DeepSeek Modelle sind via LoRA und QLoRA fine-tunbar. DeepSeek selbst hat ein Fine-Tuning-Service im Angebot, aber Self-Host-Fine-Tuning ist die saubererste Variante. Auf 4 H100 lassen sich DeepSeek-V3-/V4-LoRA-Fine-Tunes mit interner Daten-Basis in 12-24 Stunden trainieren.

DeepSeek produktiv in 5 Schritten

01Compliance-Diskussion: PRC-Origin im Kontext der Mandanten-Politik bewerten. Self-Host vs API-Use, sensitive vs nicht-sensitive Workloads klar abgrenzen, schriftlich dokumentieren.
02Modell-Wahl: DeepSeek V für General-Purpose-Reasoning und Code, DeepSeek R für schwieriges Reasoning mit Thinking Mode.
03Hardware-Bereitstellung: 4 H100 80GB minimum für V4 in 4-Bit-AWQ-Quantisierung. Tensor-Parallel-Setup via vLLM oder TGI.
04LiteLLM-Anbindung mit klaren Routing-Regeln: technische Workloads ohne Mandanten-Bezug an DeepSeek, sensible Workloads an Apertus oder Mistral.
05Audit-Pipeline: Prompt-Hash-Logging via LiteLLM, Modell-Validierungs-Berichte für FINMA-AM-08/2024-Säule-3 vorhalten, Backup-Strategie mit Apertus oder Mistral als Plan-B-Modelle.

Wann DeepSeek einsetzen

DeepSeek ist die richtige Wahl, wenn (a) ein technisch anspruchsvoller Reasoning-Workload mit Self-Host-Bereitschaft ansteht, (b) maximale Effizienz pro GPU-Investition gefragt ist, oder (c) ein spezialisiertes Code- oder Mathematik-Modell ohne Mandanten-Daten-Berührung gebraucht wird.

Konkrete Fälle: Software-Boutique mit interner Code-Generierung – DeepSeek V Self-Host auf 4 H100 als Code-Modell für das Entwickler-Team. Beratungs-Büro mit komplexen mathematischen Steuer- oder Versicherungs-Berechnungen – DeepSeek R Self-Host für schwierige Reasoning-Fälle, mit anonymisierten oder synthetischen Daten. Treuhandgesellschaft mit interner Daten-Analyse-Pipeline (BI-Auswertungen, Trend-Analysen ohne Mandanten-Bezug) – DeepSeek V für Daten-Aufbereitungs-Skripte und Visualisierungs-Code.

Die operative Empfehlung Mai 2026: DeepSeek im Multi-Provider-Setup, nicht als Solo-Modell. Routing-Regel "technische Workloads ohne Mandanten-Daten an DeepSeek, sensible Mandanten-Arbeit an Apertus oder Mistral, Top-Frontier-Fallback an Claude". So nutzt man die Effizienz von DeepSeek ohne die Compliance-Risiken bei Mandanten-Daten.

Wann NICHT

Für Mandanten-direkte Arbeit unter Berufsgeheimnis (Art. 321 StGB) ist DeepSeek API ausgeschlossen – die PRC-Daten-Transfer-Lage ist gegen Art. 321 nicht vereinbar. Self-Host ist technisch möglich, aber das politische Argument muss intern adressiert sein.

Für FINMA-strenge Mandate ist DeepSeek auch im Self-Host eine schwierige Wahl. Die Trainings-Daten-Transparenz ist nicht so klar dokumentiert wie bei Apertus oder Mistral. FINMA-AM-08/2024-Säule-3 verlangt Modell-Validierung – die bei DeepSeek mehr eigene Arbeit erfordert.

Für Romansh und Schwizerdütsch ist DeepSeek nicht trainiert. Hier bleibt Apertus die richtige Wahl.

Für Setups mit klarer EU- oder US-Provider-Bindung (Banken, öffentliche Verwaltung mit West-only-Policy) ist DeepSeek ausgeschlossen, unabhängig von der technischen Qualität.

Für einfache Pilot-Phasen oder Hobby-Erkundung ist Mistral Small 3.1 oder Apertus 8B bequemer – die Compliance-Diskussion entfällt.

Vor- und Nachteile

STÄRKEN

Beste Effizienz pro GPU dank MoE und Multi-Head Latent Attention
DeepSeek R ist Mai 2026 das beste Open-Weight-Reasoning-Modell
API-Preise deutlich unter allen US- und EU-Anbietern
DeepSeek License Mai 2026 erlaubt kommerzielle Self-Host- und Fine-Tuning-Nutzung

SCHWÄCHEN

PRC-Origin – API ausgeschlossen für Mandanten-Daten, Self-Host mit politischer Diskussion
Trainings-Daten-Transparenz unter Apertus- und Mistral-Niveau
Romansh und Schwizerdütsch nicht trainiert
Politisches und Sanktions-Risiko verlangt Backup-Strategie

Häufige Fragen

Wie effizient ist DeepSeek V wirklich?

Pro Token-Generation läuft DeepSeek V in der MoE-Architektur mit nur 37B aktiven Parametern. Inferenz-Kosten skalieren entsprechend. Auf 4 H100 in 4-Bit-AWQ erreicht V4 bei einzelnem Request rund 35-50 Tokens/s und bei voller Last (20 parallele Anfragen) aggregiert 80-130 Tokens/s. Vergleichsweise braucht Llama 4 Maverick (17B aktiv, 400B total) eher 8 H100 für ähnliche Throughput-Niveaus – DeepSeek ist hier deutlich effizienter.

Was kostet DeepSeek V über die API?

Stand Mai 2026: USD 0.27 pro 1M Input-Tokens, USD 1.10 pro 1M Output-Tokens für DeepSeek V. DeepSeek R mit Reasoning-Mode etwa USD 0.55 / 2.20. Das ist deutlich unter allen US- und EU-Anbietern. Achtung: API-Hosting in PRC, für Mandanten-Daten ausgeschlossen. Bei nicht-sensitive Workloads ist die Preis-Differenz substantiell.

Wie steht R2 gegen aktuelle Claude-Spitzenmodelle auf Reasoning?

Auf Mathematik-Benchmarks wie AIME und MATH spielt die DeepSeek-R-Linie mit Thinking Mode in der Spitzengruppe mit; die stärksten geschlossenen Reasoning-Modelle (z.B. aktuelle Claude-Spitzenmodelle mit Extended Thinking) liegen auf den schwierigsten Aufgaben oft noch leicht voraus. Konkrete Prozentwerte hängen stark von Modell-Version, Test-Setup und Prompt ab und sollten vor einer Entscheidung selbst nachgemessen werden. Für den Grossteil der praktischen Reasoning-Fälle ist der Unterschied marginal – für absolute Spitzen-Fälle bleibt Claude meist vorne.

Kann ich DeepSeek auf Schweizer Cloud betreiben?

Ja, über Infomaniak GPU-Instanzen (Genf) oder eigenes Rack in einem Schweizer Rechenzentrum. Hardware-Bedarf: 4 H100 80GB oder 8 L40S 48GB minimum für V4 in 4-Bit-Quantisierung. Lauf-Kosten Infomaniak Mai 2026: rund CHF 12.000-18.000 / Monat für 4 H100. Self-Host löst die PRC-Datenfluss-Frage vollständig – nur der initiale Modell-Download über Hugging Face passiert einmalig und kann über das huggingface-cli auf einer Air-gapped-Maschine vorbereitet werden.

Quellen

DeepSeek – official model collection on Hugging Face · 2026-05
DeepSeek V – release notes and technical report · 2026-04
DeepSeek License (current version) · 2026-04
DeepSeek API – pricing and documentation · 2026-05

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen