OLLAMA · ANLEITUNG

Ollama installieren: Schritt-für-Schritt-Anleitung für Mac, Linux und Windows (Mai 2026)

Praktische Anleitung zur Installation von Ollama 0.5+ auf macOS, Linux und Windows mit Modell-Download, REST-API-Test, Quantisierung Q4_K_M, Systemd-Setup und GPU-Beschleunigung.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Worum geht es hier?

Diese Anleitung führt Sie von der leeren Maschine bis zum funktionierenden lokalen LLM-Server. Sie installieren Ollama in der aktuellen Version 0.5.x, laden ein passendes Open-Weight-Modell (Llama 3.3 oder Qwen3) herunter und prüfen die REST-API auf Port 11434. Anschliessend zeigen wir Quantisierung (Q4_K_M als Sweet Spot), Systemd-Hardening für Server und die drei GPU-Beschleunigungs-Pfade: CUDA für NVIDIA, ROCm für AMD, Metal für Apple Silicon.

Die Anleitung ist für drei Zielgruppen geschrieben. Erstens: Treuhand- und Anwaltskanzleien, die ein lokales Modell für Mandanten-Klassifikation oder Embedding-Erzeugung benötigen und keine US-Cloud anfassen dürfen. Zweitens: Entwickler, die einen reproduzierbaren LLM-Endpunkt für Tests in CI/CD wollen. Drittens: KMU-IT-Verantwortliche, die einen Proof-of-Concept aufbauen, bevor sie über Cloud-Provider entscheiden.

Voraussetzung ist eine Maschine mit mindestens 16 GB RAM (für 7B-Modelle), 32 GB (für 13B) oder 64 GB (für 30B-Modelle). Festplatte: 30-100 GB für 3-5 Modelle. Internet für den Erst-Download. Optional eine NVIDIA-, AMD- oder Apple-Silicon-GPU für 5-20x schnellere Inferenz. Alle Befehle sind ASCII-only und gegen Mai 2026 verifiziert.

Warum diese Anleitung jetzt?

Mai 2026 hat sich die Lage stabilisiert: Ollama ist mit über 90.000 GitHub-Sternen das de-facto-Standard-Tool für lokale LLMs auf Einzelmaschinen. Konkurrenz wie LM Studio (GUI-only), vllm (zu komplex für Einzelbetrieb) oder llama.cpp direkt (zu nah am Metall) hat sich klar abgegrenzt. Wer einen lokalen LLM-Server will und keine Multi-GPU-Cluster baut, nimmt Ollama.

Die Modell-Landschaft ist ausgereift. Llama 3.3 (Meta, Dezember 2025) liefert 70B-Qualität auf Niveau GPT-4 in einer Q4-Quantisierung, die in 48 GB RAM passt. Qwen3 (Alibaba, März 2026) ist das beste Open-Source-Modell für mehrsprachige Fälle (DE/FR/IT/EN/ZH) bei 14-32B Grösse. DeepSeek-R1 (Januar 2025, weiterhin aktuell) liefert Reasoning-Qualität auf O1-Niveau bei 7B-32B. Phi-4 (Microsoft) ist das beste 14B-Modell für mathematische Aufgaben.

Für Schweizer KMU bedeutet das: Es gibt keinen technischen Grund mehr, für reine Klassifikations- und Extraktions-Aufgaben Cloud-LLMs zu nutzen. Die Hardware kostet einmalig CHF 2.000-5.000 (Mac Studio M2 Ultra 64 GB, oder Linux-Server mit 64 GB RAM und RTX 4090), danach ist der Betrieb nur Strom. Der ROI gegen einen Cloud-Provider liegt bei mittlerem Volumen bei 4-9 Monaten.

Wie das Setup funktioniert

Ollama besteht aus zwei Komponenten: einem Daemon (ollama serve), der die Modelle in den Arbeitsspeicher lädt und auf Port 11434 REST-Anfragen beantwortet, und einer CLI (ollama), die als dünner Client fungiert. Das Modell-Verzeichnis liegt unter ~/.ollama/models (Linux/Mac) oder %USERPROFILE%\.ollama\models (Windows).

Die Architektur ist denkbar einfach: Sie installieren ein Binary, ziehen ein Modell mit ollama pull, und reden danach mit der lokalen API über http://localhost:11434/api/generate oder /api/chat. Eine OpenAI-kompatible Schicht liegt unter /v1/chat/completions, sodass jedes OpenAI-SDK funktioniert.

Quantisierung ist der entscheidende Hebel für Geschwindigkeit und RAM-Verbrauch. Die Bezeichnung Q4_K_M heisst: 4-Bit-Gewichte mit K-Quants-Optimierung in der Variante M (medium). Das halbiert den RAM-Bedarf gegen FP16 und beschleunigt CPU-Inferenz um Faktor 2-3, bei einer Qualitätsverluste von ca. 1-3% gegenüber FP16. Für 7B-13B-Modelle ist Q4_K_M der Sweet Spot. Q5_K_M kostet 15% mehr RAM bei marginal besserer Qualität. Q8_0 ist nahe FP16 und nur bei kritischen Generierungsaufgaben sinnvoll.

GPU-Beschleunigung wird automatisch erkannt. NVIDIA: Ollama nutzt CUDA 12.x via cuBLAS – die GPU muss mindestens Compute Capability 5.0 haben (GTX 1080 und neuer). AMD: ROCm 6.x wird auf RX 6800 XT und neuer unterstützt; ältere Karten via OpenCL-Fallback (langsam). Apple Silicon: M1/M2/M3/M4 nutzen Metal Performance Shaders automatisch – Apple Silicon ist für LLMs ungewöhnlich stark, weil RAM und GPU sich den gleichen Speicher teilen.

Für den Server-Betrieb braucht es Systemd-Hardening: ollama als eigener Unix-User, Verzeichnis-Beschränkungen via ProtectSystem, Network-Binding nur auf 127.0.0.1 (falls hinter Reverse-Proxy) oder auf interne IPs (falls von anderen Containern erreichbar).

Ollama-Installation in 10 Schritten

01Schritt 1 – Installation Mac: Im Terminal `curl -fsSL https://ollama.com/install.sh | sh` ausführen. Alternativ DMG von https://ollama.com/download laden und in Applications ziehen. Prüfen mit `ollama --version` (erwarte 0.5.x oder neuer).
02Schritt 2 – Installation Linux: `curl -fsSL https://ollama.com/install.sh | sh` legt /usr/local/bin/ollama an und startet einen Systemd-Service ollama.service unter dem User ollama. Prüfen mit `systemctl status ollama` und `ollama --version`.
03Schritt 3 – Installation Windows: OllamaSetup.exe von https://ollama.com/download/windows herunterladen, installieren. Setup startet Ollama als Windows-Service. PowerShell öffnen, `ollama --version` ausführen – falls Befehl unbekannt, einmal Terminal neu starten oder PATH manuell ergänzen.
04Schritt 4 – Modell laden Llama 3.3: `ollama pull llama3.3:70b-instruct-q4_K_M` lädt ca. 42 GB. Für kleinere Maschinen: `ollama pull llama3.2:3b` (2 GB) oder `ollama pull llama3.1:8b` (4.7 GB). Download läuft über HTTPS aus dem Ollama-CDN.
05Schritt 5 – Modell laden Qwen3: `ollama pull qwen3:14b` (8.5 GB) ist die beste Wahl für DE/FR/IT-Anwendungen. Für Reasoning `ollama pull deepseek-r1:14b` (9 GB). Für Embeddings `ollama pull nomic-embed-text` (274 MB).
06Schritt 6 – REST-API testen: Im Terminal `curl http://localhost:11434/api/generate -d '{"model":"llama3.2:3b","prompt":"Sage Hallo auf Schweizerdeutsch","stream":false}'` – Antwort kommt als JSON mit response-Feld. Bei stream:true kommen Tokens einzeln.
07Schritt 7 – OpenAI-kompatibler Endpunkt: `curl http://localhost:11434/v1/chat/completions -H "Content-Type: application/json" -d '{"model":"llama3.2:3b","messages":[{"role":"user","content":"Hallo"}]}'` – Antwort im OpenAI-Format. Damit funktionieren alle OpenAI-SDKs sofort.
08Schritt 8 – Systemd-Hardening (Linux-Server): `/etc/systemd/system/ollama.service` editieren, Block [Service] erweitern um `Environment="OLLAMA_HOST=127.0.0.1:11434"`, `Environment="OLLAMA_KEEP_ALIVE=24h"`, `ProtectSystem=strict`, `NoNewPrivileges=true`. Danach `systemctl daemon-reload && systemctl restart ollama`.
09Schritt 9 – GPU-Beschleunigung aktivieren: NVIDIA: `nvidia-smi` muss die GPU sehen, CUDA-Toolkit 12.4+ installiert sein, Ollama erkennt automatisch. AMD: `rocm-smi` prüfen, ROCm 6.0+ installieren, neu starten. Mac: nichts zu tun, Metal ist automatisch. Logs: `journalctl -u ollama -f` zeigt "using GPU" beim Modell-Laden.
10Schritt 10 – Troubleshooting: Zu langsam: kleinere Quantisierung wählen (`ollama pull llama3.1:8b-instruct-q4_0` statt q5_K_M). OOM (Out of Memory): kleineres Modell oder Q3_K_M. Falsches Modell antwortet: `ollama list` zeigt geladene Modelle, `ollama rm <name>` entfernt. API antwortet nicht: `systemctl status ollama` prüfen, Port 11434 mit `ss -tlnp | grep 11434` verifizieren.

Wann diese Anleitung passt

Diese Anleitung ist die richtige Wahl, wenn (a) Sie eine einzelne Maschine für LLM-Inferenz haben (Mac, Linux-Server, Windows-Workstation), (b) Sie ein bis fünf Modelle parallel halten wollen und (c) die Anwendungsfälle Klassifikation, Extraktion, Embeddings oder mittelkomplexe Generierung sind.

Konkrete Fälle: Eine Anwaltskanzlei testet lokale Mandanten-Korrespondenz-Klassifikation mit Llama 3.3 8B. Ein Treuhand-Büro baut einen Pilot für Belegerkennung mit Qwen3 14B. Ein Entwickler baut ein RAG-System und braucht einen lokalen Embedding-Endpunkt mit nomic-embed-text. Ein Büro will einen privaten Chat-Assistenten für interne Recherchen, ohne dass Anfragen das Haus verlassen.

Für Multi-GPU-Cluster mit mehreren hundert Anfragen pro Sekunde ist Ollama der falsche Stack – dort gehört vllm oder TGI hin. Für Einzelmaschinen und kleine Teams bis 50 gleichzeitige Anfragen ist Ollama die ehrliche Wahl.

Wann diese Anleitung NICHT passt

Diese Anleitung passt nicht, wenn Sie GPT-4o- oder Claude-Sonnet-Qualität brauchen ohne GPU-Hardware. Ein lokales Llama-3.3-70B auf CPU läuft mit 1-3 Tokens pro Sekunde – für Chat zu langsam. Wer ohne GPU-Budget arbeitet, bleibt bei Cloud-Modellen oder routet über LiteLLM zu Mistral-EU.

Ungeeignet ist Ollama auch für Voice-Bots oder andere Real-Time-Streaming-Anwendungen, in denen Time-to-First-Token unter 200 ms liegen muss. Cloud-Provider mit dedizierten Schnellinferenz-Modellen (Groq, Cerebras) sind dort der bessere Pfad.

Weitere Falle: Ollama auf einer Maschine mit weniger als 8 GB RAM. Selbst ein 3B-Modell wird dort eng – Swapping killt die Geschwindigkeit. Für Maschinen mit 4-8 GB RAM ist Mistral La Plateforme Free Tier oder Cohere Trial der pragmatischere Start.

Vor- und Nachteile

STÄRKEN

Installation in unter 5 Minuten auf allen drei Betriebssystemen
OpenAI-kompatible REST-API erlaubt bestehende SDKs ohne Code-Änderung
Automatische GPU-Erkennung für NVIDIA, AMD, Apple Silicon
Q4_K_M-Quantisierung halbiert RAM-Bedarf bei minimaler Qualitätseinbusse

SCHWÄCHEN

70B-Modelle ohne GPU sind zu langsam für interaktiven Chat (1-3 Tokens/Sek)
Standard-Binding nur auf localhost – Netzwerk-Exposition braucht Extra-Arbeit
Modell-Updates sind Disziplin – keine automatischen Sicherheits-Patches für Modelle
Speicherplatz: 30-100 GB für 3-5 produktive Modelle

Häufige Fragen

Welches Modell soll ich zuerst probieren?

Auf einem Mac M2/M3 mit 16 GB RAM: llama3.1:8b oder qwen3:8b – beide laufen mit 30-50 Tokens/Sek und sind für DE/EN ausreichend. Auf einem Linux-Server mit 64 GB RAM ohne GPU: qwen3:14b oder llama3.3:8b. Mit GPU: bis 70B-Quantisiert, die Qualität liegt nahe an GPT-4. Für Embeddings immer nomic-embed-text – 100-200 Texte pro Sekunde auch auf CPU.

Warum Q4_K_M und nicht das Original-Format?

Q4_K_M halbiert den RAM-Bedarf gegenüber FP16 und beschleunigt CPU-Inferenz um Faktor 2-3, bei einer Qualitätseinbusse von 1-3% in Benchmarks. Für Klassifikation, Extraktion und mittelkomplexe Generierung ist der Unterschied praktisch nicht messbar. FP16 oder Q8_0 lohnen nur bei kritischen Generierungsaufgaben mit harten Qualitätsanforderungen – und dann lieber Cloud-LLM via LiteLLM-Routing.

Wie schütze ich den Ollama-Endpunkt im Netzwerk?

Per Default bindet Ollama nur an 127.0.0.1, also nur local-host. Wer es von anderen Containern erreichen will, setzt OLLAMA_HOST=0.0.0.0:11434 in der Systemd-Unit und legt eine Firewall-Regel davor (ufw, nftables oder iptables), die nur interne IPs zulässt. Für Internet-Exposition immer einen Reverse-Proxy mit Auth (nginx + basic auth oder besser LiteLLM mit Virtual Keys). Nie ollama serve direkt ans Internet binden.

Was tun bei Out-of-Memory-Fehler?

Drei Hebel in dieser Reihenfolge: (1) Kleineres Modell: 8B statt 14B, 14B statt 70B. (2) Niedrigere Quantisierung: Q3_K_M statt Q4_K_M (kostet 5-10% Qualität, spart 25% RAM). (3) num_ctx kürzen: per default 2048, für Klassifikation reichen 512 – in der API-Anfrage `"options":{"num_ctx":512}` mitgeben. Wenn das nicht reicht: Hardware aufrüsten oder Cloud-LLM nutzen.

Quellen

Ollama documentation – installation, models, GPU support · 2026-05
ollama/ollama – GitHub releases and changelog · 2026-05
Meta – Llama 3.3 model card and license · 2026-04
Alibaba – Qwen3 release notes and benchmarks · 2026-03
GGUF format and quantisation guide (Hugging Face) · 2026-03

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen