LOCALAI · TECH
LocalAI: OpenAI-API-kompatibler Allrounder für LLM, TTS, STT und Vision in einer Box
LocalAI ist ein MIT-lizenzierter Self-Hosting-Server, der LLM, Bild, Audio und Embeddings unter einer OpenAI-API bündelt. Bare-Metal oder Docker.
Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05
Was ist LocalAI?
LocalAI ist ein Open-Source-Self-Hosting-Server für multimodale KI-Workloads, gestartet 2023 von Ettore Di Giacinto und Mai 2026 in Version 2.x unter MIT-Lizenz auf github.com/mudler/LocalAI verfügbar. Das Projekt hat über 25.000 GitHub-Sterne und eine aktive Community, das offizielle Portal liegt unter localai.io.
Das Besondere an LocalAI: es ist nicht nur eine LLM-Runtime, sondern ein Orchestrator, der verschiedene Modell-Typen unter einer einzigen OpenAI-kompatiblen API zusammenführt. Eine LocalAI-Instanz beantwortet POST /v1/chat/completions (LLM-Chat), POST /v1/embeddings (Embedding-Vektoren), POST /v1/audio/transcriptions (Whisper-Sprache-zu-Text), POST /v1/audio/speech (TTS), POST /v1/images/generations (Stable Diffusion / Flux) und POST /v1/rerank (BGE-Reranker). Alle Endpunkte folgen der OpenAI-Spezifikation – d.h. ein vorhandener OpenAI-Client kann ohne Anpassung darauf umgeleitet werden.
Unter der Haube läuft LocalAI als Go-basierter Service, der mehrere Backend-Engines orchestriert: llama.cpp für LLMs, whisper.cpp für Sprach-Erkennung, Diffusers oder stablediffusion.cpp für Bild-Generierung, eSpeak-NG / Bark / Piper für TTS, sentence-transformers für Embeddings. Die Backend-Wahl pro Modell läuft über eine YAML-Konfiguration; LocalAI lädt die jeweilige Engine bei Bedarf in einem Subprozess.
Deployment-Optionen Mai 2026: Bare-Metal-Installation als Go-Binary auf Linux, Docker-Image localai/localai mit verschiedenen Tags (cpu, gpu-nvidia, gpu-amd, all-in-one), Kubernetes-Deployment mit Helm-Chart, Docker-Compose-Setups für Edge-Use-Cases. Die "all-in-one"-Variante kommt mit vorinstallierten Modellen – Llama 3.3, Whisper, Stable Diffusion 3.5 – und ist für schnelle Demos gedacht.
Version Mai 2026: 2.20+ mit der wichtigen Neuerung "P2P federation" (mehrere LocalAI-Knoten können Modelle und Last verteilt teilen) und "Function calling" (Tool-Use über OpenAI-kompatible JSON-Schemas auf jedem Modell, das es kann).
Warum LocalAI für CH-Daten zählt
LocalAI zielt auf eine spezifische Konstellation, die in Schweizer Treuhand- und Anwalts-Buros oft auftritt: mehrere KI-Modalitäten in einer Compliance-Box.
Erstens: Multi-Modalität ohne Provider-Verstreuung. Ein Anwalts-Büro, das Diktate transkribieren (Whisper), Verträge zusammenfassen (LLM), juristische Zitate im internen Archiv finden (Embeddings) und Mandanten-Präsentationen mit generierten Grafiken anreichern (Stable Diffusion) will, kann das mit LocalAI auf einer einzigen Maschine in einem Schweizer Rechenzentrum tun. Die Alternative – vier verschiedene Cloud-Provider mit vier verschiedenen Verträgen, vier DPAs nach DSG Art. 9, vier Audit-Spuren – ist deutlich mehr Komplexität.
Zweitens: Vollständige Daten-Souveränität. LocalAI läuft komplett im eigenen Netzwerk-Perimeter. Keine externe API-Anfrage, keine Telemetrie, keine versteckte Modell-Synchronisation. Für Mandanten unter Berufsgeheimnis nach Art. 321 StGB ist das die maximale Ausprägung von "Daten in unserem Rack". FINMA-AM-08/2024-Säule-1 (Datenklassifikation) und EU-AI-Act-Art-10 (Daten-Governance) werden hier vergleichsweise einfach erfüllbar.
Drittens: OpenAI-kompatible API als Wechsel-Schutz. Wer LocalAI als Backend nutzt und morgen feststellt, dass ein bestimmtes Modell besser über Mistral La Plateforme läuft, ändert eine LiteLLM-Routing-Regel – nicht den Code in zwanzig Microservices. Anwendungen sprechen mit LocalAI wie mit OpenAI; der Wechsel ist eine Adresse, nicht eine Migration.
Viertens: Bare-Metal-Option ohne Docker. Manche Schweizer Banken und Versicherungen haben Docker als Container-Technologie nicht freigegeben (alte Sicherheits-Richtlinien). LocalAI lässt sich als statisches Go-Binary direkt auf einem Linux-Server installieren – keine Container-Laufzeit nötig. Das ist im SecOps-Gespräch mit konservativen IT-Abteilungen ein praktisches Argument.
Fünftens: Multi-Tenancy über API-Keys. LocalAI unterstützt mehrere API-Keys mit unterschiedlichen Modell-Berechtigungen. In einer Anwaltskanzlei mit getrennten Mandanten-Bereichen kann man pro Mandant einen eigenen Key vergeben und in den Audit-Logs nach Mandanten-Key filtern. Das ist für eine sauber dokumentierte Beweis-Sicherung wichtig.
Wie LocalAI technisch funktioniert
LocalAI ist ein Go-Service, der eine Modell-Konfigurations-Datei pro Modell lädt und beim Aufruf den passenden Backend-Prozess startet.
Setup-Beispiel. Auf einem Hetzner-Server mit RTX 4090 (24 GB VRAM):
``` docker run --gpus all -d \ -p 8080:8080 \ -v $PWD/models:/build/models \ -v $PWD/config:/build/config \ --name localai \ localai/localai:v2.20.1-aio-gpu-nvidia-cuda-12 ```
Die all-in-one-Variante lädt beim ersten Start Llama 3.3 8B, Whisper-Large-v3, Stable Diffusion 3.5 Medium und nomic-embed-text – etwa 30 GB Download. Die API ist auf http://localhost:8080/v1/ verfügbar.
Modell-Konfiguration via YAML. Jedes Modell hat eine eigene YAML-Datei unter /build/config/. Beispiel für Apertus 8B:
```yaml name: apertus-8b backend: llama-cpp parameters: model: apertus-8b-q4_k_m.gguf context_size: 8192 threads: 8 f16: true gpu_layers: 32 rope_freq_base: 500000 template: chat: | {{.System}} User: {{.Input}} Assistant: ```
Whisper für Diktate. Sprach-Erkennung mit dem grossen Whisper-Large-v3-Modell auf CPU oder GPU:
``` curl http://localhost:8080/v1/audio/transcriptions \ -H "Content-Type: multipart/form-data" \ -F file="@diktat.mp3" \ -F model="whisper-large-v3" \ -F language="de" ```
Resultat: JSON mit Transkript-Text, optionalen Wort-Timestamps und Konfidenz-Score. Für Schweizer Anwalts-Diktate ist Whisper-Large-v3 die produktive Wahl – Schweizer Hochdeutsch wird gut erkannt, mit Schwizerdütsch und Walliserdeutsch wird es schwierig. Apertus-Voice (Stand Mai 2026 in Entwicklung) wird hier mittel-frist die bessere Lösung.
P2P-Federation. Mehrere LocalAI-Knoten können sich gegenseitig erkennen und Modelle / Last teilen. Konfiguriert über LOCALAI_P2P_TOKEN. Praktisch für eine Anwaltskanzlei mit zwei Buros (Zürich und Bern) – die jeweilige Last bleibt lokal, ein Modell-Update auf einem Knoten synchronisiert sich auf den anderen.
Function-Calling und Tool-Use. Modelle mit Tool-Use-Fähigkeit (Llama 3.3+, Mistral Small 3.1+, Qwen 3, Apertus 70B-Instruct) werden über die OpenAI-Function-Calling-Spezifikation angesprochen. LocalAI parst die Tool-Aufrufe und gibt sie strukturiert im OpenAI-Format zurück.
Monitoring. LocalAI exportiert Prometheus-Metriken auf /metrics: localai_requests_total, localai_request_duration_seconds, localai_model_load_duration_seconds. Logs über stdout in Loki. Audit-Logs mit Prompt-Hash (nicht Klartext) pro Anfrage sind über das Config-Flag audit: true aktivierbar.
LocalAI produktiv in 5 Schritten
- 01Hardware-Prüfung: Linux-Server mit mindestens 16 GB RAM und idealerweise NVIDIA-GPU (RTX 4090 / L40S / H100), CUDA 12.4+.
- 02LocalAI starten via Docker: localai/localai:v2.20.1-aio-gpu-nvidia-cuda-12 für die all-in-one-Variante mit vorinstallierten Modellen oder localai/localai:v2.20.1-gpu-nvidia-cuda-12 für minimales Image mit eigener Modell-Auswahl.
- 03Modelle konfigurieren: YAML-Dateien unter /build/config/ pro Modell, Backend (llama-cpp, whisper, diffusers), Parameter (Quantisierung, Context-Size, GPU-Layer) festlegen.
- 04API-Keys einrichten: LOCALAI_API_KEY pro Team oder pro Mandant, Rechte auf bestimmte Modelle einschränken.
- 05Monitoring und Audit: Prometheus auf /metrics, Loki für Logs, optional audit: true für Prompt-Hash-Logging – alles Voraussetzung für FINMA-AM-08/2024- und EU-AI-Act-Compliance.
Wann LocalAI einsetzen
LocalAI ist die richtige Wahl, wenn (a) mehrere KI-Modalitäten in einem Setup gebraucht werden, (b) eine OpenAI-kompatible API ohne Provider-Bindung gewünscht ist, oder (c) eine Bare-Metal-Installation ohne Docker gefordert wird.
Konkrete Fälle: Anwaltskanzlei mit eigenem Diktier-System – Whisper-Transkription, LLM-Zusammenfassung, Embeddings-basierte Suche in frühern Diktaten, alles in einer LocalAI-Instanz. Treuhandgesellschaft mit Beleg-Verarbeitung – OCR-Vorstufe (via externes Tool), LLM-Klassifikation, Embeddings für ähnliche Belege, gelegentliche Bild-Generierung für Mandanten-Präsentationen. Versicherungs-Bro mit gemischtem Workload – Schadenmeldungs-Transkription, Schaden-Klassifikation, Vertrags-Q&A über Embeddings-RAG.
Auch für Pilot-Phasen ist LocalAI gut geeignet: die Fluss-Architektur "Eine API, viele Modalitäten" entspricht der OpenAI-Welt und macht den späteren Wechsel zu einer Cloud-Strategie einfach. Wer als KMU-Anbieter eine "AI-Suite" intern aufbauen will, ohne fünf verschiedene Cloud-Verträge zu jonglieren, ist mit LocalAI gut bedient.
Wann NICHT
Wer nur LLM-Inferenz auf einem einzigen Modell braucht, für den ist Ollama einfacher. LocalAI bringt einen Orchestrator mit, der bei reinen LLM-Setups unnötigen Overhead darstellt.
Für hochste Throughput-Anforderungen auf GPU (50+ parallele Anfragen pro Sekunde) ist vLLM überlegen – LocalAI nutzt llama.cpp als LLM-Backend, das nicht das gleiche Continuous-Batching-Niveau wie vLLM erreicht.
Für Setups, in denen die einzelnen Modalitäten ohnehin auf verschiedenen Servern leben (LLM auf GPU-Server, Whisper auf CPU-Server, Stable Diffusion auf anderer GPU), ist die LocalAI-Bündelung kontraproduktiv. Hier ist es sauberer, jede Modalität mit dem dafür optimalen Tool zu bedienen (vLLM für LLM, Whisper-Server für STT, ComfyUI für Bild).
Für Production-Multi-Tenancy mit Hunderten von Mandanten und strikten SLAs ist LocalAI Mai 2026 noch zu jung – die Roadmap entwickelt sich, aber die Mehr-Mandanten-Reife liegt hinter etablierten Enterprise-Plattformen.
Für einzelne Anwender ohne Server-Admin-Kenntnisse sind Ollama oder LM Studio bequemer.
Vor- und Nachteile
STÄRKEN
- Eine OpenAI-kompatible API für LLM, Whisper, Stable Diffusion, Embeddings und TTS
- MIT-Lizenz mit voller Quell-Code-Einsicht
- Bare-Metal-Installation als Go-Binary möglich, kein Docker-Zwang
- P2P-Federation erlaubt verteilte Setups ohne externe Provider
SCHWÄCHEN
- LLM-Throughput unter vLLM-Niveau – für 50+ parallele Anfragen ungeeignet
- Konfigurations-Aufwand höher als bei Ollama, besonders bei vielen Modellen
- Multi-Tenancy-Reife liegt hinter etablierten Enterprise-Plattformen
- Modell-Pflege über YAML-Dateien verlangt einen Wartungs-Prozess
Häufige Fragen
Wie unterscheidet sich LocalAI von Ollama?
Ollama ist eine LLM-Runtime für Sprachmodelle – ein Modell pro Anfrage, eine Modalität. LocalAI ist ein multimodaler Orchestrator – LLM, Whisper, Stable Diffusion, Embeddings, TTS, Rerank-Modelle alle unter einer OpenAI-API. Wer nur LLMs braucht, ist mit Ollama schneller dran; wer mehrere Modalitäten in einem Setup haben will, ist mit LocalAI besser bedient.
Welche TTS-Modelle unterstützt LocalAI?
Mai 2026: Piper (effizient, qualitativ akzeptabel, viele Sprachen), Bark (expressiv, langsam, Englisch-Schwerpunkt), eSpeak-NG (sehr schnell, robotisch-klingend), Coqui-TTS in der nicht-kommerziellen Variante, sowie XTTS-v2 (multilingual, Stimm-Klon-fähig). Für Schweizer Hochdeutsch-Sprachausgabe ist Piper mit dem de_CH-Voice-Pack die stabilste Wahl. Apertus-Voice ist Mai 2026 noch nicht produktiv verfügbar.
Kann ich LocalAI ohne Docker installieren?
Ja. LocalAI ist ein Go-Service und lässt sich als statisches Binary direkt auf einem Linux-Server installieren. Build aus dem GitHub-Repository mit "make build" oder Download des Pre-built-Binarys aus dem Release-Bereich. Für Compliance-Setups in Banken und Versicherungen, in denen Docker nicht freigegeben ist, ist das wichtig.
Ist LocalAI EU-AI-Act-konform?
LocalAI selbst ist eine Open-Source-Software und fällt nicht in die Hochrisiko-Kategorie. Die EU-AI-Act-Pflichten hängen vom Use-Case und dem verwendeten Modell ab. Vorteile von LocalAI für Compliance: vollständige Daten-Souveränität, MIT-Lizenz mit Quell-Code-Einsicht, Prompt-Hash-Audit-Logs aktivierbar. Pflicht zur Klassifikation des Use-Cases, zum DPIA und zur Modell-Karte bleibt beim Betreiber.
Verwandte Themen
Quellen
PASSEND ZU IHREM STACK?