fairlane.systems

LOCALAI · TECH

LocalAI: OpenAI-API-kompatibler Allrounder für LLM, TTS, STT und Vision in einer Box

LocalAI ist ein MIT-lizenzierter Self-Hosting-Server, der LLM, Bild, Audio und Embeddings unter einer OpenAI-API bündelt. Bare-Metal oder Docker.

Recherche & Faktencheck: · Stand: 2026-05

Was ist LocalAI?

LocalAI ist ein Open-Source-Self-Hosting-Server für multimodale KI-Workloads, gestartet 2023 von Ettore Di Giacinto und Mai 2026 in Version 2.x unter MIT-Lizenz auf github.com/mudler/LocalAI verfügbar. Das Projekt hat über 25.000 GitHub-Sterne und eine aktive Community, das offizielle Portal liegt unter localai.io.

Das Besondere an LocalAI: es ist nicht nur eine LLM-Runtime, sondern ein Orchestrator, der verschiedene Modell-Typen unter einer einzigen OpenAI-kompatiblen API zusammenführt. Eine LocalAI-Instanz beantwortet POST /v1/chat/completions (LLM-Chat), POST /v1/embeddings (Embedding-Vektoren), POST /v1/audio/transcriptions (Whisper-Sprache-zu-Text), POST /v1/audio/speech (TTS), POST /v1/images/generations (Stable Diffusion / Flux) und POST /v1/rerank (BGE-Reranker). Alle Endpunkte folgen der OpenAI-Spezifikation – d.h. ein vorhandener OpenAI-Client kann ohne Anpassung darauf umgeleitet werden.

Unter der Haube läuft LocalAI als Go-basierter Service, der mehrere Backend-Engines orchestriert: llama.cpp für LLMs, whisper.cpp für Sprach-Erkennung, Diffusers oder stablediffusion.cpp für Bild-Generierung, eSpeak-NG / Bark / Piper für TTS, sentence-transformers für Embeddings. Die Backend-Wahl pro Modell läuft über eine YAML-Konfiguration; LocalAI lädt die jeweilige Engine bei Bedarf in einem Subprozess.

Deployment-Optionen Mai 2026: Bare-Metal-Installation als Go-Binary auf Linux, Docker-Image localai/localai mit verschiedenen Tags (cpu, gpu-nvidia, gpu-amd, all-in-one), Kubernetes-Deployment mit Helm-Chart, Docker-Compose-Setups für Edge-Use-Cases. Die "all-in-one"-Variante kommt mit vorinstallierten Modellen – Llama 3.3, Whisper, Stable Diffusion 3.5 – und ist für schnelle Demos gedacht.

Version Mai 2026: 2.20+ mit der wichtigen Neuerung "P2P federation" (mehrere LocalAI-Knoten können Modelle und Last verteilt teilen) und "Function calling" (Tool-Use über OpenAI-kompatible JSON-Schemas auf jedem Modell, das es kann).

Warum LocalAI für CH-Daten zählt

LocalAI zielt auf eine spezifische Konstellation, die in Schweizer Treuhand- und Anwalts-Buros oft auftritt: mehrere KI-Modalitäten in einer Compliance-Box.

Erstens: Multi-Modalität ohne Provider-Verstreuung. Ein Anwalts-Büro, das Diktate transkribieren (Whisper), Verträge zusammenfassen (LLM), juristische Zitate im internen Archiv finden (Embeddings) und Mandanten-Präsentationen mit generierten Grafiken anreichern (Stable Diffusion) will, kann das mit LocalAI auf einer einzigen Maschine in einem Schweizer Rechenzentrum tun. Die Alternative – vier verschiedene Cloud-Provider mit vier verschiedenen Verträgen, vier DPAs nach DSG Art. 9, vier Audit-Spuren – ist deutlich mehr Komplexität.

Zweitens: Vollständige Daten-Souveränität. LocalAI läuft komplett im eigenen Netzwerk-Perimeter. Keine externe API-Anfrage, keine Telemetrie, keine versteckte Modell-Synchronisation. Für Mandanten unter Berufsgeheimnis nach Art. 321 StGB ist das die maximale Ausprägung von "Daten in unserem Rack". FINMA-AM-08/2024-Säule-1 (Datenklassifikation) und EU-AI-Act-Art-10 (Daten-Governance) werden hier vergleichsweise einfach erfüllbar.

Drittens: OpenAI-kompatible API als Wechsel-Schutz. Wer LocalAI als Backend nutzt und morgen feststellt, dass ein bestimmtes Modell besser über Mistral La Plateforme läuft, ändert eine LiteLLM-Routing-Regel – nicht den Code in zwanzig Microservices. Anwendungen sprechen mit LocalAI wie mit OpenAI; der Wechsel ist eine Adresse, nicht eine Migration.

Viertens: Bare-Metal-Option ohne Docker. Manche Schweizer Banken und Versicherungen haben Docker als Container-Technologie nicht freigegeben (alte Sicherheits-Richtlinien). LocalAI lässt sich als statisches Go-Binary direkt auf einem Linux-Server installieren – keine Container-Laufzeit nötig. Das ist im SecOps-Gespräch mit konservativen IT-Abteilungen ein praktisches Argument.

Fünftens: Multi-Tenancy über API-Keys. LocalAI unterstützt mehrere API-Keys mit unterschiedlichen Modell-Berechtigungen. In einer Anwaltskanzlei mit getrennten Mandanten-Bereichen kann man pro Mandant einen eigenen Key vergeben und in den Audit-Logs nach Mandanten-Key filtern. Das ist für eine sauber dokumentierte Beweis-Sicherung wichtig.

Wie LocalAI technisch funktioniert

LocalAI ist ein Go-Service, der eine Modell-Konfigurations-Datei pro Modell lädt und beim Aufruf den passenden Backend-Prozess startet.

Setup-Beispiel. Auf einem Hetzner-Server mit RTX 4090 (24 GB VRAM):

``` docker run --gpus all -d \ -p 8080:8080 \ -v $PWD/models:/build/models \ -v $PWD/config:/build/config \ --name localai \ localai/localai:v2.20.1-aio-gpu-nvidia-cuda-12 ```

Die all-in-one-Variante lädt beim ersten Start Llama 3.3 8B, Whisper-Large-v3, Stable Diffusion 3.5 Medium und nomic-embed-text – etwa 30 GB Download. Die API ist auf http://localhost:8080/v1/ verfügbar.

Modell-Konfiguration via YAML. Jedes Modell hat eine eigene YAML-Datei unter /build/config/. Beispiel für Apertus 8B:

```yaml name: apertus-8b backend: llama-cpp parameters: model: apertus-8b-q4_k_m.gguf context_size: 8192 threads: 8 f16: true gpu_layers: 32 rope_freq_base: 500000 template: chat: | {{.System}} User: {{.Input}} Assistant: ```

Whisper für Diktate. Sprach-Erkennung mit dem grossen Whisper-Large-v3-Modell auf CPU oder GPU:

``` curl http://localhost:8080/v1/audio/transcriptions \ -H "Content-Type: multipart/form-data" \ -F file="@diktat.mp3" \ -F model="whisper-large-v3" \ -F language="de" ```

Resultat: JSON mit Transkript-Text, optionalen Wort-Timestamps und Konfidenz-Score. Für Schweizer Anwalts-Diktate ist Whisper-Large-v3 die produktive Wahl – Schweizer Hochdeutsch wird gut erkannt, mit Schwizerdütsch und Walliserdeutsch wird es schwierig. Apertus-Voice (Stand Mai 2026 in Entwicklung) wird hier mittel-frist die bessere Lösung.

P2P-Federation. Mehrere LocalAI-Knoten können sich gegenseitig erkennen und Modelle / Last teilen. Konfiguriert über LOCALAI_P2P_TOKEN. Praktisch für eine Anwaltskanzlei mit zwei Buros (Zürich und Bern) – die jeweilige Last bleibt lokal, ein Modell-Update auf einem Knoten synchronisiert sich auf den anderen.

Function-Calling und Tool-Use. Modelle mit Tool-Use-Fähigkeit (Llama 3.3+, Mistral Small 3.1+, Qwen 3, Apertus 70B-Instruct) werden über die OpenAI-Function-Calling-Spezifikation angesprochen. LocalAI parst die Tool-Aufrufe und gibt sie strukturiert im OpenAI-Format zurück.

Monitoring. LocalAI exportiert Prometheus-Metriken auf /metrics: localai_requests_total, localai_request_duration_seconds, localai_model_load_duration_seconds. Logs über stdout in Loki. Audit-Logs mit Prompt-Hash (nicht Klartext) pro Anfrage sind über das Config-Flag audit: true aktivierbar.

LocalAI produktiv in 5 Schritten

  1. 01Hardware-Prüfung: Linux-Server mit mindestens 16 GB RAM und idealerweise NVIDIA-GPU (RTX 4090 / L40S / H100), CUDA 12.4+.
  2. 02LocalAI starten via Docker: localai/localai:v2.20.1-aio-gpu-nvidia-cuda-12 für die all-in-one-Variante mit vorinstallierten Modellen oder localai/localai:v2.20.1-gpu-nvidia-cuda-12 für minimales Image mit eigener Modell-Auswahl.
  3. 03Modelle konfigurieren: YAML-Dateien unter /build/config/ pro Modell, Backend (llama-cpp, whisper, diffusers), Parameter (Quantisierung, Context-Size, GPU-Layer) festlegen.
  4. 04API-Keys einrichten: LOCALAI_API_KEY pro Team oder pro Mandant, Rechte auf bestimmte Modelle einschränken.
  5. 05Monitoring und Audit: Prometheus auf /metrics, Loki für Logs, optional audit: true für Prompt-Hash-Logging – alles Voraussetzung für FINMA-AM-08/2024- und EU-AI-Act-Compliance.

Wann LocalAI einsetzen

LocalAI ist die richtige Wahl, wenn (a) mehrere KI-Modalitäten in einem Setup gebraucht werden, (b) eine OpenAI-kompatible API ohne Provider-Bindung gewünscht ist, oder (c) eine Bare-Metal-Installation ohne Docker gefordert wird.

Konkrete Fälle: Anwaltskanzlei mit eigenem Diktier-System – Whisper-Transkription, LLM-Zusammenfassung, Embeddings-basierte Suche in frühern Diktaten, alles in einer LocalAI-Instanz. Treuhandgesellschaft mit Beleg-Verarbeitung – OCR-Vorstufe (via externes Tool), LLM-Klassifikation, Embeddings für ähnliche Belege, gelegentliche Bild-Generierung für Mandanten-Präsentationen. Versicherungs-Bro mit gemischtem Workload – Schadenmeldungs-Transkription, Schaden-Klassifikation, Vertrags-Q&A über Embeddings-RAG.

Auch für Pilot-Phasen ist LocalAI gut geeignet: die Fluss-Architektur "Eine API, viele Modalitäten" entspricht der OpenAI-Welt und macht den späteren Wechsel zu einer Cloud-Strategie einfach. Wer als KMU-Anbieter eine "AI-Suite" intern aufbauen will, ohne fünf verschiedene Cloud-Verträge zu jonglieren, ist mit LocalAI gut bedient.

Wann NICHT

Wer nur LLM-Inferenz auf einem einzigen Modell braucht, für den ist Ollama einfacher. LocalAI bringt einen Orchestrator mit, der bei reinen LLM-Setups unnötigen Overhead darstellt.

Für hochste Throughput-Anforderungen auf GPU (50+ parallele Anfragen pro Sekunde) ist vLLM überlegen – LocalAI nutzt llama.cpp als LLM-Backend, das nicht das gleiche Continuous-Batching-Niveau wie vLLM erreicht.

Für Setups, in denen die einzelnen Modalitäten ohnehin auf verschiedenen Servern leben (LLM auf GPU-Server, Whisper auf CPU-Server, Stable Diffusion auf anderer GPU), ist die LocalAI-Bündelung kontraproduktiv. Hier ist es sauberer, jede Modalität mit dem dafür optimalen Tool zu bedienen (vLLM für LLM, Whisper-Server für STT, ComfyUI für Bild).

Für Production-Multi-Tenancy mit Hunderten von Mandanten und strikten SLAs ist LocalAI Mai 2026 noch zu jung – die Roadmap entwickelt sich, aber die Mehr-Mandanten-Reife liegt hinter etablierten Enterprise-Plattformen.

Für einzelne Anwender ohne Server-Admin-Kenntnisse sind Ollama oder LM Studio bequemer.

Vor- und Nachteile

STÄRKEN

  • Eine OpenAI-kompatible API für LLM, Whisper, Stable Diffusion, Embeddings und TTS
  • MIT-Lizenz mit voller Quell-Code-Einsicht
  • Bare-Metal-Installation als Go-Binary möglich, kein Docker-Zwang
  • P2P-Federation erlaubt verteilte Setups ohne externe Provider

SCHWÄCHEN

  • LLM-Throughput unter vLLM-Niveau – für 50+ parallele Anfragen ungeeignet
  • Konfigurations-Aufwand höher als bei Ollama, besonders bei vielen Modellen
  • Multi-Tenancy-Reife liegt hinter etablierten Enterprise-Plattformen
  • Modell-Pflege über YAML-Dateien verlangt einen Wartungs-Prozess

Häufige Fragen

Wie unterscheidet sich LocalAI von Ollama?

Ollama ist eine LLM-Runtime für Sprachmodelle – ein Modell pro Anfrage, eine Modalität. LocalAI ist ein multimodaler Orchestrator – LLM, Whisper, Stable Diffusion, Embeddings, TTS, Rerank-Modelle alle unter einer OpenAI-API. Wer nur LLMs braucht, ist mit Ollama schneller dran; wer mehrere Modalitäten in einem Setup haben will, ist mit LocalAI besser bedient.

Welche TTS-Modelle unterstützt LocalAI?

Mai 2026: Piper (effizient, qualitativ akzeptabel, viele Sprachen), Bark (expressiv, langsam, Englisch-Schwerpunkt), eSpeak-NG (sehr schnell, robotisch-klingend), Coqui-TTS in der nicht-kommerziellen Variante, sowie XTTS-v2 (multilingual, Stimm-Klon-fähig). Für Schweizer Hochdeutsch-Sprachausgabe ist Piper mit dem de_CH-Voice-Pack die stabilste Wahl. Apertus-Voice ist Mai 2026 noch nicht produktiv verfügbar.

Kann ich LocalAI ohne Docker installieren?

Ja. LocalAI ist ein Go-Service und lässt sich als statisches Binary direkt auf einem Linux-Server installieren. Build aus dem GitHub-Repository mit "make build" oder Download des Pre-built-Binarys aus dem Release-Bereich. Für Compliance-Setups in Banken und Versicherungen, in denen Docker nicht freigegeben ist, ist das wichtig.

Ist LocalAI EU-AI-Act-konform?

LocalAI selbst ist eine Open-Source-Software und fällt nicht in die Hochrisiko-Kategorie. Die EU-AI-Act-Pflichten hängen vom Use-Case und dem verwendeten Modell ab. Vorteile von LocalAI für Compliance: vollständige Daten-Souveränität, MIT-Lizenz mit Quell-Code-Einsicht, Prompt-Hash-Audit-Logs aktivierbar. Pflicht zur Klassifikation des Use-Cases, zum DPIA und zur Modell-Karte bleibt beim Betreiber.

Verwandte Themen

OLLAMA · TECHOllama: lokale LLMs auf eigener Hardware – wo es funktioniert und wo nichtVLLM · TECHvLLM: Production-Serving für Open-Weight-LLMs mit hoher Throughput und PagedAttentionLLAMA.CPP · TECHllama.cpp: die portable C/C++-Inferenz-Bibliothek unter Ollama, LM Studio und KoboldCppLOKALE LLM-RUNTIMES - VERGLEICHLokale LLM-Runtimes im Vergleich: Ollama, vLLM, llama.cpp, LM Studio, LocalAI, TGI, GPT4All, KoboldCpp, Jan, OpenLLMOPEN-WEIGHT-MODELLE - VERGLEICHOpen-Weight-Modelle im Vergleich: Llama 3.3/4, Mistral, DeepSeek, Qwen, Gemma, Phi-4, Command R, Falcon, GLM, ApertusAPERTUS · COMPLIANCEApertus: das offene Schweizer KI-Modell von ETH Zurich, EPFL und CSCS – Stand Mai 2026SELF-HOSTED VS. CLOUD · AI-KONZEPTSelf-Hosted vs. Cloud-LLM: Entscheidungs-Framework für KMU und Treuhand

Quellen

  1. LocalAI – official documentation · 2026-05
  2. mudler/LocalAI – GitHub repository and releases · 2026-05
  3. LocalAI model gallery – config templates · 2026-04
  4. LocalAI 2.x changelog and P2P federation notes · 2026-05

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen