PIPER TTS · TECH

Piper: das open-source lokale TTS-System für Datenschutz-sensible Anwendungen

Piper ist ein MIT-lizenziertes lokales Text-zu-Sprache-System auf ONNX-Basis. Kostenlos, voll lokal, sehr schnell auf CPU. Mai 2026 mit guten DE-Stimmen, Hobby-Qualität, gut für interne Tools.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Was ist Piper?

Piper ist ein lokales Text-zu-Sprache-System, das vom Rhasspy-Projekt (Mike Hansen, Nabu Casa) entwickelt wird. Das Repository github.com/rhasspy/piper steht unter MIT-Lizenz und ist Teil des Home-Assistant-Ökosystems. Mai 2026 ist das Projekt aktiv (laufende Releases), nicht kommerziell finanziert, mit etwa 6.500 GitHub-Sternen.

Die Architektur basiert auf VITS – einem Variational-Inference-TTS-Modell – kompiliert ins ONNX-Format für Plattform-unabhängige Ausführung. ONNX-Runtime läuft auf CPU, GPU und Apple Silicon. Das macht Piper extrem portabel: ein einzelnes statisch gelinktes Binary (rund 5 MB) plus ein Stimm-Modell (rund 60-120 MB pro Stimme) – läuft auf Raspberry Pi 5, Laptop, Server. Keine Python-Abhängigkeit zur Laufzeit, kein CUDA-Setup.

Die Stimm-Bibliothek umfasst Mai 2026 über 100 Stimmen in mehr als 30 Sprachen. Deutsch ist gut abgedeckt mit Stimmen wie de_DE-thorsten-medium (männlich), de_DE-eva_k-x_low (weiblich), de_DE-karlsson-low. Die Qualitäts-Stufen heissen x_low, low, medium, high – wobei high die beste Klang-Qualität bei grösserer Modell-Datei liefert. Schweizerdeutsch wird nicht angeboten.

Die Performance ist beachtlich. Auf einem Raspberry Pi 5 generiert Piper rund 0.5-fache Echtzeit (10 Sekunden Audio in 20 Sekunden), auf einem normalen Laptop (Intel i5 oder M2) 2-5-fache Echtzeit. Mit GPU steigt die Geschwindigkeit über 10-fache Echtzeit. Das bedeutet: kurze Antworten (1-3 Sätze) sind in 100-300 ms generiert – schnell genug für Live-Telefonie auf bescheidener Hardware.

Die Klang-Qualität liegt Mai 2026 zwischen den alten Festival/eSpeak-Systemen und ElevenLabs. Störend bleibt: leicht roboterhafte Prosodie, nicht ganz natürliche Atmer, manchmal monotone Tonhöhe über längere Sätze. Für Sprecher-Aufnahmen-Qualität reicht Piper nicht – für interne Tools, IVR-Ansagen, technische Notizen-Vorlesung schon.

Warum es wichtig ist

Für CH-Treuhand und KMU mit Datenschutz-Sensitivität ist Piper Mai 2026 die einzige Option für lokales, kostenfreies TTS. Drei Argumente machen den Unterschied.

Erstens: Datenresidenz. ElevenLabs, Azure TTS und Google TTS generieren Audio in US- oder EU-Cloud – Mandanten-Text muss dafür dorthin übermittelt werden. Bei Berufsgeheimnis-Daten (Art. 321 StGB) ist das ohne Einwilligung nicht legal. Piper läuft on-premise – der Mandanten-Text verlässt den eigenen Server nie. Damit ist Piper das einzige TTS mit garantierter Schweizer Datenresidenz.

Zweitens: Kosten. ElevenLabs Creator kostet USD 99/Monat für 100k Zeichen, was reicht für 100-120 Minuten Audio. Bei einer Treuhand mit 10 Stunden TTS-Bedarf pro Monat (z.B. für Voice-Assistent für Mandanten-FAQ) würden mehrere Stufen höhere Tarife nötig. Piper ist nach Hardware-Anschaffung (CHF 200 für einen ARM-Mini-PC) kostenfrei. Bei jedem Volumen über 100 Stunden/Monat zahlt sich Piper bereits im ersten Monat aus.

Drittens: Verfügbarkeit. Cloud-TTS fällt aus, wenn das Internet weg ist, der Anbieter Down-Time hat oder die Quote überschritten ist. Piper läuft lokal – kein Netz-Ausfall, kein Anbieter-Risiko, keine Rate-Limits. Für kritische Infrastruktur (Notruf-IVR, interne Bereitschafts-Sprecher) ist Lokalität ein Sicherheits-Argument.

Der Trade-off ist Qualität. Piper klingt erkennbar synthetisch – Mandanten merken, dass kein Mensch spricht. Für interne Tools, technische Ansagen und niedrig-frequente Anwendungen akzeptabel. Für Premium-Voice-Agenten, die Vertrauen erzeugen müssen, ist Piper zu hörbar synthetisch. Pragmatischer Mittelweg: Piper als Fallback wenn Cloud-TTS ausfällt, ElevenLabs als Primär.

Wie es funktioniert

Die Installation ist trivial. Auf Linux:

wget https://github.com/rhasspy/piper/releases/latest/download/piper_amd64.tar.gz tar -xzf piper_amd64.tar.gz cd piper wget https://huggingface.co/rhasspy/piper-voices/resolve/main/de/de_DE/thorsten/medium/de_DE-thorsten-medium.onnx wget https://huggingface.co/rhasspy/piper-voices/resolve/main/de/de_DE/thorsten/medium/de_DE-thorsten-medium.onnx.json echo "Guten Tag, willkommen bei unserer Kanzlei." | ./piper --model de_DE-thorsten-medium.onnx --output_file welcome.wav

Das Binary nimmt Text von STDIN, generiert Audio als WAV. Optionen umfassen --output_raw für Pipe-an-Player, --sentence_silence für Pausen zwischen Sätzen, --length_scale für Sprech-Geschwindigkeit, --noise_scale für Stimm-Variation.

Für Server-Einsatz gibt es einen HTTP-Wrapper. piper-tts-server (Python-Paket) startet einen FastAPI-Server auf Port 5000:

pip install piper-tts uvicorn piper_tts.server:app --host 0.0.0.0 --port 5000 curl -X POST http://localhost:5000/synthesize -d "Hallo Welt" -o reply.wav

Alternativ via Home Assistant: Piper läuft als Add-on im Hassio-Stack mit Web-UI und vorgefertigter HTTP-API. Für Smart-Home-Setups die einfachste Variante.

Für Telefonie-Integration mit Twilio: ein Node-Server nimmt LLM-Antworten entgegen, ruft Piper via HTTP an (oder spawn subprocess), erhält WAV, konvertiert es zu ULAW (8 kHz) via ffmpeg und sendet es über Twilio Media Streams an den Anrufer. Latenz: Piper-Generierung 200-400 ms plus Konvertierung 50 ms plus Netz 100 ms – gesamt unter 600 ms. Damit ist Piper telefonie-tauglich, wenn auch ohne ElevenLabs-Polish.

Stimm-Auswahl: das deutsche Modell-Universum auf Hugging Face (rhasspy/piper-voices) umfasst Mai 2026 etwa 15 deutsche Stimmen. Die thorsten-Stimme (mid-quality) ist die meistgenutzte und klingt am natürlichsten. eva_k ist eine weibliche Alternative. Die karlsson-Stimme ist tiefer und ruhiger. Alle Modelle sind unter MIT verfügbar und ohne Lizenz-Kosten.

Für Spezialvokabular (Eigennamen, Fachbegriffe) gibt es keine Pronunciation-Dictionary-Funktion wie bei ElevenLabs Pro. Workaround: phonetische Schreibweise im Input (z.B. "Müller" als "Müller" oder "Myoo-ler" je nach Bedarf). Bei vielen problematischen Begriffen lohnt sich ein Vor-Verarbeitungs-Layer mit Regel-basierter Ersetzung.

Piper-Setup in 5 Schritten

01Hardware vorbereiten: Raspberry Pi 5 (CHF 90 + Netzteil) reicht für leichte Last, ein ARM Mini-PC (CHF 200) oder Hetzner CPX31 (CHF 18/Mo) für Server-Einsatz. GPU optional für Sub-100-ms-Latenz.
02Binary und Stimme installieren: piper-Release von GitHub herunterladen, deutsche Stimme von Hugging Face (de_DE-thorsten-medium als Standard) ergänzen.
03HTTP-Server starten: piper-tts-server-Paket oder eigener FastAPI-Wrapper auf Port 5000. systemd-Unit oder PM2 für Auto-Restart bei Crash.
04Integration in Anwendung: HTTP-Request an /synthesize, WAV-Antwort verarbeiten. Bei Telefonie zu ULAW konvertieren via ffmpeg. Pronunciation-Vor-Verarbeitung mit Regel-Tabelle für Eigennamen.
05Caching aufsetzen: häufige Phrasen (Begrüssung, Standardansagen) einmal generieren und im Object-Storage oder lokalen Datei-Cache ablegen – Latenz auf unter 10 ms für wiederholte Inhalte.

Wann Piper einsetzen

Piper ist die richtige Wahl, wenn (a) Datenschutz-Anforderungen lokale Verarbeitung erzwingen, (b) Volumen über 100 Stunden TTS pro Monat liegt oder (c) ein lokaler Fallback für Cloud-Ausfälle gewünscht ist.

Konkrete Fälle: ein Anwaltsbüro baut eine interne Voice-Notizen-App für Diktate – Piper lokal auf einem NAS oder Server, kein Cloud-Versand der Mandanten-Inhalte. Eine Treuhand baut einen IVR-Vorlauf für eingehende Anrufe (Begrüssung, Optionen) – Piper liefert die Stock-Ansagen, einmal generiert, im Cache abgelegt. Ein Home-Assistant-Setup soll Smart-Home-Status durchsagen – Piper als Add-on, kein Internet-Bezug.

Auch für Notfall-Fallback: Cloud-TTS-Ausfall oder Quoten-Erschöpfung kann Piper als zweiten Ausgang die Anrufe weiter bedienen, wenn auch weniger natürlich klingend. Mandanten erhalten weiterhin eine Stimme statt eines Roboter-Tons.

Wann NICHT

Für Premium-Voice-Agenten mit hohem Mandanten-Vertrauens-Anspruch ist Piper zu erkennbar synthetisch. Wer Klient-Sprache nahe an Sprecher-Aufnahme braucht, muss ElevenLabs oder Azure TTS nehmen.

Für Voice-Cloning ist Piper nicht ausgelegt – die VITS-Architektur erlaubt das technisch, aber Piper hat keinen Workflow und keine Stimm-Bibliothek für Cloning. ElevenLabs ist hier die richtige Wahl, mit den juristischen Vorbehalten.

Für extrem latenz-kritische Anwendungen (Sub-200-ms) ist Piper grenzwertig – auf CPU 200-400 ms für kurze Antworten. Mit GPU geht es runter auf 50-100 ms, aber dann ist der Setup-Aufwand höher und der Datenresidenz-Vorteil bleibt (lokale GPU statt Cloud).

Für mehrsprachige Anwendungen mit Code-Switching innerhalb eines Satzes (z.B. "Bitte rufen Sie unser Office in Zurich an") ist Piper schwach – pro Anfrage ein Sprach-Modell, kein direkter Wechsel mitten im Text.

Für Schweizerdeutsch gibt es kein Piper-Modell. Wer Mundart-Antworten will, muss auf andere Wege ausweichen (z.B. vorproduzierte Aufnahmen für typische Phrasen).

Für hochwertige Audio-Produktion (Hörbücher, Podcast, Werbung) ist Piper nicht erste Wahl – ElevenLabs liefert hier klar bessere Qualität.

Vor- und Nachteile

STÄRKEN

Kostenfrei und MIT-lizenziert, voll lokal, garantierte Schweizer Datenresidenz
Sehr schnell auf CPU – taugliche Latenz auf Raspberry Pi 5
Über 100 Stimmen in 30+ Sprachen, gut gepflegte Hochdeutsche Modelle
Keine Quoten, keine Rate-Limits, keine Anbieter-Risiken

SCHWÄCHEN

Erkennbar synthetisch – für Premium-Voice-Agenten unzureichend
Kein Voice-Cloning-Workflow, kein Pronunciation-Dictionary
Keine Schweizerdeutsch-Stimme, kein Code-Switching im Satz
Setup, Updates und Stimm-Pflege sind Eigen-Arbeit ohne Vendor-Support

Häufige Fragen

Wie klingt Piper im Vergleich zu ElevenLabs?

Erkennbar synthetisch. Piper hat brauchbare Prosodie und gute Aussprache für Hochdeutsch, aber Atmer, Tonhöhen-Variation und Akzent-Variation sind merklich limitiert. ElevenLabs ist Mai 2026 fast nicht von Sprecher-Aufnahme unterscheidbar. Pragmatischer Hör-Test: 3 typische Sätze aus dem Anwendungsfeld in beiden Systemen rendern und vergleichen.

Auf welcher Hardware läuft Piper?

Praktisch alles: Raspberry Pi 5, Apple Silicon, Intel/AMD-CPU mit AVX2, NVIDIA-GPU. Mai 2026 ist ARM- und Apple-Silicon-Support stabil, Windows-Builds verfügbar. Speicher-Bedarf 200-400 MB pro Stimme im Speicher, Disk 60-120 MB pro Stimme.

Kann ich eine eigene Stimme trainieren?

Ja, aber aufwendig. Piper bietet einen Trainings-Pipeline via piper-train auf Basis von VITS. Benötigt rund 5-20 Stunden Sprecher-Aufnahmen in sauberer Qualität plus mehrere Tage GPU-Training. Für ein KMU selten die richtige Investition – Stock-Stimmen reichen meist.

Gibt es Schweizerdeutsch-Stimmen?

Nein, Mai 2026 nicht. Die Piper-Voice-Library hat keine Schweizerdeutsch-Stimme. Hochdeutsche Stimmen sind die einzige Option für DE-Anwendungen. Wer Mundart-Antworten braucht, muss vorproduzierte Aufnahmen einsetzen.

Quellen

rhasspy/piper – GitHub repository and releases · 2026-05
Piper voice library on Hugging Face (rhasspy/piper-voices) · 2026-05
Home Assistant – Piper add-on documentation · 2026-04
VITS paper – Conditional Variational Autoencoder for End-to-End TTS · 2026-03

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen