ELEVENLABS · TECH

ElevenLabs: die Branchen-Referenz für natürliche TTS-Stimmen und Voice-Cloning

ElevenLabs liefert proprietäre TTS-Cloud-API mit den natürlichsten Stimmen Mai 2026. Starter USD 5/Mo, Creator USD 99/Mo. turbo-v2.5 für Sub-400-ms-Telefonie-Latenz, 30+ Sprachen, Voice-Cloning verfügbar.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Was ist ElevenLabs?

ElevenLabs ist ein 2022 in London und New York gegründetes Audio-AI-Unternehmen mit Fokus auf Text-zu-Sprache (TTS). Mai 2026 ist die Firma bei einer Bewertung von rund USD 3 Mrd. (Series C, Januar 2025) und gilt als Branchen-Referenz für natürlich klingende Synthese-Stimmen. Das Produkt ist proprietär und ausschliesslich als Cloud-API verfügbar – kein Open-Source-Pendant, kein Self-Host-Tier für KMU.

Die Modell-Familie umfasst drei Generationen. eleven_multilingual_v2 ist das Qualitäts-Modell – beste Stimm-Treue, höhere Latenz (1-2 Sekunden). eleven_turbo_v2.5 ist Mai 2026 das Latenz-Modell – Sub-400-ms-Audio-Generierung, für Echtzeit-Telefonie geeignet. eleven_flash_v2.5 ist der schnellste, qualitativ leicht reduzierte Variante. Voice-Cloning ist als Instant Voice Clone (30 Sekunden Sample) oder Professional Voice Clone (mehrere Stunden Aufnahmen, höhere Treue) verfügbar.

Die Sprach-Abdeckung umfasst Mai 2026 32 Sprachen, darunter Deutsch, Französisch, Italienisch und Englisch in mehreren Akzenten. Schweizerdeutsch wird als TTS-Sprache nicht angeboten – für CH-Voice-Agenten generiert man Hochdeutsche Antworten, was meist akzeptabel ist.

Das Hosting verteilt sich Mai 2026 auf US-Primär-Region und mehrere Edge-Regionen (Europa, Asien) für niedrigere Latenz. Die Audio-Generierung selbst läuft in der US-Cloud – Edge-Regionen sind nur für Caching und Auslieferung. Für DSGVO/revDSG-pflichtige Anwendungen bedeutet das: BDPA mit ElevenLabs ist abschliessbar, aber Daten verlassen die EU/Schweiz. Eine Transfer-Folgenabschätzung ist Pflicht.

Der Tarif-Aufbau ist abgestuft. Starter USD 5/Monat für 30.000 Zeichen (etwa 30 Minuten Audio). Creator USD 99/Mo für 100.000 Zeichen plus Professional Voice Cloning. Pro USD 99 für 100k Zeichen. Scale USD 330/Mo für 2 Mio. Zeichen plus PCM 44.1 kHz und 192 kbps MP3-Qualität. Enterprise auf Anfrage mit garantierten Service-Levels.

Warum es wichtig ist

Für Voice-Agenten ist die Stimme das, was der Anrufer als erstes hört und beurteilt. Eine roboterhafte TTS-Stimme verrät sofort, dass kein Mensch dran ist – Mandanten fühlen sich nicht ernst genommen. Eine natürliche Stimme mit Atemwerten, Tonhöhe-Variation und sauberer Aussprache erzeugt Vertrauen.

ElevenLabs liefert Mai 2026 die qualitativ besten TTS-Stimmen am Markt. Coqui (open-source) und Piper sind brauchbar für interne Tools, klingen aber merklich synthetisch. Microsoft Azure TTS und Google WaveNet sind technisch in der gleichen Liga wie ElevenLabs, aber 2-3 Jahre hinter der State-of-the-Art zurück. OpenAI TTS (api/audio/speech) ist seit März 2024 verfügbar und qualitativ ähnlich, aber mit weniger Stimm-Vielfalt.

Für Schweizer Anwendungen sind zwei Eigenschaften kritisch. Erstens: die deutsche Hochdeutsch-Stimme ist Mai 2026 das Beste, was kommerziell verfügbar ist – fast nicht von einer Sprecher-Aufnahme unterscheidbar. Zweitens: turbo-v2.5 liefert TTS in unter 400 ms, was eine STT+LLM+TTS-Kette unter 1.5 Sekunden total erlaubt – ein technisch viable Voice-Agent.

Voice-Cloning ist das zweischneidige Feature. Mit 30 Sekunden Audio kann ElevenLabs eine Stimme reproduzieren – für ein Büro ist das verlockend (der Chef leiht seine Stimme der Bot-Empfangsdame). Juristisch ist es ein Minenfeld. Das revDSG kennt das Recht auf die eigene Stimme als Teil der Persönlichkeit. Das EU-AI-Act (Mai 2026 in Anwendung) klassifiziert geclonten Stimmen-Einsatz als Hochrisiko-Anwendung, wenn die Stimme einer echten Person zugehört. Ohne explizite, dokumentierte Einwilligung der Quell-Person ist Voice-Cloning ein juristisches Risiko.

Für professionelle Voice-Agenten empfehlen wir Mai 2026 ausschliesslich ElevenLabs-Stock-Stimmen (synthetisch generiert, keine reale Person dahinter) – Rachel, Antoni, Adam und Dorothy sind bewährt. Eigene Stimmen-Clones nur mit Einwilligung und Vertrag.

Wie es funktioniert

Die ElevenLabs-API exponiert mehrere Endpoints: /v1/text-to-speech/{voice_id} für Standard-Generierung, /v1/text-to-speech/{voice_id}/stream für Streaming-Audio, /v1/voices für Stimm-Inventar und Cloning, /v1/history für alte Generierungen, /v1/user für Quoten-Status.

Beispiel Standard-cURL:

curl --request POST \ --url "https://api.elevenlabs.io/v1/text-to-speech/21m00Tcm4TlvDq8ikWAM" \ --header "xi-api-key: $ELEVEN_API_KEY" \ --header "Content-Type: application/json" \ --data '{"text":"Guten Tag, wie kann ich Ihnen helfen?","model_id":"eleven_turbo_v2_5","voice_settings":{"stability":0.5,"similarity_boost":0.75}}' \ --output reply.mp3

Die Voice-Settings sind kritisch. Stability (0-1) bestimmt, wie konsistent die Stimme über lange Texte bleibt – hoch für Nachrichten, niedrig für Kunst-Lesung. Similarity-Boost (0-1) bestimmt, wie nahe an der Original-Stimme – hoch für Voice-Cloning-Treue, niedrig für mehr Variation. Style (0-1, nur bei multilingual_v2) bestimmt expressive Intensität. Use_speaker_boost (true/false) verstärkt typische Stimm-Eigenschaften.

Für Streaming gegen Twilio: /v1/text-to-speech/{voice_id}/stream sendet Audio-Chunks als ULAW oder MP3, sobald die ersten Tokens generiert sind. turbo-v2.5 liefert die ersten Bytes in 100-200 ms – das macht Real-Time-Telefonie möglich. Twilio Media Streams empfängt die Audio-Chunks und spielt sie über den Telefon-Kanal ab.

Voice-Cloning via /v1/voices/add: POST mit Multipart-Audio (mp3, wav), zusammen mit Namen, Beschreibung und Labels. Instant Voice Clone braucht 30 Sekunden bis 5 Minuten Audio, Professional Voice Clone 30 Minuten bis mehrere Stunden. Die Clone-Stimme wird mit voice_id zurückgegeben und kann über die gleichen TTS-Endpoints angesprochen werden.

Konzepte wie Pronunciation Dictionaries (eigenes Lexikon für Aussprache von Eigennamen, Marken, Fachbegriffen) sind ab Pro-Tier verfügbar – für Treuhand-Stimme wichtig, weil Mandanten-Namen sonst falsch ausgesprochen werden.

Die Web-UI bietet zusätzlich Dubbing (Auto-Übersetzung plus Voice-Clone für Videos), Voice-Library (Community-Stimmen) und Studios für mehrsprachige Audio-Produktion. Für API-basierte Voice-Agenten nicht relevant.

ElevenLabs-Setup in 5 Schritten

01Account anlegen auf elevenlabs.io, Tier wählen (Starter für Tests, Creator für Voice-Cloning, Pro/Scale für Produktion). BDPA und Datenschutz-Dokumente sichten, Transfer-Folgenabschätzung schreiben.
02Stimme wählen: Stock-Voices aus der Library (Rachel, Antoni, Adam, Dorothy als bewährte deutsche) – oder eigene mit Sprecher-Einwilligung clonen via /v1/voices/add. Voice-Settings (stability, similarity_boost) per Pilot-Test optimieren.
03Modell wählen: eleven_turbo_v2_5 für Echtzeit-Telefonie (Sub-400-ms), eleven_multilingual_v2 für Qualitäts-Produktion (1-2 Sekunden), eleven_flash_v2_5 für schnellste Antworten.
04Integration: API-Key sichern, /v1/text-to-speech/{voice_id}/stream gegen Twilio Media Streams oder eigenen Audio-Player anbinden. Pronunciation Dictionary für Eigennamen und Fachbegriffe pflegen.
05Monitoring: /v1/user-Endpoint pollt Quoten-Status, Telegram-Alarm bei 80 Prozent Verbrauch, Audit-Log mit Zeichen-Zählung pro Anwendung für Kosten-Trennung.

Wann ElevenLabs einsetzen

ElevenLabs ist die richtige Wahl, wenn (a) Stimm-Qualität wichtig ist, (b) Latenz unter 500 ms gefordert ist und (c) US-Cloud-Hosting akzeptabel ist.

Konkrete Fälle: ein Voice-Agent für Termin-Buchung bei einer Versicherung – Hochdeutsche Stock-Stimme via turbo-v2.5, Mandanten-Einwilligung zum Cloud-Versand der Sprache bei Anruf-Beginn eingeholt. Eine Lern-Plattform mit Audio-Begleitung zu Modulen – Standard-Stimmen via multilingual_v2, höhere Qualität, Latenz egal. Ein Hörbuch-Produzent erstellt synthetische Sprecher-Stimmen für Sachbücher – Professional Voice Clone mit Sprecher-Einwilligung, Studios für Multi-Kapitel-Workflows.

Für Marketing-Audio (Werbespots, Erklär-Videos, Podcast-Intros) ist ElevenLabs eine schnelle Lösung mit USD 99/Monat-Pro-Tier – keine teure Studio-Buchung mehr.

Wann NICHT

Für interne Tools mit niedrigen Qualitäts-Anforderungen ist Piper (lokal, kostenlos) ausreichend – die ElevenLabs-Qualität ist Overkill, wenn nur ein paar Notizen vorgelesen werden.

Für DSGVO/revDSG-streng geführte Anwendungen (Mandanten-Daten ohne Einwilligung) ist ElevenLabs problematisch. Daten werden in den USA verarbeitet, auch wenn Edge-Caching näher liegt. Eine Transfer-Folgenabschätzung ist Pflicht.

Voice-Cloning ohne dokumentierte Einwilligung der Quell-Person ist juristisch riskant – Persönlichkeitsrecht, Markenrecht (bei berühmten Personen), EU-AI-Act Mai 2026. Wer eine geclonte Stimme einsetzt, sollte (a) eine Einwilligung schriftlich vorliegen haben und (b) den synthetischen Charakter klar deklarieren.

Für Schweizerdeutsch-TTS gibt es Mai 2026 keinen kommerziellen Anbieter – auch nicht ElevenLabs. Hochdeutsche Synthese ist der pragmatische Weg.

Für extrem grosse Audio-Volumen (10 Mio. Zeichen/Monat und mehr) wird ElevenLabs teuer. Hier lohnt sich der Wechsel zu Azure TTS (oft etwa halb so teuer pro Zeichen) oder zu Self-Host mit Coqui – trotz schlechterer Qualität.

Für Echtzeit-Anwendungen mit Sub-200-ms-Anforderung ist auch turbo-v2.5 grenzwertig – für ultra-low-latency-Voice-Bots ist Piper lokal mit eigener GPU schneller, dafür qualitativ schwächer.

Vor- und Nachteile

STÄRKEN

Beste TTS-Stimm-Qualität im Markt Mai 2026 – fast nicht von Sprecher-Aufnahme unterscheidbar
turbo-v2.5 mit Sub-400-ms-Latenz für Echtzeit-Telefonie
32 Sprachen, ausgereifte Hochdeutsche und Englische Stock-Voices
Voice-Cloning und Pronunciation Dictionaries für professionelle Anwendungen

SCHWÄCHEN

Proprietär, kein Open-Source-Pendant, kein KMU-tauglicher Self-Host
Generierung in US-Cloud – Transfer-Folgenabschätzung für Mandanten-Daten Pflicht
Voice-Cloning ohne Einwilligung juristisch riskant unter revDSG und EU-AI-Act
Bei hohem Volumen (10M Zeichen/Mo) teurer als Azure TTS oder Self-Host

Häufige Fragen

Kann ich eine eigene Stimme klonen?

Ja, ab Creator-Tier (USD 99/Mo). Instant Voice Clone mit 30 Sekunden Audio, Professional Voice Clone mit mehreren Stunden Aufnahmen. Juristisch: nur mit dokumentierter Einwilligung der Quell-Person, und beim Einsatz die synthetische Natur deklarieren – sonst Persönlichkeitsrecht-Verletzung und EU-AI-Act-Risiko Mai 2026.

Wie viel Audio kann ich mit USD 99/Mo erzeugen?

Creator-Tier: 100.000 Zeichen, das sind rund 100-120 Minuten gesprochenes Audio. Pro-Tier: 500.000 Zeichen, rund 8 Stunden. Scale-Tier (USD 330/Mo): 2 Mio. Zeichen, rund 33 Stunden. Bei mehr Bedarf Enterprise-Vertrag oder Wechsel auf Azure TTS (günstiger pro Zeichen).

Ist ElevenLabs DSGVO-konform für Mandanten-Daten?

Bedingt. BDPA mit ElevenLabs ist verfügbar, aber die Audio-Generierung läuft in den USA. Für Mandanten-Daten mit Berufsgeheimnis (Treuhand, Anwalt, Arzt) ist eine Transfer-Folgenabschätzung Pflicht und das Ergebnis oft negativ. Pragmatisch: Mandanten-Einwilligung zum Cloud-Versand der gesprochenen Antwort bei Anruf-Beginn einholen, oder Piper lokal als Fallback nutzen.

turbo-v2.5 oder multilingual_v2?

turbo-v2.5 für Echtzeit-Telefonie und Voice-Agenten – Sub-400-ms-Latenz, akzeptable Qualität. multilingual_v2 für Studio-Produktion (Hörbücher, Podcast-Intros, Lern-Videos) – beste Qualität, höhere Latenz (1-2 Sekunden). Pragmatisch: beide Modelle pro Anwendung pilotieren und Hör-Test machen.

Quellen

ElevenLabs – model overview (turbo-v2.5, multilingual-v2, flash) · 2026-05
ElevenLabs pricing – Starter, Creator, Pro, Scale tiers · 2026-05
ElevenLabs API reference – text-to-speech, streaming, voice cloning · 2026-04
ElevenLabs Trust Center – security, GDPR, SOC 2 · 2026-04
Artificial Analysis – Text-to-Speech quality benchmark · 2026-05

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen