BOT & VOICE · TOOL-VERGLEICH
Bausteine für Chat- und Voice-Bots im Vergleich: Whisper, Deepgram, ElevenLabs, Piper, Twilio, Vapi, Retell, WhatsApp, Rasa, Botpress
Zehn Bausteine für Sprach- und Chat-Bots. STT, TTS, Telefonie, Voice-AI-Plattformen und Chatbot-Frameworks im direkten Vergleich. Stand Mai 2026.
Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05
Worum geht es?
Ein moderner Sprach- oder Chatbot ist kein einzelnes Produkt, sondern eine Kette von Bausteinen. Bei einem Voice-Agenten für das Telefon läuft typischerweise: eingehender Anruf (Twilio) -> Sprache-zu-Text (Whisper oder Deepgram) -> Sprachmodell (Claude oder GPT) -> Text-zu-Sprache (ElevenLabs oder Piper) -> ausgehende Audio-Antwort (Twilio). Jeder Baustein lässt sich austauschen, jede Wahl hat Konsequenzen für Latenz, Kosten, Sprachqualität und Compliance.
Die zehn Bausteine in diesem Vergleich decken vier Familien ab: Speech-to-Text (Whisper, Deepgram), Text-to-Speech (ElevenLabs, Piper/Coqui), Telefonie und Voice-Plattformen (Twilio, Vapi, Retell AI), Messaging-APIs (WhatsApp Business, Telegram) und Chatbot-Frameworks (Rasa, Botpress). Manche Werkzeuge sind direkt austauschbar, andere ergänzen sich.
Für ein Schweizer KMU ist die kritische Frage, ob die Bausteine in der EU/CH gehostet werden können, ob Schweizerdeutsch verstanden wird, ob die Latenz unter 500 ms bleibt und ob die Kosten pro Minute akzeptabel sind. Stand Mai 2026 ist Whisper (lokal via whisper.cpp) der einzige STT-Service, der zuverlässig Schweizerdeutsch erkennt. Deepgram ist English-dominiert; ElevenLabs liefert die besten Stimmen, aber liegt in US-Regionen.
Warum es wichtig ist
Vier Achsen entscheiden über Eignung für den Schweizer Markt: Sprache, Latenz, Telefonie-Anbindung und Datenort.
Sprache: Schweizerdeutsch ist die härteste Prüfung für jedes STT-System. Hochdeutsch können alle, aber Schweizerdeutsch fällt bei Deepgram und Google STT durch – die Modelle wurden auf englischen Daten trainiert. Whisper (large-v3, Mai 2026 mit turbo-Variante) erkennt Schweizerdeutsch überraschend zuverlässig, weil das Training mehrsprachige YouTube-Daten enthielt. Für ein Treuhand- oder Versicherungsbüro in Zürich ist das der einzig praktikable Weg.
Latenz: Im Telefon-Gespräch wirkt jede Pause unangenehm. Ein Mensch erwartet eine Antwort in unter 1 Sekunde. Eine STT+LLM+TTS-Kette muss unter 2 Sekunden bleiben, besser unter 1.5 Sekunden. Deepgram ist mit unter 300 ms Latenz der schnellste Cloud-STT-Service. ElevenLabs turbo-v2.5 liefert TTS unter 400 ms. Whisper lokal auf gut bestückter Hardware (RTX 4090) schafft ungefähr 800 ms – für Live-Telefonie an der Grenze, für Aufnahmen kein Problem.
Telefonie-Anbindung: Twilio ist der globale Standard für programmierbare Telefonie. Voice-AI-Plattformen wie Vapi und Retell sind Twilio-Wrapper mit eingebauter STT+LLM+TTS-Kette. Sie reduzieren Setup-Aufwand auf wenige Stunden, kosten dafür rund 30-50 Prozent Aufschlag pro Minute und sind US-gehostet.
Datenort: WhatsApp Business gehört Meta, Telegram betreibt eigene Infrastruktur ausserhalb der EU. Wer Mandanten-Daten über WhatsApp verarbeitet, muss die Cloud-API direkt von Meta nutzen und einen Data-Processing-Vertrag abschliessen. Telegram ist für Schweizer Berufsgeheimnis-Daten in der Regel nicht akzeptabel.
Die zehn Bausteine im Detail
Whisper (STT): OpenAI-Modell von 2022, mehrfach verbessert. Modelle MIT-lizenziert, Inferenz-API kostet USD 0.006/min. Lokal lauffähig via whisper.cpp (CPU-only) oder faster-whisper (GPU). Mai 2026 sind large-v3 und die turbo-Variante Standard – turbo ist 8x schneller bei minimal schlechterem Recall. Einziges System mit verlässlicher Schweizerdeutsch-Erkennung.
Deepgram: proprietäre STT-API aus den USA. Beste Latenz im Markt (unter 300 ms), USD 0.0043/min mit Volumen-Rabatt. Sehr stark für Englisch und Hochdeutsch, schwach für Schweizerdeutsch und Dialekte. Kein EU-Tier Mai 2026 – Daten laufen über US-Server. Für englisch-sprachige Voice-Agenten erste Wahl.
ElevenLabs (TTS): US-Anbieter (mit Multi-Region-Hosting). Mai 2026 die Branchen-Referenz für natürliche Stimmen. Starter-Plan USD 5/Monat für 30 Minuten generierten Audio, höhere Pläne für Voice-Cloning. turbo-v2.5 liefert TTS unter 400 ms Latenz – Echtzeit-Telefonie wird damit möglich. Deutsche Stimmen sind hervorragend, Voice-Cloning legal heikel.
Coqui / Piper (lokal TTS): open-source Alternativen. Piper (MIT) ist schlanker und lauffähig auf einem Raspberry Pi 5. Coqui (MPL-2) liefert mehr Stimm-Varianten. Beide sind für DE-TTS solide, aber Stimm-Qualität bleibt hinter ElevenLabs – gut für interne Tools, weniger für Kundenkontakt. Kostenfrei und voll lokal – wichtiger Vorteil für Berufsgeheimnis-Daten.
Twilio: globaler Telefonie-Standard. CH-Festnetz-Minute kostet rund USD 0.0085, SMS rund USD 0.075. Programmierbar via TwiML oder Voice SDK. Stabil, gut dokumentiert, überall integriert. Erste Wahl für ernsthafte Voice-Agenten – aber Eigenbau-Kette (STT+LLM+TTS) muss man selbst orchestrieren.
Vapi: US-Voice-AI-Plattform Mai 2026. Wrapper um Twilio mit eingebauter STT+LLM+TTS-Kette. Setup eines Voice-Agenten in unter einer Stunde möglich. Preis ungefähr USD 0.05/min plus die zugrundeliegenden Costs (LLM, STT, TTS). US-Hosting, für CH-Mandanten-Daten heikel.
Retell AI: ähnlich Vapi, US-Anbieter mit Fokus auf Voice-Agenten für Sales und Support. Mai 2026 in einer Liga mit Vapi, leicht unterschiedliche Tooling-Tiefe. Beide gehen in Richtung "Voice-Agent in 30 Minuten" – gut für Prototypen, weniger für streng compliant-Produktion.
Telegram / WhatsApp Business API: WhatsApp Cloud API direkt von Meta ist Standard für Business-Messaging – die Inhalte sind nicht Ende-zu-Ende-verschlüsselt zwischen Bot und Kunde, sondern landen bei Meta. CH-Treuhand sollte einen DPA mit Meta abschliessen und Mandanten-Daten nicht über WhatsApp übermitteln. Telegram ist kostenlos, eigene Cloud, aber Compliance-technisch unklar – nicht erste Wahl für professionelle Bots.
Rasa: open-source Chatbot-Framework aus Berlin (jetzt deutsch-amerikanisch). Pre-LLM-Architektur mit Intents, Entities, Stories. Mai 2026 mit Rasa Pro auch LLM-fähig, aber das Klassiker-Setup ist relativ aufwendig. Sinnvoll, wenn Sie bereits ein Rasa-System haben oder strengen Regel-basierten Flow brauchen – sonst wirken die Konzepte 2026 überholt.
Botpress: modernes Chatbot-Framework mit LLM-Integration im Kern. AGPL-3 für Selbst-Hosting, Cloud-Variante mit Pay-as-you-go. Mai 2026 ein guter Mittelweg zwischen Rasa (zu klassisch) und einem rohen LLM-Wrapper. Visueller Flow-Builder, Integrationen zu WhatsApp/Telegram/Slack/SMS, Multi-Channel-Bots in wenigen Tagen.
Auswahl-Workflow in 6 Schritten
- 01Modalität festlegen: Telefon (Voice) vs Chat (Text). Telefon braucht STT+TTS+Telefonie, Chat nur Bot-Logik.
- 02Sprach-Anforderung: Schweizerdeutsch erwartet? Wenn ja, Whisper lokal als STT setzen, Deepgram raus.
- 03Datenort klären: Mandanten-Daten in CH/EU? Wenn ja, Vapi/Retell raus, eigene Twilio-Pipeline auf Hetzner.
- 04Latenz-Budget messen: Ziel unter 1.5 s end-to-end. Whisper turbo statt large-v3, ElevenLabs turbo-v2.5 statt v2 für schnellste Antwort.
- 05Volumen schätzen: Anrufe pro Tag x Minuten pro Anruf = monatliche Kostenbasis. Bei < 30 Anrufen/Tag oft kein Voice-Agent nötig.
- 06PoC mit echten Mandanten-Fällen: 1 Woche im Schatten-Betrieb, gemessen an einer menschlichen Triage. Erst nach Vergleich produktiv schalten.
Empfehlung je Anwendungsfall
Telefon-Voice-Agent für CH-KMU, Schweizerdeutsch erwartet: Twilio + Whisper lokal (faster-whisper auf GPU) + Claude/GPT + ElevenLabs turbo-v2.5. Lokales Whisper schluckt den Schweizerdeutsch-Anteil, ElevenLabs liefert die natürliche Stimme. Latenz unter 1.5 Sekunden machbar. Setup-Aufwand 5-10 Tage.
Englisch-sprachiger Voice-Agent ohne CH-Bezug: Vapi oder Retell. Schneller Start (eine Stunde), Standard-Pipeline, gute Stimmen. Lohnt sich, wenn keine strikte Datenresidenz nötig ist.
Mandanten-Telefonzentrale mit IVR-Dispatch: Twilio direkt mit eigener Logik. Eingangsanruf -> Whisper STT -> Kategorie-Klassifikation via LLM -> Weiterleitung an die richtige Abteilung. Keine fertige Voice-Plattform, sondern eigene Express/Node-Logik.
WhatsApp-Bot für Termin-Buchungen, Aufnahmen, Status-Anfragen: WhatsApp Business Cloud API direkt von Meta + Botpress als Bot-Logik + Multi-LLM-Gateway dahinter. DPA mit Meta nötig, Mandanten-Daten getrennt halten.
Reine Voice-Notizen-App für Anwälte, lokale Verarbeitung: Whisper lokal (large-v3 oder turbo) auf einer Workstation. Aufnahmen bleiben on-premise, kein Cloud-Upload. Coqui/Piper falls TTS-Antwort gebraucht wird.
Telegram-Bot für internes Tooling oder Hobby-Projekte: Telegram-Bot-API direkt, kein Botpress nötig. Kostenfrei, schnelle Iteration, nicht für Mandanten-Daten geeignet.
Regel-basierter Chatbot ohne LLM (z.B. FAQ-Bot ohne Halluzinations-Risiko): Rasa oder Botpress mit deaktivierter LLM-Schicht. Kontrollierbar, vorhersehbar, audit-fest. Mai 2026 selten der erste Reflex, aber für regulierte Branchen weiter relevant.
Wann diese Werkzeuge falsch sind
Wenn Sie nicht mehr als 5 Anrufe pro Tag erwarten, ist ein Voice-Agent meistens das falsche Investment – ein Menschen-betreutes Telefon plus E-Mail-Triage ist schneller und billiger eingerichtet. Voice-Agenten lohnen sich ab ca. 30-50 Anrufen pro Tag, wo der Personal-Aufwand spürbar wird.
Deepgram ist die falsche Wahl, wenn Schweizerdeutsch oder dialektales Deutsch erwartet wird – die Erkennungsrate fällt deutlich. Auch wenn Daten in der EU bleiben müssen, ist Deepgram nicht erste Wahl Mai 2026.
ElevenLabs Voice-Cloning ist juristisch heikel: das Klonen einer realen Stimme ohne Einwilligung verletzt Persönlichkeitsrecht und kann unter neuem EU-AI-Act-Recht problematisch werden. Für reine Synthese-Stimmen (z.B. die hauseigene Stock-Stimme von ElevenLabs) gibt es keinen Konflikt.
Vapi und Retell sind die falsche Wahl, wenn Sie ein produktives System mit strikter Datenresidenz brauchen – beide sind US-gehostet ohne klare EU-Optionen Mai 2026. Auch für komplexe Multi-Step-Voice-Flows mit Tool-Use (z.B. Termin buchen + Mailversand + DB-Update) sind sie limitiert; dort lohnt sich Eigenbau mit Twilio.
Rasa ist die falsche Wahl für neue Projekte 2026 – die Klassik-Architektur mit Intents und Stories ist gegen einen LLM-basierten Bot kaum noch konkurrenzfähig in Aufbau-Geschwindigkeit und Flexibilität. Nur wenn Sie Rasa bereits laufen haben oder den deterministischen Regel-Flow zwingend brauchen.
WhatsApp Business Cloud API ist die falsche Wahl, wenn Sie nicht bereit sind, einen Data-Processing-Vertrag mit Meta zu schliessen und Mandanten-Daten getrennt zu halten. Für Berufsgeheimnis-Inhalte (Anwalt, Arzt, Treuhand) ist WhatsApp nur für organisatorische Nachrichten geeignet – Inhalt der Mandanten-Sache gehört nicht in den WhatsApp-Kanal.
Vor- und Nachteile
STÄRKEN
- Whisper lokal: einzig praktikable Lösung für Schweizerdeutsch, MIT-lizenziert, kostenfrei in der Modell-Lizenz
- ElevenLabs turbo-v2.5: natürlichste Stimmen am Markt, unter 400 ms Latenz
- Twilio: globaler Telefonie-Standard, stabil, gut dokumentiert
- Botpress: moderner Chatbot-Builder mit LLM-Integration, visueller Flow
- Vapi/Retell: Voice-Agent in einer Stunde aufsetzbar für Englisch ohne Compliance-Druck
SCHWÄCHEN
- Deepgram: schwach bei Schweizerdeutsch, kein EU-Tier Mai 2026
- ElevenLabs: US-Hosting, Voice-Cloning juristisch heikel
- Vapi/Retell: US-gehostet, schwierig für CH-Berufsgeheimnis-Daten
- Rasa: Pre-LLM-Klassiker, kaum konkurrenzfähig für Neueinführungen 2026
- WhatsApp: Daten bei Meta, nur für organisatorische Nachrichten geeignet
Häufige Fragen
Versteht Whisper Schweizerdeutsch wirklich gut?
Erstaunlich gut, ja. large-v3 erkennt mittlere und gemässigte Dialekte (Zürich, Bern, Basel) zuverlässig. Sehr starke Dialekte (Walliserdeutsch, tiefes Berner Oberland) bleiben schwierig. Hochdeutsche Aufnahmen funktionieren praktisch fehlerfrei. Wir haben mehrere CH-Mandanten mit Whisper im Produktiv-Einsatz – das ist Mai 2026 die einzig praktikable Lösung für dialektale Spracheingabe.
Was kostet ein Voice-Agent pro Anruf?
Bei 3-Minuten-Schnitt rund USD 0.10-0.25 pro Anruf in der Standard-Cloud-Kette: Twilio USD 0.025, Whisper-API USD 0.018, LLM (Claude Haiku oder GPT-4o-mini) USD 0.02-0.05, ElevenLabs turbo USD 0.05-0.15. Mit Vapi oder Retell rechnen Sie 30-50 Prozent Aufschlag. Lokales Whisper drückt die STT-Kosten auf null, dafür braucht es eine GPU-Maschine für rund CHF 80-150/Monat.
Brauche ich Rasa noch?
Selten. Mai 2026 ist Rasa für Neueinführungen kaum noch konkurrenzfähig – ein LLM-basierter Bot mit klarem System-Prompt baut man in einem Tag, was bei Rasa mit Intents, Stories und NLU-Training Wochen kostet. Rasa hat Nischen-Berechtigung, wenn deterministische Antworten Pflicht sind und Halluzinationen absolut ausgeschlossen werden müssen – z.B. regulierte FAQ-Bots im Finanzbereich. Sonst: Botpress oder direkter LLM-Wrapper.
Darf ich WhatsApp für Mandanten-Kontakt nutzen?
Nur für organisatorische Nachrichten (Terminbestätigung, Erinnerung, allgemeine Frage). Inhalt der Mandanten-Sache gehört nicht in WhatsApp – die Nachrichten sind nicht Ende-zu-Ende-verschlüsselt zwischen Bot und Mandant, sondern laufen über Meta-Server. Pflicht: DPA mit Meta, Vermerk im Mandatsvertrag, klare Trennung "WhatsApp = Organisation, E-Mail/Portal = Inhalt". Berufsgeheimnis (StGB Art. 321) verlangt das.
Verwandte Themen
Quellen
- OpenAI Whisper – large-v3 and turbo model card · 2026-04
- Deepgram – Pricing and latency benchmarks · 2026-04
- ElevenLabs – turbo-v2.5 announcement and pricing · 2026-05
- Twilio Programmable Voice – pricing CH/EU · 2026-04
- Vapi documentation – voice AI platform · 2026-05
- Botpress – open-source chatbot framework · 2026-04
- WhatsApp Business Cloud API – overview · 2026-03
PASSEND ZU IHREM STACK?