VOICE · SERVICE

Voice-Agent am Telefon: KI, die anruft und angerufen wird

Telefon-Agent mit Whisper STT, LLM und ElevenLabs/Cartesia TTS. Anrufannahme, Terminbuchung, Vorqualifizierung. Latenzbudget unter 800 ms. Pauschal CHF 3'500.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Was ist ein Voice-Agent?

Ein Voice-Agent ist eine telefonische Gegenstelle, die mit Anruferinnen und Anrufern spricht – verstehen, denken, antworten. Drei Bauteile arbeiten zusammen: Speech-to-Text (STT) wandelt das Gesprochene in Text, ein Sprachmodell verarbeitet die Anfrage, Text-to-Speech (TTS) gibt die Antwort als natürliche Stimme zurück. Die Telefonie selbst läuft über klassische SIP/PSTN-Anbieter wie Twilio oder Vonage, die seit Anfang 2024 Voice-AI-Programmable-API-Endpunkte mit nativer Streaming-Audio-Unterstützung anbieten.

Im Mai 2026 ist die Technik produktreif für klar abgegrenzte Anwendungen. Die Stimme ist nicht mehr roboterhaft – ElevenLabs Flash und Cartesia Sonic liefern menschlich klingende Sprache mit Latenz unter 250 ms zum ersten Audio-Frame. Whisper Large v3 erkennt Schweizerdeutsch in Hochdeutsch-Form mit hoher Genauigkeit; für tiefe Dialekte (Bärndütsch, Walliserdeutsch) sinkt die Qualität, aber Standardsprache läuft sauber.

Als Service bei uns: Sie nennen den Anwendungsfall (Anrufannahme ausserhalb Geschäftszeiten, Vorqualifizierung in einer Versicherung, Terminbuchung in einer Praxis), wir bauen den Voice-Agent in 3–4 Wochen, testen ihn mit Probeanrufen, schalten ihn auf eine eigene oder Ihre bestehende Nummer. Pauschal: CHF 3'500.

Warum es wichtig ist

Telefon ist 2026 nicht tot – in vielen Branchen ist es der Erstkontakt. Eine Treuhand-Praxis bekommt Anrufe, ein Arzt bekommt Anrufe, ein Handwerksbetrieb sowieso. Und Telefon-Anrufe haben drei Eigenschaften, die sie teuer machen. Erstens: synchron – wer nicht abnimmt, verliert den Anruf. Zweitens: Mensch-bindend – wer abnimmt, kann in dieser Minute nichts anderes tun. Drittens: ungleich verteilt – die Spitzen liegen oft im Tagesablauf, wenn die Mitarbeitenden ohnehin überlastet sind.

Ein Voice-Agent löst nicht das Telefon-Problem komplett – er löst die Spitzen. Anrufe ausserhalb der Geschäftszeiten werden angenommen (statt verlorene Anrufe), Standard-Anliegen (Termin, Status, Erstauskunft) werden direkt erledigt (statt Rückruf-Karussell), komplexere Fälle werden vorqualifiziert und zur richtigen Person geroutet (statt vier Mal weiterverbunden).

Die Zahlen aus realen Implementierungen 2025–2026: 30–50 % der eingehenden Anrufe in einer Treuhand-Praxis lassen sich vollständig vom Voice-Agent abschliessen. Weitere 30 % werden so vorbereitet, dass der menschliche Rückruf die halbe Dauer braucht. Die restlichen 20 % gehen direkt an Menschen – schneller als heute, weil der Bot bereits Name, Mandant und Anliegen aufgenommen hat.

Das Latenzbudget ist entscheidend für die Akzeptanz. Liegt die Antwortlatenz über einer Sekunde, klingt das Gespräch fremd. Unser Zielbudget: unter 800 ms vom Ende der Anrufer-Sprache bis zum Start der Bot-Antwort – Streaming-STT plus Streaming-TTS plus ein schnelles Modell (GPT-4o oder Claude-Haiku) ermöglichen das im Mai 2026 zuverlässig.

Wie wir es bauen

Der Voice-Agent besteht aus fünf Stationen: Telefonie, STT, Orchestrierung, LLM, TTS. Jede ist tauschbar – wir empfehlen jeweils zwei stabile Optionen.

Telefonie: Twilio oder Vonage. Beide bieten Programmable Voice mit Media-Streams: der Anruf wird als bidirektionaler WebSocket-Audio-Strom an unseren Server geleitet. Sie behalten Ihre Schweizer Nummer (Portierung) oder bekommen eine neue von uns.

STT: Deepgram Nova-2 als Default (Cloud, 200 ms latency, gute DE-Qualität) oder Whisper Large v3 lokal via faster-whisper auf GPU für Datenschutz-sensible Fälle. Streaming-Modus immer aktiv: Tokens kommen im 100-ms-Takt rein, nicht erst nach Satz-Ende.

Orchestrierung: n8n oder ein schlanker Python-Asyncio-Server (LiveKit Agents, Pipecat). Hier liegt die Gesprächs-State-Machine: was wurde schon gefragt, was muss noch geklärt werden, wann übergeben wir an einen Menschen. Das System hält keinen langen Kontext – pro Gespräch ein definiertes Skript mit Zweigen.

LLM: Über LiteLLM-Gateway. Für reine Routing-Entscheidungen Claude-Haiku oder GPT-4o-mini (50–100 ms), für komplexere Fälle (Beratungs-light, Mandanten-FAQ über RAG) GPT-4o oder Claude-Sonnet (200–400 ms). Die Wahl wird pro Knoten festgelegt.

TTS: ElevenLabs Flash v2.5 oder Cartesia Sonic. Beide liefern erste Audio-Bytes in unter 250 ms und streamen weiter, während das Sprachmodell noch generiert. Die Stimme wird einmal gewählt (Mai 2026: ca. 30 deutsche Stimmen mit guter Schweiz-Klangfärbung verfügbar) und bleibt konstant.

Eskalation und Übergabe: Sobald der State-Machine-Branch "menschlich" sagt – sei es bei niedriger Konfidenz, sei es bei sensitivem Thema, sei es auf Wunsch des Anrufers – wird der Anruf direkt an eine konfigurierte Nummer weitergeleitet. Twilio kann das als blind oder warm transfer. Wir empfehlen warm: der Mensch bekommt eine kurze Zusammenfassung vor dem Verbinden.

Alles wird transkribiert und in Postgres geloggt – sieben Tage roh für Quality-Review, danach pseudonymisiert. Telegram-Alert bei Fehlern, Latenzspitzen oder Eskalations-Quote über Schwelle.

Vom Use-Case bis zum Go-Live

01Use-Case-Workshop (halber Tag): Anliegen-Liste, State-Machine zeichnen, Eskalationspunkte definieren, Begrüssungs- und Abschiedstext formulieren.
02Telefonie-Setup: Twilio- oder Vonage-Konto, Nummer (neu oder Portierung Ihrer Schweizer Nummer), Media-Stream-TwiML auf unseren Server gerichtet.
03STT/TTS-Wahl: Deepgram oder Whisper, ElevenLabs Flash oder Cartesia Sonic. Stimme aus Test-Samples wählen lassen, Probetexte aufnehmen.
04Orchestrierung bauen: n8n oder Pipecat-Server mit State-Machine, LLM-Knoten über LiteLLM-Gateway, CRM- und Kalender-Anbindung, Warm-Transfer-Logik.
05Latenz-Tuning: Messung Ende-zu-Ende, Streaming an allen Stationen, schnelles Modell für Routing, langsameres nur bei Bedarf. Ziel unter 800 ms.
06Testbetrieb 3 Wochen: 30–50 Probeanrufe von uns plus echte Anrufe in einem Soft-Launch. Transkripte durchgehen, Edge-Cases einbauen.
07Go-Live: Schalter umlegen, Geschäftsleitung informieren, 30-Tage-Garantie aktiv. 90 Minuten Schulung für 2–3 interne Personen.

Wann einsetzen

Ein Voice-Agent ist die richtige Wahl, wenn (a) eingehende Anrufe in hoher Frequenz aus einer überschaubaren Anzahl von Themen kommen, (b) das Anliegen in 60–120 Sekunden klärbar ist, (c) Sie ausserhalb der Geschäftszeiten erreichbar sein sollten.

Konkrete Anwendungsfälle: Anrufannahme ausserhalb der Geschäftszeiten bei einer Treuhand-Praxis (Bot nimmt Anliegen auf, sendet E-Mail-Zusammenfassung an die zuständige Person, ruft am nächsten Werktag automatisch zurück mit Terminvorschlag); Terminbuchung bei einer Arztpraxis (Bot fragt Name, Geburtsdatum, Anliegen-Kategorie, prüft Verfügbarkeit, bucht, sendet SMS-Bestätigung); Vorqualifizierung bei einer Versicherung (Bot nimmt Schaden-Erstmeldung auf, ergänzt im CRM, leitet an passende Schadenabteilung weiter); Erstauskunft bei einem KMU (Bot beantwortet Standardfragen wie Öffnungszeiten, Adresse, Status einer Bestellung; alles andere wird vorqualifiziert weitergeleitet).

Der Pauschalpreis von CHF 3'500 deckt: einen Use-Case, Setup auf Twilio oder Vonage, Anbindung an LiteLLM, Whisper/Deepgram STT, ElevenLabs/Cartesia TTS, n8n-Orchestrierung, Anbindung an CRM oder Kalendersystem, 3 Wochen Testbetrieb mit Logs, 90 Minuten Schulung. Mehrsprachigkeit (DE/FR/IT/EN) ist Aufpreis-Modul.

Wann NICHT

Ein Voice-Agent ist die falsche Wahl, wenn die Gespräche emotional oder erklärungsbedürftig sind. Trauergespräche bei einem Bestatter, Krisenintervention, Erstgespräche in der Onkologie – hier verärgert ein Bot mehr, als er hilft, selbst wenn die Stimme natürlich klingt.

Falsch ist auch der Einsatz bei sehr kleinen Volumen. Wenn Ihre Praxis 5 Anrufe pro Tag bekommt, lohnt sich die Einrichtung nicht – die Mitarbeiterin braucht für 5 Anrufe rund 30 Minuten, und der Bot zwingt zu einer Logik, die auf 50 Anrufe ausgelegt ist.

Vorsicht bei tiefem Schweizerdeutsch. Whisper Large v3 verarbeitet Standard-Hochdeutsch und leichte Schweizer Färbung gut, kommt aber bei tiefem Bärndütsch oder Walliserdialekt an Grenzen. Wer in einer Region arbeitet, wo Anrufer in tiefem Dialekt sprechen, muss vorher mit echten Stichproben testen oder eine Begrüssung wählen, die zu Hochdeutsch motiviert.

Nicht geeignet ist der Voice-Agent für regulierte Beratung. Wer Anlageberatung am Telefon gibt, fällt unter FINIG/FIDLEG-Regeln; das geht nicht mit einem Bot, ausser im Pre-Qualifying-Modus ohne Beratungs-Charakter. Bei Heilberufen und Rechtsberatung gilt das gleiche. Wir setzen den Bot bewusst auf Information und Triage, nicht auf Beratung – und sagen das im Begrüssungstext.

Vor- und Nachteile

STÄRKEN

Erreichbarkeit ausserhalb Geschäftszeiten ohne Personal
Latenz unter 800 ms – Gespräch fühlt sich nicht künstlich an
Eskalation an Menschen mit Kontext (Name, Mandant, Anliegen schon erfasst)
Audit-Trail durch Transkripte – was der Bot gesagt hat, ist nachprüfbar

SCHWÄCHEN

Bei tiefem Schweizerdeutsch sinkt die STT-Qualität – Vortest empfohlen
Emotionale Gespräche taugen nicht für Bots – Scope eng halten
Laufende Cloud-Kosten EUR 50–90 pro Monat bei mittlerem Volumen
EU-AI-Act Art. 18 verlangt Transparenz: Anrufer müssen wissen, dass es ein Bot ist

Häufige Fragen

Was kostet ein Anruf laufend?

Telefonie über Twilio in CH: rund EUR 0.03 pro Minute inbound. STT Deepgram: EUR 0.004 pro Minute. LLM (Claude-Haiku-mix): EUR 0.005 pro Anruf. TTS ElevenLabs Flash: EUR 0.06 pro 1'000 Zeichen – typischer Anruf ~500 Zeichen Output also EUR 0.03. Gesamt pro 2-Minuten-Anruf: EUR 0.10–0.18. Bei 500 Anrufen/Monat sind das EUR 50–90 laufende Cloud-Kosten.

Wie klingt die Stimme – wie ein Roboter?

Nein, nicht mehr. ElevenLabs Flash v2.5 und Cartesia Sonic produzieren natürlich klingende deutsche Stimmen mit Intonation und Pausen. Wir lassen Sie aus 20–30 Sample-Stimmen wählen. Probehörer können oft nicht sofort sagen, ob es ein Mensch oder Bot ist – wir empfehlen trotzdem, in der Begrüssung klar zu deklarieren: "Sie sprechen mit einem automatischen Assistenten." Das ist nicht nur fair, sondern auch unter Art. 18 EU-AI-Act (anwendbar seit August 2026) Pflicht.

Was passiert bei tiefem Dialekt?

Whisper erkennt tiefes Schweizerdeutsch unzuverlässig. Drei Strategien: (1) Die Begrüssung nutzt explizit Hochdeutsch ("Guten Tag, ich bin der digitale Assistent der Praxis X. Bitte sprechen Sie etwas langsamer und in Hochdeutsch, falls möglich"). (2) Bei wiederholtem STT-Fehler übergibt der Bot an einen Menschen – keine Spirale aus Missverständnissen. (3) In Regionen mit hoher Dialekt-Frequenz empfehlen wir Voice-Agent erst nach einer 1-wöchigen Aufzeichnungsphase, in der wir echte Anrufe transkribieren und entscheiden, ob der Use-Case trägt.

Wer haftet, wenn der Bot etwas Falsches sagt?

Der Betreiber des Bots – also Sie. Das ist Grund, den Scope eng zu halten: Information und Triage, keine Beratung. Wir bauen die Antworten so, dass der Bot bei Unklarheit explizit an einen Menschen verweist und alles transkribiert, was er sagt. Das gibt Ihnen einen Audit-Trail. Bei FINMA-, Anwalts- oder Heilberufe-Kontexten empfehlen wir, den Begrüssungstext vorab juristisch zu prüfen.

Quellen

OpenAI – Whisper documentation (Large v3, multilingual) · 2026-04
ElevenLabs – Pricing & Flash v2.5 model (May 2026) · 2026-05
Cartesia – Sonic streaming TTS model · 2026-04
Twilio – Programmable Voice & Media Streams · 2026-03

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen