DEEPGRAM · TECH
Deepgram: proprietäre STT-API mit der niedrigsten Latenz im Markt
Deepgram bietet Speech-to-Text als US-Cloud-API zu USD 0.0043/min Nova-2 mit Sub-300-ms-Latenz. Englisch-stark, Schweizerdeutsch schwach, kein EU-Tier Mai 2026.
Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05
Was ist Deepgram?
Deepgram ist eine 2015 in San Francisco gegründete Speech-AI-Plattform, die Spracherkennung als Cloud-API anbietet. Das Unternehmen ist proprietär, wurde mehrfach finanziert (Series C im Juni 2024 über USD 72 Mio., Bewertung USD 1 Mrd.+) und hat sich auf niedrige Latenz spezialisiert. Das aktuelle Hauptmodell heisst Nova-2 (Mai 2026 in der GA-Variante), das Premium-Modell Nova-3 ist im Roll-out. Beide Modelle laufen ausschliesslich in Deepgrams Cloud – kein Self-Host-Modell, kein Open-Source-Pendant.
Das Allein-Verkaufs-Argument ist Geschwindigkeit. Nova-2 liefert pre-recorded Audio in unter einem Drittel der Audio-Dauer (z.B. 30-Sekunden-Clip in 8-10 Sekunden) und Streaming-Audio mit Sub-300-ms-Latenz vom letzten Wort bis Transkript-Output. Damit ist Deepgram Mai 2026 das schnellste Cloud-STT-System im Markt – schneller als Whisper-API (2-5 Sekunden) und schneller als Google STT (rund 800 ms).
Die Preisgestaltung ist nutzungsbasiert. Nova-2 kostet USD 0.0043/min für pre-recorded und USD 0.0058/min für streaming. Volumen-Rabatt setzt ab USD 1000/Monat ein. Free-Tier USD 200 Startguthaben, ohne Kreditkarte. Zusatzfunktionen wie Diarisation, Smart Format (Datums-Erkennung, Telefonnummer-Formatierung), Topic Detection, Summarisation und Redaction (automatisches Schwärzen von PII) sind via Query-Parameter aktivierbar – meist mit Aufpreis von 10-30 Prozent.
Das Hosting ist Mai 2026 ausschliesslich US-Cloud (AWS us-east-1 als Primär-Region). Es gibt keine EU-Region, kein Frankfurt, kein Dublin. Für DSGVO-pflichtige Schweizer Daten ist das ein klares K.O.-Kriterium ohne explizite Mandanten-Einwilligung. Der angebotene "On-Prem"-Tarif (Deepgram in der eigenen Infrastruktur laufen lassen) startet bei sechsstelligen Jahresbeträgen und ist für KMU unrealistisch.
Warum es wichtig ist
Für Voice-Agenten ist Latenz das entscheidende Erlebnis-Merkmal. Ein Mensch erwartet eine Telefon-Antwort in unter einer Sekunde. Eine STT+LLM+TTS-Kette muss die Sekunde teilen – typische Verteilung: 300 ms STT, 400 ms LLM, 300 ms TTS. Whisper-API mit 2-5 Sekunden STT-Latenz fliegt aus dieser Rechnung. Deepgram liefert mit 250-300 ms genug Spielraum, um die Sub-Sekunden-Schwelle zu halten.
Für Voice-Bots, die überwiegend Englisch sprechen – internationale Kundendienst-Hotlines, SaaS-Onboarding-Bots, Sales-Cold-Outreach – ist Deepgram Mai 2026 die technisch beste Wahl. Word-Error-Rate für US-Englisch unter 5 Prozent, für Britisch-Englisch unter 7 Prozent, für Indisches Englisch unter 12 Prozent. Die meisten Konkurrenten (auch Whisper) liegen bei vergleichbaren Werten, aber Deepgram ist schneller.
Für Schweizer Anwendungen sieht die Rechnung anders aus. Schweizerdeutsch fällt bei Deepgram durch – die WER liegt bei 60-80 Prozent, das Modell wurde nicht auf alemannischen Daten trainiert. Hochdeutsch funktioniert (rund 8-12 Prozent WER), aber Schweizerdeutsch nicht. Wer einen Voice-Agent für eine Züricher Treuhand bauen will, muss Whisper (lokal) statt Deepgram nehmen.
Das Daten-Argument ist gleich kritisch. Deepgram läuft ausschliesslich in US-AWS. Jede Anfrage geht physisch nach Virginia. Für Mandanten-Telefonate einer CH-Treuhand oder eines Anwaltsbüros ist das ohne explizite Einwilligung nicht legal. Der von Deepgram angebotene Trust-Center-Auszug enthält SOC-2 und ISO-27001, aber keine Schweizer Datenschutz-Zertifizierung. Eine BDPA mit Deepgram ist abschliessbar, doch das revDSG verlangt zusätzliche Transfer-Folgenabschätzung (TIA) für USA-Transfers.
Wie es funktioniert
Deepgram exponiert zwei Schnittstellen: pre-recorded (REST POST /v1/listen) und streaming (WebSocket wss://api.deepgram.com/v1/listen). Beide nutzen das gleiche Modell, aber Streaming sendet Teil-Transkripte alle 100-300 ms, das End-Transkript erst nach Pause oder explizitem Close.
Beispiel pre-recorded cURL:
curl --request POST \ --url "https://api.deepgram.com/v1/listen?model=nova-2&language=en&smart_format=true&diarize=true" \ --header "Authorization: Token $DEEPGRAM_API_KEY" \ --header "Content-Type: audio/mp3" \ --data-binary @audio.mp3
Antwort als JSON mit Wort-Timestamps, Confidence, Sprecher-Labels, Topic-Detection und einer punctuated_word-Liste für Smart-Format. Streaming ähnlich via WebSocket – Audio-Chunks als binäre Frames senden, Transkript als JSON empfangen.
Für Twilio-Integration: Twilio Media Streams bietet einen WebSocket-Stream mit u-law-PCM-Audio. Ein Node-Server nimmt den Twilio-Stream entgegen, leitet ihn an Deepgram weiter, empfängt Transkript, sendet es an LLM, das Antwort generiert, über TTS in Audio wandelt und zurück an Twilio sendet. Deepgram bietet fertige Voice-Agent-SDKs in JavaScript und Python, die diesen Loop vorbauen.
Die Nova-2-Modellfamilie umfasst spezialisierte Varianten: nova-2-general (Standard), nova-2-meeting (Konferenz-Audio), nova-2-phonecall (telefonisch komprimiertes Audio mit 8 kHz), nova-2-medical (klinische Begriffe), nova-2-finance (Boersen- und Bank-Jargon). Die Phonecall-Variante ist für Voice-Agenten über Twilio die richtige Wahl – Hochfrequenz-Anteile sind wegkomprimiert, generelle Modelle sind dafür nicht optimal.
Zusatz-Endpoints: /v1/auth für Token-Refresh, /v1/projects für Multi-Tenant-Setups, /v1/keys für Sub-Keys mit Limits, /v1/usage für Verbrauchs-Daten. Deepgram bietet auch Aura (TTS) und Eve (Voice-Agent-Wrapper) als separate Produkte – diese sind Mai 2026 weniger reif als ElevenLabs (TTS) oder Vapi (Voice-Wrapper).
Deepgram-Setup in 5 Schritten
- 01Account anlegen auf deepgram.com, USD 200 Startguthaben erhalten, ersten API-Key generieren. BDPA und Trust-Center-Dokumente sichten und Transfer-Folgenabschätzung schreiben.
- 02Modell-Variante wählen: nova-2-general für Standard, nova-2-phonecall für Twilio-Integration (8 kHz Telefonie-Audio), nova-2-meeting für Konferenz-Aufnahmen.
- 03Pre-recorded Pilot: 20-30 echte Audio-Proben aus dem Zielgebiet via REST API verarbeiten, WER und Antwort-Qualität messen. Smart Format, Diarisation und Redaction nach Bedarf aktivieren.
- 04Streaming-Integration: WebSocket-Client implementieren oder offizielles SDK (Node, Python, Go) nutzen. Twilio Media Streams als Audio-Quelle anbinden, Transkript-Stream an LLM weiterleiten.
- 05Monitoring und Kosten: /v1/usage-Endpoint regelmässig pollen, Budget-Alarme setzen (z.B. USD 100/Tag-Limit), Latenz-Metriken in Grafana, Sub-Keys pro Mandant oder Anwendung für Kosten-Trennung.
Wann Deepgram einsetzen
Deepgram ist die richtige Wahl, wenn (a) Audio überwiegend Englisch ist, (b) Latenz unter 400 ms gefordert ist und (c) US-Cloud-Hosting akzeptabel ist.
Konkrete Fälle: ein SaaS-Anbieter baut einen englisch-sprachigen Voice-Agent für Demo-Buchungen – Deepgram-Streaming gibt die Sub-Sekunden-Latenz. Ein Call-Center analysiert Anrufe nachträglich für QA und Topic-Trends – Deepgram pre-recorded mit Smart-Format und Diarisation. Ein internationaler Podcast-Anbieter transkribiert mehrere hundert Episoden für SEO und Suche – Deepgram pre-recorded mit Topic-Detection.
Auch für mehrsprachige Setups mit Hochdeutsch-Anteil ist Deepgram eine Option, sofern Schweizerdeutsch keine Rolle spielt. Etwa eine D-A-Helpdesk-Linie ohne CH-Mandanten.
Wann NICHT
Wenn Schweizerdeutsch verstanden werden muss, ist Deepgram die falsche Wahl Mai 2026. WER von 60-80 Prozent ist unbrauchbar – Whisper lokal ist hier um den Faktor 3-4 besser.
Wenn Mandanten-Daten (Treuhand, Anwalt, Arzt) im Spiel sind und keine explizite Einwilligung vorliegt: Deepgram als US-Cloud ist datenschutzrechtlich heikel. Eine Transfer-Folgenabschätzung ist Pflicht, und das Ergebnis für Mandanten-Audio ist meist negativ.
Wenn Latenz nicht kritisch ist (Batch-Transkription, Aufnahmen, asynchrone Analyse), ist die OpenAI-Whisper-API günstiger (USD 0.006 vs. 0.0043/min ist nah) und liefert vergleichbare Englisch-Qualität. Whisper hat zudem den Vorteil, dass das Modell offen liegt und lokal lauffähig ist – bei Provider-Wechsel keine Bindung.
Für Self-Host-Anforderungen ist Deepgram nicht praktikabel – das On-Prem-Modell ist sechsstellig pro Jahr und damit nur für Konzerne. KMU sollten Whisper lokal nutzen.
Für mehrsprachige Auto-Erkennung mit > 5 Sprachen ist Whisper stärker – Deepgram erkennt zwar 30+ Sprachen, das Auto-Detect bei Code-Switching ist aber weniger robust.
Vor- und Nachteile
STÄRKEN
- Niedrigste Latenz im Markt – Sub-300-ms-Streaming für Real-Time-Voice-Agenten
- Englisch-WER unter 5 Prozent, sehr gute Smart-Format und Diarisation
- Skalierbare Cloud-API ohne Hardware-Aufwand
- Nova-2-phonecall-Variante speziell für Telefonie-Audio optimiert
SCHWÄCHEN
- Schweizerdeutsch und Dialekte mit 60-80 Prozent WER unbrauchbar
- Kein EU-Tier Mai 2026 – alle Daten über US-AWS
- Proprietär, kein Self-Host für KMU bezahlbar
- Reines STT, für komplette Voice-Agenten-Pipeline weitere Bausteine nötig
Häufige Fragen
Kann Deepgram Schweizerdeutsch?
Nein. Schweizerdeutsch ist Mai 2026 mit 60-80 Prozent WER praktisch unbrauchbar bei Deepgram. Hochdeutsch funktioniert (8-12 Prozent WER), Schweizerdeutsch nicht. Für CH-Anwendungen mit Mundart-Anteil ist Whisper lokal die einzige Lösung.
Gibt es eine EU-Region?
Nein, Mai 2026 nicht. Deepgram läuft ausschliesslich in AWS us-east-1. Eine EU-Region ist seit Jahren angekündigt, aber noch nicht verfügbar. Für DSGVO/revDSG-pflichtige Daten ist eine Transfer-Folgenabschätzung und Mandanten-Einwilligung Pflicht.
Wie viel kostet eine Stunde Audio?
Nova-2 pre-recorded: USD 0.0043 * 60 = USD 0.26 pro Stunde. Nova-2 streaming: USD 0.0058 * 60 = USD 0.35 pro Stunde. Mit Diarisation, Smart Format, Topic Detection plus 10-30 Prozent. Bei 500 Stunden/Monat sind das ca. USD 130-175 – günstiger als Whisper-API (USD 180/Monat), und schneller.
Wie verhält sich Deepgram bei schlechter Audio-Qualität?
Nova-2-phonecall ist gezielt für komprimierte Telefonie-Audio (8 kHz) trainiert und liefert dort bessere Ergebnisse als das general-Modell. Bei starkem Hintergrund-Lärm (Restaurant, Strasse) fällt die WER aber bei allen Modellen – Whisper large-v3 ist hier robuster, weil es auf breiteren Audio-Daten trainiert wurde.
Verwandte Themen
Quellen
- Deepgram – Nova-2 model overview and benchmarks · 2026-05
- Deepgram pricing – pre-recorded and streaming tiers · 2026-05
- Deepgram API reference – listen endpoint, WebSocket streaming · 2026-04
- Artificial Analysis – Speech-to-Text benchmark (latency leaderboard) · 2026-05
- Deepgram Trust Center – SOC 2, ISO 27001 attestations · 2026-04
PASSEND ZU IHREM STACK?