fairlane.systems

WHISPER · TECH

Whisper: das Open-Source-STT-Modell von OpenAI für mehrsprachige Transkription

Whisper ist OpenAIs MIT-lizenziertes Spracherkennungs-Modell. Lokal lauffähig via whisper.cpp, faster-whisper oder WhisperX, oder über die API zu USD 0.006/min. Stand Mai 2026 mit large-v3 und turbo-v3.

Recherche & Faktencheck: · Stand: 2026-05

Was ist Whisper?

Whisper ist ein Speech-to-Text-Modell, das OpenAI im September 2022 unter MIT-Lizenz veröffentlicht hat. Das Modell wurde auf 680.000 Stunden mehrsprachigem Audio aus dem offenen Web trainiert. Es transkribiert 99 Sprachen, übersetzt Audio direkt nach Englisch und kennzeichnet Sprecher-Wechsel via Timestamp-Marker.

Das ungewöhnliche an Whisper: das Modell ist gleichzeitig die Referenz für Cloud-STT (OpenAI bietet es als API zu USD 0.006 pro Minute Audio) und der Industrie-Standard für lokale Spracherkennung. Drei Varianten dominieren Mai 2026 das Feld. whisper.cpp (Github ggerganov/whisper.cpp) ist die C++-Portierung, läuft auf CPU oder Apple Silicon ohne CUDA. faster-whisper (SYSTRAN) nutzt CTranslate2 für 4-fache Beschleunigung auf GPU. WhisperX (Max Bain, Oxford) ergänzt Sprecher-Diarisation, Wort-Level-Timestamps und Forced Alignment.

Die Modell-Familie umfasst tiny, base, small, medium und large. Im Mai 2026 ist large-v3 der Recall-Champion (235M Parameter im Encoder, 1.5 Mrd Gesamt), turbo-v3 ist die schnelle Variante (8-fach beschleunigt bei rund 95 Prozent Recall). Auf einer RTX 4090 transkribiert turbo-v3 eine Stunde Audio in unter 30 Sekunden. Auf einem MacBook Pro M3 schafft whisper.cpp mit small.en rund 5-fache Echtzeit.

Für Schweizer Anwendungen ist Whisper das einzige Cloud- oder lokale STT-System mit verlässlicher Schweizerdeutsch-Erkennung. Die Wort-Fehlerrate (WER) liegt bei sauberem Hochdeutsch unter 5 Prozent, bei Mundart zwischen 18 und 45 Prozent je nach Dialekt-Region. Berner Oberländisch und Walliserdeutsch sind die härtesten Fälle, Zürichdeutsch und Berner Stadtdialekt funktionieren gut.

Warum es wichtig ist

Für CH-Treuhand und KMU sind drei Eigenschaften von Whisper entscheidend.

Erstens: Datensouveränität. Whisper lässt sich vollständig lokal betreiben. Eine Mandanten-Telefonaufnahme oder ein vertrauliches Anwalts-Diktat muss kein US-Cloud-Service überhaupt sehen. whisper.cpp auf einer Workstation oder einem Hetzner-Server in Falkenstein verarbeitet das Audio on-premise, das Transkript bleibt im Haus. Damit ist Whisper das einzige STT-System, das mit Art. 321 StGB (Berufsgeheimnis für Anwälte, Ärzte, Treuhänder) vereinbar ist, wenn keine Mandanten-Einwilligung für Cloud-Versand vorliegt.

Zweitens: Schweizerdeutsch. Deepgram, Google Speech-to-Text und Azure Speech sind auf englischen Daten trainiert. Schweizerdeutsch fällt bei ihnen mit 60-80 Prozent WER durch, also unbrauchbar. Whisper large-v3 schafft 18-45 Prozent WER je Dialekt – nicht perfekt, aber genug für Vor-Sortierung und nachgelagerte LLM-Auswertung. Für Voice-Agenten in Zürich, Basel und Bern ist Whisper Mai 2026 der einzige praktikable Weg.

Drittens: Kostenkontrolle. Die OpenAI-API kostet USD 0.006 pro Minute Audio. Bei 100 Stunden Audio pro Monat sind das USD 36. Lokal mit faster-whisper auf einer RTX 4060 (CHF 350 Hardware) sind die Stückkosten praktisch null. Bei grösseren Volumina (1000+ Stunden/Monat) ist Self-Host nach 2-3 Monaten günstiger als die Cloud-API. Für Treuhand-Kanzleien mit hoher Diktat-Last ein klares Argument für lokal.

Ein viertes Argument: Latenz. Cloud-Whisper liefert Transkript in 2-5 Sekunden für eine 30-Sekunden-Audio-Datei. Lokal auf GPU sind es unter 1 Sekunde. Für Live-Telefonie mit Voice-Bot ist faster-whisper auf einer GPU die einzige praktikable Lösung.

Wie es funktioniert

Whisper ist ein Encoder-Decoder-Transformer. Der Encoder verwandelt 30-Sekunden-Audio-Blöcke in Mel-Spektrogramme und kodiert sie in 1500-dimensionale Vektoren. Der Decoder generiert Token autoregressiv, mit Sprachen-Token, Aufgaben-Token (transcribe/translate) und Timestamp-Tokens. Bei langen Audios werden 30-Sekunden-Fenster mit Überlapp verarbeitet.

Die API-Nutzung ist einfach. Beispiel cURL gegen OpenAI:

curl https://api.openai.com/v1/audio/transcriptions \ -H "Authorization: Bearer $OPENAI_API_KEY" \ -H "Content-Type: multipart/form-data" \ -F file="@audio.m4a" \ -F model="whisper-1" \ -F language="de" \ -F response_format="verbose_json"

Die Antwort enthält Text, Wort-Timestamps und Confidence-Score. Maximum-Dateigrösse ist 25 MB – längere Audios muss man segmentieren.

Lokal mit faster-whisper:

from faster_whisper import WhisperModel model = WhisperModel("large-v3", device="cuda", compute_type="float16") segments, info = model.transcribe("audio.m4a", language="de", beam_size=5) for segment in segments: print(f"[{segment.start:.2f} -> {segment.end:.2f}] {segment.text}")

Das Modell lädt rund 3 GB VRAM bei float16. Auf einer RTX 4060 (8 GB) reicht das, auf einer RTX 4090 lassen sich mehrere Streams parallel fahren.

Für Live-Telefonie mit Twilio: eingehender Anruf -> Twilio Media Streams sendet PCM-Audio via WebSocket -> faster-whisper transkribiert in 1-2-Sekunden-Blöcken -> LLM-Anfrage -> TTS-Antwort zurück. Latenz vom Anrufer-Sprechen bis Bot-Antwort liegt mit gutem Setup bei 1.5-2 Sekunden.

WhisperX ergänzt zwei kritische Features: pyannote-Speaker-Diarisation (wer hat wann gesprochen) und Wav2Vec2-Forced-Alignment für exakte Wort-Timestamps. Für juristische Mitschriften und Mandanten-Gespräche mit mehreren Sprechern ist WhisperX die richtige Variante.

Whisper-Setup in 5 Schritten

  1. 01Variante wählen: OpenAI-API (kein Setup, USD 0.006/min, US-Cloud) oder lokal (faster-whisper auf GPU, whisper.cpp auf CPU/Apple Silicon, WhisperX für Diarisation).
  2. 02Hardware bereitstellen: RTX 4060 (8 GB VRAM) genügt für einen Stream large-v3, RTX 4090 für mehrere parallele Streams oder turbo-v3-Batch.
  3. 03Modell laden: faster-whisper-Python-Paket installieren, large-v3 oder turbo-v3 Modell herunterladen (rund 3 GB), beam_size=5 für Qualität, beam_size=1 für Geschwindigkeit.
  4. 04Pipeline aufsetzen: Audio-Quelle (Datei, Mikrofon, Twilio-Stream) -> Whisper -> Post-Processing (Satzzeichen, Kapitalisierung) -> Ausgabe (Datenbank, LLM, Datei).
  5. 05Qualität evaluieren: 30 echte Audio-Proben aus dem Zielgebiet (Schweizerdeutsch, Hochdeutsch, Sprecher-Vielfalt) durchlaufen lassen, WER messen, gegebenenfalls Sprache-Hint und Initial-Prompt setzen.

Wann Whisper einsetzen

Whisper ist die richtige Wahl, sobald Schweizerdeutsch oder mehrsprachiges Audio im Spiel ist, sobald Datensouveränität ein Thema wird oder sobald Volumen über 50 Stunden/Monat steigt.

Konkrete Fälle: ein Treuhandbüro will Mandanten-Telefonate für interne Notizen transkribieren – lokal mit faster-whisper, on-premise. Eine Anwaltskanzlei nimmt Diktate auf – Whisper large-v3 lokal mit WhisperX für Sprecher-Trennung. Ein Voice-Agent für eine Versicherungs-Hotline soll Schweizerdeutsch verstehen – faster-whisper auf GPU im Live-Stream. Ein Berater will Video-Calls automatisch zusammenfassen – Whisper API für Aufnahmen, danach LLM-Summary.

Auch für englisches Audio (z.B. internationale Calls, YouTube-Quellen, Podcast-Transkription) ist Whisper konkurrenzfähig – der Englisch-WER liegt unter 5 Prozent.

Wann NICHT

Für reine Englisch-Anwendungen mit harten Latenz-Anforderungen (< 300 ms) ist Deepgram schneller. Whisper-Cloud-API liefert in 2-5 Sekunden, lokal in 0.5-1 Sekunde – für manche Echtzeit-Use-Cases zu langsam.

Für Walliser- oder Berner-Oberländer-Dialekt mit hohem Akkuratesse-Anspruch ist auch Whisper limitiert (35-45 Prozent WER). Hier hilft eher ein Mensch im Loop oder ein Fine-Tuning auf eigenen Daten.

Wer kein GPU-Hardware-Budget hat und keine Cloud-API nutzen will, sollte sich Whisper-cpp auf CPU genau anschauen – kleinere Modelle (small.de) sind brauchbar, large-v3 ist auf CPU sehr langsam (1-2x Echtzeit).

Für extrem rauscharme Studio-Aufnahmen mit nur einem Sprecher und Hochdeutsch reicht oft schon die kleine base.de-Variante – large-v3 ist dann Overkill.

Vor- und Nachteile

STÄRKEN

  • Einziges STT-System mit verlässlicher Schweizerdeutsch-Erkennung Mai 2026
  • MIT-Lizenz, vollständig lokal lauffähig, kein Cloud-Zwang
  • Drei reife Implementierungen (whisper.cpp, faster-whisper, WhisperX) für jede Hardware
  • 99 Sprachen, robuste Rauschunterdrückung, Wort-Level-Timestamps

SCHWÄCHEN

  • Höhere Latenz als Deepgram für reines Englisch (lokal 0.5-1s, Cloud 2-5s vs. Deepgram 0.3s)
  • large-v3 braucht GPU oder Apple Silicon, auf CPU sehr langsam
  • Dialekte ausserhalb Stadt-Schweizerdeutsch (Wallis, Oberland) weiterhin schwierig
  • Halluzinationen bei sehr leisem oder leerem Audio – sauberes VAD-Vorfiltering nötig

Häufige Fragen

Wie gut versteht Whisper Schweizerdeutsch wirklich?

Mit large-v3 Mai 2026 zwischen 18 und 45 Prozent WER je Region. Zürich, Basel, Bern Stadt: 18-25 Prozent – gut nutzbar für Vor-Sortierung und LLM-Nachbearbeitung. Wallis, Berner Oberland: 35-45 Prozent – schlecht, aber besser als jeder Konkurrent. Tipp: Sprache auf "de" setzen, nicht auf "gsw" (Whisper kennt das Schweizerdeutsch-Tag, transkribiert dann aber ins Hochdeutsche, was meist gewünscht ist).

Cloud-API oder Self-Host: was lohnt sich?

Bei unter 50 Stunden Audio pro Monat: OpenAI-API. Kein Setup, USD 0.006/min, Skaliert nach oben. Bei 50-500 Stunden/Monat: Prüfen, je nach Datenschutz-Anforderung. Bei über 500 Stunden oder Berufsgeheimnis-Inhalten: Self-Host mit faster-whisper auf eigener GPU. Break-Even für eine RTX 4090 (CHF 1800) bei rund 250 Stunden/Monat Whisper-API-Nutzung.

large-v3 oder turbo-v3?

Für Live-Telefonie und Volumen-Transkription: turbo-v3. 8-fach schneller, Recall fällt nur um rund 2-3 Prozent – vertretbar für die meisten Use-Cases. Für juristische Mitschriften, Diktate mit hoher Akkuratesse-Anforderung oder schwieriges Audio (Hintergrund-Lärm, mehrere Sprecher): large-v3. Beide Modelle können parallel betrieben werden – turbo für schnellen ersten Pass, large-v3 für Re-Run bei niedriger Confidence.

Was kostet ein Eigenbau-Whisper-Service pro Monat?

Auf Hetzner mit GPU-Server (z.B. GEX130 mit RTX 4000 Ada, rund CHF 280/Monat) läuft eine Single-Stream-Live-Transkription rund um die Uhr. Batch-Transkription verarbeitet rund 5000 Stunden Audio pro Monat. Eine eigene Workstation (RTX 4090, einmalig CHF 1800) ist nach 6-12 Monaten günstiger, aber ohne Redundanz.

Verwandte Themen

VOICE · SERVICEVoice-Agent am Telefon: KI, die anruft und angerufen wirdBOT & VOICE · TOOL-VERGLEICHBausteine für Chat- und Voice-Bots im Vergleich: Whisper, Deepgram, ElevenLabs, Piper, Twilio, Vapi, Retell, WhatsApp, Rasa, BotpressDEEPGRAM · TECHDeepgram: proprietäre STT-API mit der niedrigsten Latenz im MarktELEVENLABS · TECHElevenLabs: die Branchen-Referenz für natürliche TTS-Stimmen und Voice-CloningPIPER TTS · TECHPiper: das open-source lokale TTS-System für Datenschutz-sensible AnwendungenTWILIO · TECHTwilio: der globale Telefonie-Standard für programmierbare Voice- und SMS-AnwendungenBOTS · SERVICEWhatsApp- & Telegram-Bot: KI, die auf den Kanälen antwortet, die Ihre Kundschaft nutzt

Quellen

  1. OpenAI – Introducing Whisper (model card, large-v3, turbo) · 2026-05
  2. ggerganov/whisper.cpp – GitHub repository and benchmarks · 2026-05
  3. SYSTRAN/faster-whisper – GitHub repository (CTranslate2 inference) · 2026-05
  4. WhisperX (m-bain) – diarisation and forced alignment · 2026-04
  5. Artificial Analysis – Speech-to-Text benchmark leaderboard (German, multilingual) · 2026-05

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen