fairlane.systems

MULTIMODAL · TREND 2026

Trend Multimodale LLMs 2026: Bild, Audio und Video als Standard-Eingaben

Mai 2026: GPT-4o, das aktuelle Claude-Spitzenmodell und Gemini 2.5 Pro lesen Bilder, hören Sprache und verstehen Video. Was das für Treuhand und Beleg-Workflows konkret heisst.

Recherche & Faktencheck: · Stand: 2026-05

Was bedeutet multimodal im Mai 2026?

Multimodale Sprachmodelle nehmen mehr als Text als Eingabe entgegen. Mai 2026 ist Multimodalität bei allen Top-Anbietern Standard, nicht mehr Premium-Feature. Konkret unterstützen die führenden Modelle:

Bild (Vision): GPT-4o (OpenAI, Mai 2024), Claude 3.5 Sonnet und das aktuelle Claude-Spitzenmodell (Anthropic, Mai 2025 bzw. März 2026), Gemini 2.5 Pro (Google, April 2026), Llama 4 Maverick (Meta, April 2025). Alle können JPEG, PNG, PDF-Seiten und Screenshots interpretieren – von Belegfotos über Tabellen-Scans bis zu Whiteboard-Aufnahmen.

Audio (Voice): OpenAI Realtime API (GA Oktober 2024, GPT-4o Audio) verarbeitet Sprache mit Latenz unter 300 ms und antwortet selbst per Audio. Gemini 2.5 Pro Live (März 2026) bietet eine vergleichbare Bidirektional-Schnittstelle. Anthropic hat für Mitte 2026 ein eigenes Voice-Angebot angekündigt, aber im Mai 2026 ist es noch nicht GA.

Video: Gemini 2.5 Pro nimmt Video bis 2 Stunden Länge entgegen (Eingabe-Kontext bis 2 Mio Tokens, davon ca. 1 Token pro Frame bei 1 FPS). GPT-4o akzeptiert Video als Frame-Reihe (max 50 Frames pro Anfrage). Das aktuelle Claude-Spitzenmodell unterstützt Mai 2026 nur Standbild-Sequenzen, keine vollen Video-Streams.

Warum es wichtig ist

Multimodalität verändert drei Workflows in Treuhand- und Anwaltsbüros spürbar.

Erstens Belegverarbeitung: Wer Mai 2026 noch klassische OCR-Pipelines (ABBYY, Tesseract) betreibt, hat häufig drei Stufen – Scan, OCR, Regel-Extraktion. Mit das aktuelle Claude-Spitzenmodell oder GPT-4o Vision wird das eine Stufe: das Modell sieht das Foto, extrahiert Datum, MWST-Satz, Beleg-Nummer und Kontierungs-Vorschlag in einem Aufruf. Mandanten können Belege per Smartphone fotografieren, ohne dass jemand sie davor noch glaettet oder einscannt. Anbieter wie Bexio und Klara haben das im ersten Quartal 2026 in ihre Apps integriert.

Zweitens Termin-Vorbereitung per Voice: Ein Treuhänder könnte im Auto auf dem Weg zum Mandanten die nächste Stunde per Sprachdialog vorbereiten. "Welche offenen Punkte hatten wir letzte Sitzung? Wie hat sich die Liquidität seither entwickelt?" Voice-Mode liefert die Antwort sofort. Datenschutz-Vorbehalt: aufgenommener Audio-Strom geht typischerweise an den Provider – für Mandantendaten unter Berufsgeheimnis nur mit DPA und EU-Region erlaubt.

Drittens Video-Beweisaufnahme: Im Anwaltsumfeld erlaubt Gemini 2.5 Pro die Analyse von Überwachungsvideo oder Sitzungsmitschnitten bis 2 Stunden. Wichtig für Mai 2026: solche Auswertungen sind in der Schweiz nach revFADP nur zulässig, wenn die Personen, die im Video erscheinen, vor Aufzeichnung informiert wurden, und die Datenverarbeitung dokumentiert ist.

Wie es funktioniert

Technisch nutzen multimodale Modelle dieselbe Transformer-Architektur wie reine Text-Modelle, ergänzt um spezialisierte Encoder für die jeweilige Eingabemodalität.

Bild: Ein Vision-Encoder (oft ViT-basiert) zerlegt das Bild in Patches (z.B. 14x14 Pixel-Blöcke), wandelt jeden Patch in einen Token und reicht die Token-Sequenz an das Sprachmodell weiter. GPT-4o nutzt rund 170-1000 Tokens pro Bild abhängig von Auflösung; das aktuelle Claude-Spitzenmodell rund 1500-1600 Tokens für ein A4-Dokument. Kostenfolge: ein A4-Beleg kostet ungefähr so viel wie eine 1000-Wörter-Text-Anfrage.

Audio: GPT-4o nutzt einen Audio-Encoder, der 16 kHz Mono-Audio in ca. 50 Tokens pro Sekunde umwandelt. Eine 1-Minute-Sprachnotiz kostet rund 3000 Eingabe-Tokens. Die Realtime API streamt bidirektional, sodass Voice-Output schon während der Anfrage zurückkommt.

Video: Gemini 2.5 Pro sampled standardmässig 1 Frame pro Sekunde plus den Audio-Track. Eine 1-Stunden-Aufnahme ergibt ca. 3600 Bild-Tokens plus die Audio-Spur. Bei 2-Mio-Token-Kontext bleibt Platz für Anweisungen und Antwort. Wichtig: Gemini sampled gleichmässig; bewegungsreiche Szenen können Details verlieren. Wer Frame-genaue Analyse braucht, gibt die kritischen Sekunden als Einzel-Standbilder zusätzlich rein.

Unter dem Modell läuft die Antwort wieder als Token-Sequenz. Wer eine JSON-Ausgabe erwartet, kombiniert das mit Structured-Outputs (siehe Output-Formatierung).

Trend beobachten und einsetzen in 5 Schritten

  1. 01Marktbeobachtung: monatlich die Pricing- und Modell-Änderungs-Seiten von Anthropic, OpenAI und Google Cloud durchgehen. Achten auf Token-Kosten je Bild/Audio/Sekunde und neue Modalitäten.
  2. 02Use-Case-Inventar: identifizieren, wo in der eigenen Firma heute Bild-, Audio- oder Video-Material per Hand in Text umgewandelt wird (Belege, Sprachnotizen, Termin-Mitschnitte). Stück-Volumen schätzen.
  3. 03Pilot mit dem billigsten passenden Modell: für Belege das aktuelle Claude-Spitzenmodell oder GPT-4o testen, nicht direkt Opus oder GPT-4.5. Strukturierter JSON-Output mit Beispielen und Schema vorgeben.
  4. 04Datenschutz-Check: pro Use Case prüfen, ob die Daten überhaupt das Haus verlassen dürfen. Belege ohne Personendaten – meist unproblematisch. Audio-Mandantengespräche – DPA pflicht, Region EU.
  5. 05Vergleich gegen Spezial-Tools: für reine Belegerkennung Cloud-OCR (Google Document AI, AWS Textract) als Baseline messen. Multimodales LLM nur ausrollen, wenn es die Qualität erreicht und die Tokenkosten den Workflow-Gewinn rechtfertigen.

Wann multimodale Modelle einsetzen

Multimodale Modelle sind die richtige Wahl, wenn (a) die Originalinformation ohnehin nicht in Text-Form vorliegt, (b) die Konversion in Text nicht trivial wäre und (c) der wirtschaftliche Wert pro Vorgang die Token-Kosten der Bild- oder Audio-Verarbeitung rechtfertigt.

Konkrete Anwendungsfälle, die Mai 2026 in CH-KMU laufen: Belege per Smartphone-Foto in Bexio/Abacus buchen (Bild). Sprachnotizen nach Mandanten-Terminen in eine strukturierte CRM-Notiz umwandeln (Audio). Tabellen-Scans aus Lohnabrechnungen auswerten, ohne sie vorher über separates OCR zu schicken (Bild). Schadensfotos in der Versicherung kategorisieren (Bild).

Für Bild-Workflows hat Claude (Vision) Mai 2026 einen leichten Qualitätsvorsprung bei Layout-stark strukturierten Dokumenten (Belege, Tabellen, Formulare). GPT-4o Vision ist stärker bei freier Bild-Interpretation (Schadensfotos, Whiteboard, handschriftliche Notizen). Für Video ist Gemini 2.5 Pro praktisch konkurrenzlos, für Voice die OpenAI Realtime API.

Wann NICHT

Multimodale Modelle sind die falsche Wahl, wenn die Eingabe ohnehin bereits in sauberem Text vorliegt – dann ist klassisches Text-LLM billiger und schneller. Wenn die Bild-Verarbeitung absolute Genauigkeit braucht (z.B. Rechnungsbeträge auf den Rappen genau ohne Halluzination), sollte man die Modellauswertung gegen klassische OCR-Engines (Tesseract, Google Document AI, AWS Textract) testen – die liefern in Buchungstexten oft die zuverlässigeren Ziffern, das LLM bringt die Kontierung dazu.

Weitere Fälle, in denen Mai 2026 abgeraten wird: Audio-Verarbeitung von Mandantengesprächen über Cloud-APIs ohne DPA – das verletzt StGB Art. 321 und revFADP. Video-Auswertung von Überwachungsmaterial in der Schweiz ohne dokumentierte Rechtsgrundlage. Streaming-Voice-Anwendungen, die über eine WSL/VPN-Verbindung mit hohem Jitter laufen – die Realtime API quittiert das mit Disconnects und unverständlichen Antworten.

Kosten-Falle: Bild-Tokens kosten je Modell sehr unterschiedlich. Ein A4-Beleg bei dem aktuellen Claude-Spitzenmodell (USD 3 Input pro 1M Tokens) kostet rund USD 0.005, bei GPT-4o (USD 2.50 Input pro 1M Tokens) etwa USD 0.003. Bei 5000 Belegen pro Monat sind das USD 15-25 – vertretbar. Wer das gleiche Volumen mit Claude Opus (USD 15 Input pro 1M Tokens) macht, landet bei USD 100+, ohne Qualitätsgewinn für diese Aufgabe.

Vor- und Nachteile

STÄRKEN

  • Spart die separate OCR-Stufe – Bild-zu-Buchung in einem Aufruf
  • Voice-Mode reduziert Latenz auf unter 300 ms – natürliche Dialoge möglich
  • Video-Verstehen bis 2 Stunden Länge (Gemini) erschliesst Sitzungsmitschnitte als Datenquelle
  • Kosten pro Beleg unter CHF 0.01 bei den gängigen Sonnet-/4o-Klassen

SCHWÄCHEN

  • Bild-Tokens kosten je Modell stark unterschiedlich – Vorsicht bei Opus-Class auf Belegen
  • Audio-Streams unter Berufsgeheimnis nur mit DPA und EU-Region akzeptabel
  • Video-Sampling kann bewegungsreiche Details verlieren
  • Halluzinations-Quote auf freien Bildern (Skizzen, Schaden) noch 10-20%

Häufige Fragen

Welches Modell für Belege Mai 2026?

Erstwahl Claude Sonnet, Alternative GPT-4o. Beide liefern bei sauberen Smartphone-Fotos > 95% korrekte Feld-Extraktion (Datum, Betrag, MWST). Bei schlecht beleuchteten oder geknitterten Belegen geht Claude leicht zurück (88-92%), GPT-4o etwas tiefer (85-90%). Tesseract als reine OCR-Baseline liegt unter 80%. Wenn die Buchungstexte den letzten Rappen brauchen, kombiniere LLM-Vision mit Document AI als zweite Quelle.

Kann ich die OpenAI Realtime API für Mandantengespräche nutzen?

Mai 2026: technisch ja, rechtlich nur mit Vorsicht. OpenAI bietet einen DPA und die EU-Daten-Residency-Option für Enterprise-Tier an. Berufsgeheimnis nach StGB Art. 321 verlangt eine explizite Mandanten-Einwilligung pro Aufzeichnung, ein dokumentiertes Löschkonzept und idealerweise einen Schweizer Hosting-Vermittler. Wer das nicht stemmen kann, verwendet Voice-Mode nur für interne Meetings ohne Mandanten-Anwesenheit.

Wie hoch sind die Kosten für 1 Stunde Video bei Gemini 2.5 Pro?

Eine Stunde Video bei Standardsampling (1 FPS) ergibt ca. 3600 Bild-Tokens plus Audio-Spur. Bei Gemini 2.5 Pro (USD 1.25 Input pro 1M Tokens bis 200k Kontext, USD 2.50 darüber) sind das pro Stunde ca. USD 0.10-0.15 Input. Output liegt typischerweise bei wenigen tausend Tokens, also unter USD 0.05. Gesamt pro Stunde Video: rund USD 0.15-0.25.

Halluziniert Vision mehr als Text?

In strukturierten Dokumenten (Belege, Tabellen) ist die Halluzinations-Quote vergleichbar zu Text – unter 5% bei dem aktuellen Claude-Spitzenmodell. In freien Bildern mit ambivalenter Interpretation (Skizzen, schlechte Aufnahmen) steigt sie auf 10-20%. Gegenmittel: strukturierter JSON-Output mit Pflicht-Feldern und "unbekannt"-Option, plus Citation-Prüfung beim Beleg ("zeige mir das Feld, aus dem du diesen Wert gelesen hast").

Verwandte Themen

MULTIMODAL · AI-KONZEPTWas ist multimodale KI? Bild, Audio, Video plus Text Mai 2026BELEG-OCR · ANWENDUNGSFALLKI-Belegerkennung für Schweizer Belege: QR-Rechnung, Quittungen, PDF-Rechnungen strukturiert erfassenVOICE · SERVICEVoice-Agent am Telefon: KI, die anruft und angerufen wirdJSON & STRUCTURED OUTPUT · AI-KONZEPTOutput-Formatierung und JSON-Modus: Function-Calling, Pydantic, Instructor, OutlinesrevDSG · TREUHAND-COMPLIANCErevDSG und KI im Treuhand-Büro: AVV, Datenkategorien, EDÖB-Position, GwG-PraxisTOKEN-PRICING · KOSTENToken-Kosten erklärt: Input, Output, Cache, Provider-Vergleich Mai 2026TREUHAND · BRANCHEN-HUBKI für Treuhandbüros in der Schweiz: ein praktischer Leitfaden

Quellen

  1. OpenAI Platform – GPT-4o and Realtime API model docs · 2026-05
  2. Anthropic – the current top Claude model model card and vision pricing · 2026-03
  3. Google Cloud – Gemini 2.5 Pro multimodal documentation · 2026-04
  4. Meta – Llama 4 multimodal release notes · 2025-04
  5. Bexio – Receipt scan-by-phone announcement (release notes) · 2026-02

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen