MULTIMODAL · AI-KONZEPT

Was ist multimodale KI? Bild, Audio, Video plus Text Mai 2026

Multimodale Modelle verarbeiten nicht nur Text, sondern auch Bild, Audio und Video. Mai 2026: GPT-4o, Gemini 2.5 Pro, das aktuelle Claude-Spitzenmodell, Llama 4. Use Cases für Belegerkennung und Schadenfotos.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Was ist multimodale KI?

Multimodale KI bezeichnet Modelle, die mehr als eine Daten-Modalität verarbeiten – typisch Text plus Bild, oft auch Audio, immer häufiger Video. Statt zwei getrennter Systeme (eines für OCR, eines für Sprache) versteht ein multimodales Modell alle Eingaben in einer einheitlichen internen Repräsentation und kann sie zueinander in Beziehung setzen. Wer einem Modell eine Quittungs-PDF und die Frage "Welche Belege sind unvollständig?" gibt, bekommt eine sinnvolle Antwort – das Modell hat das Bild gelesen und die Antwort in Text formuliert.

Die Architektur ist Mai 2026 typisch ein "Late Fusion"-Aufbau: ein spezialisierter Vision-Encoder (oft eine Variante von Vision Transformer, ViT, oder CLIP) verwandelt das Bild in eine Sequenz von Vektoren. Ein Adapter (kleine Brücke) bringt diese Vektoren in das gleiche Format wie Text-Tokens des Sprachmodells. Das Sprachmodell verarbeitet dann Bild- und Text-Tokens in derselben Transformer-Schicht-Sequenz. Für Audio funktioniert das analog mit einem Audio-Encoder (oft Whisper-ähnlich). Video wird typisch als Frame-Sequenz behandelt – 1-2 Frames pro Sekunde reichen für die meisten Aufgaben.

Mai 2026 ist die multimodale Landschaft etabliert:

- GPT-4o / das jeweils aktuelle GPT-Spitzenmodell (OpenAI): nativ multimodal seit Mai 2024, Text + Bild + Audio + Video. Audio-Verständnis und -Generierung in derselben Modell-Instanz. - Gemini 2.5 Pro / Ultra (Google): nativ multimodal seit Anfang, Text + Bild + Audio + Video. Mai 2026 Marktführer in langem Video (60+ Minuten Verständnis). - das aktuelle Claude-Spitzenmodell (Anthropic): Text + Bild seit Claude 3, Audio nicht offiziell, Video über Frame-Extraktion. - Llama 4 Maverick (Meta, Mai 2026): nativ multimodal – Text + Bild über Frame-Sequenz. Open-Weight, Self-Hosting möglich. - Mistral Pixtral 12B (Mistral): Open-Source Text + Bild, deutlich kleiner aber gut für EU-Self-Hosting. - Qwen 2.5 VL (Alibaba): Open-Source Vision-Language, sehr stark in Dokument-OCR.

Für KMU-Nutzer ist die wichtigste Konsequenz: ein einziges Modell kann Belegerkennung, Visitenkarten-Scan, Schadensbild-Analyse und gemischte Frage-Antwort-Workflows abdecken. Vor 2024 brauchte das 4-6 spezialisierte Tools (OCR-Engine, Form-Parser, Spracherkennung, Klassifikator). Heute deckt ein Multimodal-LLM das in einer API ab.

Warum Multimodal-KI für KMU wichtig ist

Multimodale KI löst klassische Schweizer KMU-Probleme direkt. Vier konkrete Bereiche.

Erstens: Belegerkennung statt manueller Erfassung. Eine Treuhand-Mitarbeiterin verbringt typisch 30-60 Minuten pro Mandant und Monat mit Belegerfassung (Quittungen, Rechnungen, Bankauszüge). Mit einem Multimodal-LLM (siehe ai-belegerkennung-ocr) wird das auf 2-5 Minuten Prüfung reduziert. Bei 50 Mandanten und CHF 80/h Mitarbeitenden-Stundensatz: monatlich 35-50 Stunden Einsparung, ca. CHF 30.000-50.000 pro Jahr. Multimodal-LLMs liefern Mai 2026 bei Standard-Belegen (Coop-Quittung, ZKB-Auszug, Migros-Rechnung) über 95% Genauigkeit – Restkontrolle bleibt nötig, aber der Aufwand verschiebt sich von Erfassung zu Validierung.

Zweitens: Schadens-Begutachtung in Versicherungen. Wer ein Schadenfoto und einen Schadenbericht an Gemini 2.5 Pro oder das jeweils aktuelle GPT-Spitzenmodell schickt, bekommt eine erste Bewertung (Schaden-Schwere, plausible Reparatur-Kosten, Fotos-Konsistenz mit Bericht) in 5-15 Sekunden. Schweizer Versicherer integrieren das Mai 2026 in die Erstbearbeitung von Hagel-, KFZ- und Hausrat-Schäden. Die Mitarbeitenden treffen die Endentscheidung, das Modell beschleunigt die Vorbereitung.

Drittens: Sitzungs-Protokolle aus Audio. Eine Vorstandssitzung von 60 Minuten ergibt typisch 3-4 Stunden manuelle Protokoll-Arbeit. Mit Whisper-ähnlichen Audio-Modellen plus LLM-Zusammenfassung sind das 5-15 Minuten Prüfung. Mai 2026 Standard-Stack: OpenAI Whisper Large v3 (Open-Source, Self-Hosting möglich, kostenlos) plus das jeweils aktuelle GPT-Spitzenmodell oder das aktuelle Claude-Spitzenmodell für Strukturierung. Anwaltskanzleien nutzen das für Mandanten-Gespräche, KMU-Vorstände für Verwaltungs-Sitzungen.

Viertens: Visitenkarten-Scan und Adress-Erfassung. Ein einfacher aber unterschätzter Use Case: Foto einer Visitenkarte → strukturierte Kontaktdaten ins CRM. Multimodal-LLMs erledigen das mit >97% Genauigkeit. Über Web-App eingebaut (Bild hochladen → JSON-Output) ist das ein 1-Personen-Tag Entwicklungs-Aufwand.

Kosten Mai 2026. Bild-Tokens werden separat abgerechnet. Typische Preise: das jeweils aktuelle GPT-Spitzenmodell ca. USD 1.30 pro 1.000 Bilder (768x768 Pixel), Gemini 2.5 Pro ca. USD 0.50 pro 1.000 Bilder, Claude Sonnet ca. USD 4.80 pro 1.000 Bilder. Eine Treuhand mit 300 Belegen/Monat zahlt USD 0.15-1.50/Monat für die Bild-Verarbeitung – vernachlässigbar gegenüber den Personal-Stunden, die eingespart werden.

Strategische Konsequenz. Multimodal ist Mai 2026 kein Premium-Feature mehr, sondern Standard. Jedes Projekt, das mit physischen Dokumenten oder Bildern arbeitet, sollte multimodale KI evaluieren – nicht erst später "irgendwann". Die Architektur-Reife ist erreicht.

Multimodale Architektur im Detail

Vier Bausteine machen ein multimodales LLM aus: Vision-Encoder, Adapter, Sprachmodell, Trainings-Daten.

Baustein 1: Vision-Encoder. Ein spezialisiertes neuronales Netz wandelt Bilder in Vektoren. Standard Mai 2026: Vision Transformer (ViT), oft Variante "ViT-Large" oder "ViT-Huge". Ein Bild wird in Patches zerlegt (typisch 14x14 oder 16x16 Pixel pro Patch), jeder Patch wird embedded, alle Patches durchlaufen einen kleinen Transformer (typisch 24-32 Schichten). Output: eine Sequenz von 196-1024 Vektoren pro Bild, je nach Auflösung und Patch-Grösse. CLIP (Contrastive Language-Image Pre-Training, OpenAI 2021) ist die Standard-Variante – ein ViT, der auf Bild-Text-Paaren so trainiert wurde, dass ähnliche Bild- und Text-Vektoren nahe beieinander liegen. Mai 2026 fast alle multimodalen LLMs nutzen CLIP-ähnliche Vision-Encoder.

Baustein 2: Adapter. Die Vision-Encoder-Vektoren sind nicht im selben Format wie die Text-Tokens des Sprachmodells (andere Dimension, andere Verteilung). Ein Adapter – typisch ein kleines MLP mit 2-4 Schichten oder eine Cross-Attention-Schicht – übersetzt sie. Resultat: aus dem Bild werden "Bild-Tokens", die das Sprachmodell wie Text-Tokens behandeln kann. Mai 2026 typisch 196-512 Bild-Tokens pro Bild, je nach Architektur. Diese Anzahl ist relevant für die Kosten – ein Bild kostet so viel wie 196-512 Text-Tokens.

Baustein 3: Sprachmodell. Das eigentliche LLM (Llama, GPT, Claude, Mistral, Gemini-Architektur) verarbeitet jetzt eine Sequenz aus Bild-Tokens und Text-Tokens. Aus Sicht des Modells ist die Sequenz ein einheitlicher Input. Self-Attention (siehe was-ist-attention-mechanismus) verbindet Bild und Text – das Modell lernt, "Wort 5 bezieht sich auf das Objekt im linken oberen Teil des Bildes". Die Antwort ist immer Text – also Tokens, die das LLM autoregressiv generiert.

Baustein 4: Trainings-Daten und Verfahren. Multimodale Modelle haben drei zusätzliche Trainings-Phasen über das reine Text-Pretraining hinaus:

- Vision-Encoder-Pretraining: CLIP trainiert auf 400 Millionen bis 2 Milliarden Bild-Text-Paaren aus dem Web – Bildunterschriften, Alt-Texte, Captions. Ergebnis: ein robust trainierter Vision-Encoder mit broad semantic understanding. - Multimodal Pretraining: das LLM wird mit Bild-Text-Paaren weiter trainiert, sodass es lernt, Bild-Tokens und Text-Tokens in einem gemeinsamen Kontext zu verarbeiten. Typische Datenmenge: 1-10 Milliarden Bild-Text-Paare. - Multimodal Fine-Tuning und RLHF: das Modell wird auf spezifischen Aufgaben (OCR, Bildunterschrift, Visual Q&A, Document Understanding) und Präferenz-Daten weiter trainiert.

Audio und Video Mai 2026. Audio funktioniert analog mit einem Audio-Encoder (oft eine Variante von Whisper, einer OpenAI-Architektur für Spracherkennung). Audio wird in Mel-Spektrogramme verwandelt, dann durch den Encoder geschickt, dann über Adapter ins LLM. Video ist Mai 2026 typisch Frame-Extraktion plus Bild-Verarbeitung – 1-2 Frames pro Sekunde, jeder als Bild verarbeitet. Echte "Video-native" Modelle (mit temporaler Aufmerksamkeit) existieren Mai 2026 nur bei Google (Gemini 2.5 Pro/Ultra) – andere Anbieter behandeln Video als Frame-Sequenz.

Multimodal-KI verstehen in 5 Schritten

01Verstehen Sie die Architektur: Vision-Encoder (CLIP-ähnlich) plus Adapter plus Sprachmodell – Bild wird zu Tokens, Sprachmodell antwortet in Text.
02Prüfen Sie die Anbieter-Landschaft Mai 2026: das jeweils aktuelle GPT-Spitzenmodell, Gemini 2.5 Pro, das aktuelle Claude-Spitzenmodell (Cloud) plus Llama 4, Pixtral, Qwen 2.5 VL (Self-Hostable).
03Identifizieren Sie Use Cases im eigenen Haus: Belegerkennung, Schaden-Fotos, Sitzungs-Audio, Verträge, Visitenkarten.
04Schätzen Sie Kosten: typisch USD 0.5-5 pro 1000 Bilder bei Cloud-Anbietern, Self-Hosting bei hohem Volumen günstiger.
05Prüfen Sie Compliance: Mandanten-Akten und Berufsgeheimnis können Self-Hosting erzwingen – prüfen Sie EU-Zonen, AVV und Open-Source-Alternativen.

Wann multimodale KI die richtige Wahl ist

Fünf klare KMU-Anlässe, in denen multimodale KI den Aufwand und Wartezeit kürzt.

Anlass 1: Beleg- und Rechnungs-Erfassung. Treuhand, Buchhaltung, Bauwesen. Foto oder Scan von Quittung/Rechnung → strukturierte JSON-Daten (Betrag, MWST, Datum, Lieferant, Buchungs-Kategorie-Vorschlag). Mai 2026 das jeweils aktuelle GPT-Spitzenmodell und Gemini 2.5 Pro liefern bei Schweizer Standard-Belegen >95% Genauigkeit. Restkontrolle bleibt nötig, aber Erfassungs-Zeit fällt um Faktor 5-10. Siehe ai-belegerkennung-ocr für Implementation-Details.

Anlass 2: Schaden-Foto-Analyse. Versicherung, Schaden-Begutachtung. Schaden-Foto + Schaden-Bericht → Bewertung (Schaden-Schwere, Reparatur-Kosten-Schätzung, Foto-Berichts-Konsistenz). Gemini 2.5 Pro führt Mai 2026 in Schaden-Begutachtungs-Tests – sehr stark in der Erkennung von Hagel-Schäden, KFZ-Beulen, Wasserschaeden. Output: ein strukturierter Vorgehensvorschlag für den menschlichen Sachbearbeiter.

Anlass 3: Vertrag- und Dokument-Analyse. Anwalt, Treuhand, Compliance. PDF-Vertrag (oft Mix aus Text und Tabellen) → strukturierter Inhalts-Abriss mit Klausel-Klassifikation, Risiko-Hinweisen, Vergleich zu Standard-Vorlagen. Multimodal-LLMs können PDF-Bilder (gescannte Verträge) direkt verarbeiten, ohne separates OCR. Sehr nützlich bei Alt-Verträgen mit handgeschriebenen Anmerkungen.

Anlass 4: Sitzungs- und Termin-Protokolle. Vorstand, Mandanten-Gespräch, Behörden-Termine. Audio-Aufzeichnung → Transkript (Whisper) → strukturiertes Protokoll mit Aufgaben-Liste, Beschluessen, nächsten Terminen. Mai 2026 Standard-Latenz: 60-Min-Audio → fertiges Protokoll in 3-5 Minuten Compute. Whisper Large v3 plus das aktuelle Claude-Spitzenmodell oder das jeweils aktuelle GPT-Spitzenmodell ist die typische Pipeline.

Anlass 5: Mehrsprachige visuelle Kommunikation. Tourismus, Hotellerie, internationale KMU. Foto eines mehrsprachigen Schildes/Menus + Frage → Übersetzung und Erklärung. Foto einer Speisekarte + "Was ist vegan, glutenfrei?" → strukturierte Antwort. Foto eines Gebrauchs-Etiketts + "Wie lange ist das haltbar?" → Datums-Extraktion und Auslegung. Multimodal-LLMs in mobilen Apps sind Mai 2026 sehr stark für solche Anwendungen.

Anlass 6: Visitenkarten und Adress-Erfassung. Vertrieb, Networking. Foto Visitenkarte → Kontakt-Datensatz im CRM. >97% Genauigkeit bei Standard-Schweizer Visitenkarten. Sehr einfach zu implementieren – typisch ein 1-Personen-Tag für Web-App-Integration.

Wann multimodale KI nicht die richtige Wahl ist

Drei Fälle, in denen klassische Lese-Tools oder Spezial-OCR besser passen.

Erstens: hochstrukturierte Industrie-Belege mit bestehender OCR-Lösung. Wer bereits ein produktives ABACUS/Bexio/Sage-OCR mit 99%+ Genauigkeit für Standard-Belege hat, gewinnt durch Wechsel auf Multimodal-LLM oft nicht viel. Vorteil entsteht nur bei Misch-Belegen, Handschrift oder gemischtem Layout. Prüfen Sie pro Beleg-Typ, ob die bestehende Lösung tatsächlich Engpass ist.

Zweitens: Höchst-Sensible Mandanten-Akten ohne Compliance-Architektur. Multimodal-LLMs sind Mai 2026 vorwiegend US-Cloud (GPT, Claude, Gemini). Wer Mandanten-Akten unter Berufsgeheimnis (StGB Art. 321) verarbeitet, braucht eine Compliance-Architektur (EU-Zonen, AVV, Sub-Auftragsverarbeiter-Kette). Open-Source-Alternativen (Llama 4 Multimodal, Pixtral, Qwen 2.5 VL) sind self-hostable, aber 5-15% Qualitäts-Differenz im Vergleich zu dem jeweils aktuellen GPT-Spitzenmodell/Gemini.

Drittens: Echtzeit-Massenscan-Anwendungen mit harten Latenz-Anforderungen. Wer 5000 Belege pro Stunde mit unter 200ms Latenz pro Beleg braucht (Industrie-Scan-Strasse), ist mit klassischer OCR (Tesseract, Google Document AI, AWS Textract) besser bedient. Multimodal-LLMs sind Mai 2026 typisch 1-5 Sekunden pro Bild – gut für 100-500 Belege/Stunde, nicht für 5000/Stunde.

Falle "Multimodal ersetzt alle OCR-Tools". Nein. Spezial-OCR für Numerik (Zahlen-Extraktion aus Tabellen), Barcode-Scan, QR-Code, Strichcode bleibt schneller und genauer als Multimodal-LLM. Multimodal-LLM ergänzt klassische OCR – kombinieren ist Mai 2026 oft die beste Architektur.

Falle "Multimodal-LLM versteht jede Sprache". Mai 2026 deutlich besser als 2024, aber nicht perfekt. Asiatische Schriften (Chinesisch, Japanisch, Koreanisch) sind in den Top-Modellen gut, Arabisch und Hebraeisch akzeptabel, exotischere Schriften (Thai, Vietnamesisch, indische Schriften) variabel. Für EU-CH-DE-FR-IT-EN-Anwendungen Mai 2026 keine Sorge.

Falle "Multimodal-LLM versteht alle Bilder gleich". Strichcodes, OCR-Code-Felder, Hand-Diagramme, technische Pläne haben Mai 2026 noch Schwächen. Photo-Realismus ist sehr gut, abstrakte Symbolik und technische Notation moderat.

Vor- und Nachteile

STÄRKEN

Ein Modell ersetzt 4-6 spezialisierte Tools (OCR, Form-Parser, Spracherkennung, Klassifikator)
Direkt verständliche Anweisungen ("Extrahiere Betrag und MWST aus diesem Beleg")
Sehr gute Qualität bei Standard-Belegen und Schaden-Fotos Mai 2026
Self-Hosting möglich via Llama 4, Pixtral, Qwen 2.5 VL für Compliance

SCHWÄCHEN

Bild-Tokens kosten extra – 1 Bild = 1.5-3 A4-Seiten Text-Äquivalent
Latenz 1-5 Sekunden pro Bild – nicht für Massenscan-Strasse
Spezial-OCR (Barcodes, Strichcodes, technische Notation) bleibt schwach
Compliance-Risiko bei Cloud-Anbietern für hochsensible Daten

Häufige Fragen

Welches multimodale Modell ist das beste für Belegerkennung Mai 2026?

In unabhängigen Tests führen Mai 2026 Gemini 2.5 Pro (sehr stark bei Schweizer Belegen, niedriger Preis) und das jeweils aktuelle GPT-Spitzenmodell (etwas teurer, aber sehr verlässliche JSON-Ausgabe). Das aktuelle Claude-Spitzenmodell ist solide aber teurer. Für Self-Hosting: Qwen 2.5 VL (Open-Source, sehr stark bei Dokumenten) und Llama 4 Maverick (Open-Weight, multimodal). Prüfen Sie immer mit 30-50 Ihren eigenen Belegen – synthetische Benchmarks treffen Ihren Beleg-Mix selten.

Kann ich Video direkt zu einem Multimodal-LLM schicken?

Eingeschränkt. Mai 2026 führt Gemini 2.5 Pro/Ultra in nativer Video-Verarbeitung – Videos bis 60 Minuten Länge mit temporaler Aufmerksamkeit. Andere Anbieter (das jeweils aktuelle GPT-Spitzenmodell, das aktuelle Claude-Spitzenmodell) verarbeiten Video als Frame-Sequenz: typisch 1-2 Frames pro Sekunde extrahieren und als Bilder einspeisen. Für 90% der Anwendungen reicht das. Echte Video-native-Anwendungen (Bewegungs-Analyse, Audio-Video-Korrelation) bleiben Gemini-Domäne Mai 2026.

Was kostet ein Bild im Vergleich zu Text?

Ein Standard-Bild (768x768 oder 1024x1024) wird als 196-512 Bild-Tokens abgerechnet. Bei das jeweils aktuelle GPT-Spitzenmodell USD 1.25 Input pro 1M Tokens kostet ein Bild ca. USD 0.0003-0.0006 – also ein Bild = etwa 1.5-3 A4-Seiten Text. Gemini 2.5 Pro ist günstiger (USD 0.0002-0.0004 pro Bild), das aktuelle Claude-Spitzenmodell teurer (USD 0.001-0.002 pro Bild). Für Treuhand mit 300 Belegen/Monat: USD 0.10-0.60/Monat Bild-Kosten.

Kann ich multimodale KI komplett self-hosten?

Ja. Mai 2026: Llama 4 Maverick (Open-Weight, multimodal, 400B/17B MoE), Pixtral Large (Mistral, multimodal), Qwen 2.5 VL (sehr stark bei Dokumenten). Hardware-Bedarf: 1-2 H100-80GB GPUs für Mittelklasse-Modelle. Für Compliance-kritische Schweizer Anwendungen (Mandanten-Akten, Berufsgeheimnis) ist Self-Hosting die einzige saubere Option. Qualitäts-Differenz zu Cloud-Top-Modellen: 5-15% in unabhängigen Tests.

Quellen

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen