OCR · AI-KONZEPT
OCR für Belege und Verträge: Tesseract, AWS Textract, Azure DI, Google DocAI, Mistral OCR, Reducto
Welche OCR-Engine für gescannte Verträge, Belege und Formulare im Mai 2026 sinnvoll ist: Genauigkeit, Preis, EU-Hosting, DSG-Tauglichkeit und Use-Case-Empfehlungen.
Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05
Was ist OCR?
OCR (Optical Character Recognition) verwandelt Bilder oder gescannte Seiten in maschinenlesbaren Text. Im Mai 2026 ist OCR nicht mehr "Zeichen erkennen", sondern Layout-Verstehen: Tabellen, mehrspaltige Texte, handschriftliche Anmerkungen, Stempel, Unterschriften, Kontrollkaestchen. Moderne Engines kombinieren CNN-basierte Zeichen-Erkennung mit Vision-Transformern für Layout-Analyse und LLMs für semantische Nachkorrektur.
Fünf grosse Cloud-Anbieter (AWS Textract, Azure Document Intelligence, Google Document AI, Mistral OCR, Reducto AI) dominieren das Premium-Segment. Tesseract bleibt der Open-Source-Standard für einfache Fälle. Bei spezialisierten Domains (Rechnungen, Ausweise) gibt es Boutique-Lösungen wie ABBYY, Rossum, Klippa, die über reine OCR hinaus strukturierte Extraktion liefern.
Die Wahl hängt von vier Achsen ab: Genauigkeit auf dem Ziel-Belegtyp, Preis pro Seite, EU- oder Schweiz-Hosting-Option, und Output-Format (Plain-Text vs. strukturiertes JSON mit Bounding-Boxes). Für Treuhand und Anwalt ist Hosting der entscheidende Filter: Tesseract lokal, Mistral OCR mit EU-Hosting (Mai 2026), Azure DI in Switzerland-Region oder ABBYY on-prem sind die rechtssicheren Optionen.
Warum es wichtig ist
In jedem Treuhand-Büro und jeder Anwaltskanzlei landen täglich gescannte Belege: Quittungen aus dem Ausland, handschriftliche Vertragsergänzungen, Behörden-Schreiben mit Stempel, alte Mandats-Akten aus dem Archiv. Ohne OCR sind diese Dokumente für eine RAG-Pipeline unsichtbar. Mit schlechtem OCR landen Mandanten-Adresse falsch, Beträge werden verdreht (0/O, 1/I/l-Verwechslungen), und die KI-Antwort beruht auf phantomerten Zahlen.
Die Genauigkeit ist im Mai 2026 deutlich besser als noch vor drei Jahren. Premium-Cloud-Engines erreichen auf maschinengeschriebenen Texten 99 bis 99.8 Prozent Zeichengenauigkeit, auf handschriftlichen Texten 85 bis 95 Prozent. Tesseract liegt bei 92 bis 97 Prozent auf maschinengeschrieben (mit gutem Vorverarbeitungs-Setup), fällt aber auf 60 bis 75 Prozent bei Handschrift ab.
Kritisch ist nicht die Standard-Genauigkeit, sondern die Behandlung von Edge Cases: schief gescannte Seiten, faxbedingte Verzerrungen, durchscheinende Rückseiten, eingedunkelte Bereiche durch Stempel, gemischte Sprachen (DE/FR auf einem Steuerformular). Hier zeigen sich die Unterschiede. AWS Textract glänzt bei Tabellen, Azure DI bei Formularen mit Schlüssel-Wert-Paaren, Google DocAI bei mehrsprachigen Behördendokumenten, Mistral OCR bei layout-treuer Markdown-Extraktion, Reducto AI bei komplexen Bilanz-Tabellen.
Die DSG-Tauglichkeit ist der harte Filter. Belege enthalten oft Personendaten (Name, Adresse, AHV-Nummer, Bankverbindung). Cloud-OCR-Anbieter ausserhalb der Schweiz brauchen einen Vertrag zur Auftragsbearbeitung (AVV), Transfer-Impact-Assessment bei US-Provider und idealerweise EU- oder Schweiz-Region.
Wie es funktioniert
Tesseract (Apache 2.0): lokal lauffähig, kein Cloud-Risiko. Vorverarbeitung (Binarisierung, Deskew, Despeckle) entscheidet über die Qualität. Tesseract 5.x mit LSTM-Modell und der richtigen Sprach-Datei (deu, fra, ita) ist solide für maschinengeschriebene Texte. Layout-Erkennung schwach.
AWS Textract: Cloud-only (USA, Frankfurt-Region verfügbar). Liefert Plain-Text, Tabellen-Struktur und Formular-Felder mit Bounding-Boxes. Preis: ca. 1.50 USD pro 1000 Seiten für Text-Detection, 15 USD pro 1000 für Analyze-Document mit Tabellen. Sehr gut bei Tabellen.
Azure Document Intelligence: Cloud (Switzerland North verfügbar seit 2024). Vortrainierte Modelle für Rechnungen, Quittungen, Ausweise, Kontoausschuege. Preis: ca. 50 USD pro 1000 Seiten für das Layout-Modell, 10 USD pro 1000 für Read. Beste Wahl, wenn EU/CH-Hosting nicht verhandelbar ist.
Google Document AI: Cloud (EU-Region). Spezialisierte Prozessoren für Lieferanten-Rechnungen, Gehaltsabrechnungen, Steuerformulare. Preis: 30 USD pro 1000 Seiten für den Basismodell. Stark bei mehrsprachigen Behörden-Dokumenten.
Mistral OCR (Mai 2026, EU-Hosting): neue Engine mit Long-Context-Vision-Transformer, ausgegeben als Markdown plus JSON. Preis: ca. 3 USD pro 1000 Seiten. Sehr stark bei Layout-treuer Konvertierung. Schweizer Daten bleiben bei Mistral La Plateforme in der EU.
Reducto AI: US-Startup, Premium-Tier für komplexe Bilanz- und Finanztabellen. 1 bis 2 US-Cent pro Seite. Mai 2026 wurde eine EU-Hosting-Option angekündigt.
Für Belege-Heavy-Pipelines (Treuhand) empfehlen wir einen mehrstufigen Ansatz: zuerst günstige Engine (Mistral OCR, Tesseract), dann Confidence-Score prüfen, dann nur Low-Confidence-Seiten an Premium-Engine weiterleiten. Das halbiert die Kosten ohne Qualitätsverlust. Für Vertrags-OCR raten wir zu Layout-treuer Extraktion (Mistral OCR, Azure DI Layout) plus LLM-Nachkorrektur, die Zeichen wie "0/O" anhand des Kontextes disambiguiert.
OCR-Workflow in 6 Schritten
- 01Beleg-Typen klassifizieren: Quittung, Rechnung, Vertrag, Behördenschreiben, Handschrift. Pro Typ separate Pipeline.
- 02Vorverarbeitung: Deskew, Denoise, Auflosung normalisieren auf 300 dpi. ImageMagick oder OpenCV.
- 03Engine-Wahl pro Typ: Mistral OCR als Default, Tesseract für einfach, Azure DI für Formulare, Reducto für Komplextabellen.
- 04Confidence-Score nutzen: Seiten unter 90 Prozent Confidence in Review-Queue oder an Premium-Engine eskalieren.
- 05Strukturierte Extraktion nachgelagert: LLM (Claude Sonnet) extrahiert pro Belegtyp die Schlüssel-Felder (Datum, Betrag, MWST-Nummer).
- 06Audit-Trail: Original-Bild, OCR-Output, Confidence-Score, LLM-Extraktion, manuelle Korrektur. Unveränderbar speichern für Art. 957a OR.
Wann welche Engine
Tesseract: bei strikten On-Prem-Vorgaben, kleinen Mengen, einfachen Belegen. Vorverarbeitung muss sitzen.
Mistral OCR mit EU-Hosting: Default-Empfehlung im Mai 2026 für Schweizer Treuhand und Anwalt. Layout-Treue, günstig, DSG-konform.
Azure Document Intelligence Switzerland North: wenn Microsoft-Stack ohnehin im Einsatz ist, Spezialprozessoren für Rechnungen und Quittungen gebraucht werden.
AWS Textract: wenn AWS-Stack steht und Tabellenextraktion das wichtigste Feature ist. Frankfurt-Region nutzen.
Google Document AI: bei mehrsprachigen Behördendokumenten, Lieferantenrechnungen mit Vortraining.
Reducto AI: für komplexe Bilanztabellen, wenn die Mandanten-Freigabe für US-Cloud vorliegt.
ABBYY FineReader Engine on-prem: für höchste Genauigkeit auf Papier-Archiven mit Mischformaten, wenn die Lizenzkosten (ab CHF 5000) tragbar sind.
Wann gar kein OCR
Wenn die Dokumente bereits digital vorliegen (Text-PDF, DOCX, EML): kein OCR nötig, ein Document Loader (siehe document-loaders-formate) reicht. OCR auf einem Text-PDF ist Verschwendung und reduziert die Qualität (Zeichen-Erkennung statt direkter Text-Extraktion).
Für reine Bild-Inhalte ohne Text (Fotos, Diagramme, Skizzen) ist OCR sinnlos. Hier brauchen Sie Vision-Embeddings (multimodale Modelle) oder eine eigene Image-Caption-Pipeline.
Bei extrem schlechter Scan-Qualität (Auflosung unter 150 dpi, starke Verzerrung, durchscheinende Rückseite) ist OCR Murks. Erst Bild-Restaurierung (Super-Resolution, Bleed-Through-Removal) über spezialisierte Modelle (PaperMage, ScanTailor), dann OCR.
Bei strikten Berufsgeheimnis-Anforderungen (z.B. Patienten-Akten unter Arztgeheimnis) ohne On-Prem-OCR-Option: lieber manuell abtippen oder das Dokument nicht digital indexieren.
Vor- und Nachteile
STÄRKEN
- Premium-Cloud-Engines: 99+ Prozent Genauigkeit auf Typeset, sehr gute Tabellen-Extraktion
- Mistral OCR: EU-Hosting, layout-treues Markdown, sehr günstig
- Tesseract: Open Source, lokal, keine laufenden Kosten
- Hybrid-Pipeline (Tesseract + Premium-Eskalation): halbiert die Kosten
SCHWÄCHEN
- Cloud-OCR sendet Daten nach aussen: DSG- und Berufsgeheimnis-Risiko
- Tesseract schwach bei Layout, Handschrift, Mehrsprachigkeit
- Premium-Engines teuer bei Massen-Volumen ohne Hybrid-Strategie
- Konfidenz-Scores nicht durchgehend kalibriert, manuelle Review nötig
Häufige Fragen
Tesseract vs. Cloud-OCR: lohnt sich Tesseract noch?
Ja, aber nur für einfache, maschinengeschriebene Belege ohne Tabellen oder Handschrift. Mit guter Vorverarbeitung kommt Tesseract 5.x auf 95 Prozent Genauigkeit bei Rechnungen und Quittungen. Sobald Tabellen, Handschrift oder Mehrspaltigkeit ins Spiel kommen, sind Cloud-Engines deutlich überlegen.
Wie behandle ich handschriftliche Vertragsergänzungen?
Google Document AI mit Handwriting-Modell und Azure DI sind im Mai 2026 die besten Optionen (85 bis 92 Prozent Genauigkeit). Bei besonders kritischen Texten (Unterschrift-relevante Klauseln) bleibt menschliche Verifikation Pflicht.
Was kostet OCR für 100.000 Seiten pro Jahr?
Mistral OCR: ca. CHF 270 pro Jahr. Azure DI Read: ca. CHF 900. AWS Textract Analyze-Document: ca. CHF 1350. Reducto AI: ca. CHF 1500. Tesseract on-prem: nur Server-Kosten, etwa CHF 300 pro Jahr für eine 8-vCPU-Maschine.
Welche Engine ist DSG- und Berufsgeheimnis-tauglich?
On-prem (Tesseract, ABBYY FineReader Engine), Azure DI in Switzerland North, Mistral OCR mit EU-Hosting-Vertrag. US-basierte Engines (AWS Textract, Google DocAI, Reducto) brauchen AVV, Transfer-Impact-Assessment und idealerweise EU-Region; bei Berufsgeheimnis StGB Art. 321 raten wir ab.
Verwandte Themen
Quellen
PASSEND ZU IHREM STACK?