STRUCTURED EXTRACTION · AI-KONZEPT

Structured Extraction mit Grounding: Cite-The-Source aus PDFs und Mails

Daten aus PDFs und Mails extrahieren mit Belegen: Gemini Citation API, Anthropic with_citations, manuelle Citation-Linker und Audit-Trail-Bezug.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Was ist Structured Extraction mit Grounding?

Structured Extraction mit Grounding ist die Kombination aus zwei Techniken: Daten in einem definierten Schema aus unstrukturierten Quellen (PDFs, Mails, OCR-Scans, Webseiten) zu extrahieren – und gleichzeitig für jeden extrahierten Wert die Quellstelle ("Cite-The-Source") nachweisbar zu machen. Das Ergebnis ist nicht nur "Betrag = 1.500 CHF", sondern "Betrag = 1.500 CHF, Quelle: Seite 2, Zeile 14".

Der Unterschied zur einfachen Structured Extraction ist die Beweis-Schicht. Ein KMU-Treuhand-System, das Belege erfasst und in die Buchhaltung schreibt, muss bei einer späteren Revision belegen können, woher jeder Wert kommt. Mit Grounding hat jeder extrahierte Wert einen Verweis: Dokument-ID + Seite + Bounding-Box (bei PDFs) oder Mail-ID + Zeichen-Offset (bei Mails).

Die Praxis-Anwendung: Belegerfassung mit Audit-Trail. Pro Beleg extrahiert die KI Datum, Betrag, MWST, Lieferant, Belegnummer – und für jeden Wert einen Quellverweis. Wenn der Mandant in zwei Jahren die Frage stellt "Warum wurde das auf 7.7% MWST gebucht?", kann das System antworten: "Auf Seite 2 unten links steht 'MWST 7,7%'". Das ist GeBüV-konform und revisionsfähig.

Mai 2026 hat sich der Markt stark entwickelt. Anthropic hat im April 2026 die `with_citations`-API erweitert. Google Gemini 2.5 hat eine native Citation-API. Beide produzieren strukturierte Antworten mit Span-Verweisen auf das Quelldokument. Für lokale Modelle gibt es Open-Source-Lösungen wie LlamaIndex Citation Query Engine oder manuelle Citation-Linker auf Embedding-Basis.

Warum es wichtig ist

Ohne Grounding ist Structured Extraction in regulierten Umfeldern problematisch. Eine KI extrahiert aus einem Beleg "Betrag = 1.500 CHF". Wenn der echte Beleg "1.500 USD" sagt, ist das ein Halluzinations-Schaden. Mit Grounding wird sofort sichtbar, dass die Quelle "USD" sagt und das Modell trotzdem "CHF" geschrieben hat – der Fehler ist erkennbar und korrigierbar.

Für GeBüV (Geschäftsbücher-Verordnung) und Art. 957a OR (Buchführungs-Pflicht): Buchhaltungs-Daten müssen bis zur Quelle nachverfolgbar sein. Eine KI-gestützte Belegerfassung ohne Grounding erfüllt das nicht. Mit Grounding hat jeder Eintrag im Hauptbuch einen direkten Link zur Beleg-PDF – Revisor-Prüfung mit einem Klick.

Für EU AI Act Art. 12 (Aufzeichnungspflichten) und Art. 14 (Menschliche Aufsicht): Grounding ist die technische Basis für Prüfbarkeit. Eine Aufsichts-Behörde, die wissen will, wie das System zu einer Klassifizierung gekommen ist, bekommt nicht nur den Output, sondern auch die Quell-Verweise.

Im Schadensfall: Wenn ein Mandant behauptet, die KI habe Daten falsch erfasst, kann das Treuhandbüro mit Grounding sofort prüfen – "die Quelle sagt das genauso, der Fehler war beim Mandanten" oder "die Quelle sagt etwas anderes, wir haben einen Fehler". Ohne Grounding ist die Beweis-Lage ungeklärter.

Prozess-Effizienz: bei Stichproben-Kontrollen (interne Revision, externe Prüfung) muss der Reviewer nicht das ganze PDF lesen, um zu verstehen, woher ein Wert kommt. Ein Klick auf den Citation-Link springt zur Stelle. Reviewer-Zeit pro Beleg sinkt um 60-80%.

Wie es funktioniert – Methoden Mai 2026

Anthropic Claude with_citations. Eingeführt 2024, im April 2026 erweitert auf strukturierte JSON-Outputs mit Citations. Sie senden dem Modell ein oder mehrere Dokumente (PDF-Text, OCR-Output) plus eine Frage. Das Modell antwortet mit JSON-Output, wobei jeder extrahierte Wert ein `citations`-Array enthält: `{"amount": 1500, "amount_citation": [{"document_id": "doc1", "start_char": 1240, "end_char": 1248, "cited_text": "1500.00 CHF"}]}`. Genauigkeit der Citations Mai 2026: ca. 95% korrekte Span-Verweise.

Google Gemini 2.5 Citation API. Ähnlicher Ansatz. Gemini 2.5 Pro liefert bei aktiviertem `groundingMetadata` Token-Level-Verweise. Über den `groundingSupports`-Block werden extrahierten Werten konkrete Doc-Indices und Char-Spans zugeordnet. Gut integriert mit Google Drive und Workspace-Quellen.

OpenAI Citations via Function-Calling. OpenAI hat Mai 2026 keine native Citation-API, aber das gleiche Verhalten ist via Function-Calling erreichbar. Sie definieren ein Schema mit `extracted_value` und `source_quote` als Pflicht-Felder. Das Modell muss zu jedem Wert das Quell-Zitat liefern. Genauigkeit der Citations: ca. 90% – schwächer als native APIs, weil keine Token-Level-Constraints.

LlamaIndex Citation Query Engine. Open-Source. Funktioniert mit beliebigem LLM. Mechanismus: Dokument wird in Chunks zerlegt, jeder Chunk bekommt eine ID. Beim Antwort-Generieren wird der Prompt um "zitiere die verwendete Chunk-ID nach jeder Aussage" erweitert. Nach der Antwort wird per Embedding-Distanz validiert, dass die zitierten Chunks tatsächlich relevant waren. Sehr flexibel, für alle Modelle nutzbar.

Manuelle Citation-Linker. Pattern für Production-Setups, in denen Sie nicht auf Vendor-APIs angewiesen sein wollen. Zwei-Pass-Ansatz: Pass 1 das Modell extrahiert das strukturierte JSON. Pass 2 ein separater Embedding-basierter Linker findet für jeden extrahierten Wert die wahrscheinlichste Quellstelle im Original-Dokument. Vorteil: vendor-unabhängig. Nachteil: doppelter Aufwand, ca. 80-90% Citation-Genauigkeit.

PDF-Bounding-Box-Extraktion. Für juristisch belastbare Audit-Trails reicht ein Text-Offset oft nicht. Tools wie pdfplumber oder PyMuPDF kombinieren Text-Extraktion mit Bounding-Box-Koordinaten. Sie speichern in der Audit-Datenbank nicht nur "Seite 2, Zeile 14" sondern auch "(x: 142, y: 280, w: 80, h: 16)" – für pixel-genaue Hervorhebung beim Review.

OCR-Pipeline-Integration. Bei Scan-Belegen ohne digitalen Text: OCR-Engine (Tesseract, Azure Form Recognizer, Google Document AI) liefert pro erkanntem Wort die Bounding-Box. LLM bekommt den OCR-Output, erzeugt strukturierten Output mit Citations, die in die OCR-Bounding-Boxen verlinkt sind. Komplette Pipeline: PDF → OCR (+ Bounding-Boxes) → LLM Structured Extraction (+ Citations) → Audit-DB.

Validation-Loop. Nach Extraktion + Citation prüft ein zweiter Schritt automatisch: Steht das zitierte Snippet tatsächlich auf der angegebenen Stelle im Original-Dokument? Wenn nein: Wert als unsicher markieren, Human-Review triggern. Fang t etwa 5% halluzinierte Citations.

Structured Extraction mit Grounding in 6 Schritten

01Quell-Pipeline aufsetzen: PDF/Mail/Web-Input → Text-Extraktion mit Bounding-Boxes (pdfplumber, PyMuPDF, OCR).
02Extraktions-Schema in Pydantic/Zod definieren, jedes Wert-Feld erhält ein parallel-Feld `<feld>_citation`.
03LLM-Methode wählen: Anthropic with_citations, Gemini 2.5 Citation API, OpenAI Function-Calling mit Pflicht-Quote, oder LlamaIndex Citation Engine.
04Validation-Loop: nach Extraktion automatisch prüfen, ob jedes cited_text tatsächlich im Quell-Dokument steht – Substring-Match + Embedding-Ähnlichkeit.
05Audit-DB-Schema: pro Extraktion speichern Wert + Citation (Doc-ID, Char-Offset, Bounding-Box, cited_text) + Validation-Status.
06Review-UI bauen: Klick auf einen Audit-Eintrag öffnet PDF an der richtigen Stelle, hebt Bounding-Box hervor.

Wann Grounding Pflicht ist

Bei jeder Extraktion, deren Output in Buchführung, Vertrag, Steuermeldung oder Rechtsverbindlich-Akte fliesst, ist Grounding Pflicht. Konkret:

Belegerfassung für Buchhaltung. GeBüV verlangt Nachvollziehbarkeit bis zur Quelle. Ohne Grounding keine Compliance.

Vertrags-Klausel-Extraktion. Wenn die KI aus einem 80-Seiten-Vertrag bestimmte Klauseln extrahiert, muss der Anwalt nachvollziehen können, welche exakte Stelle gemeint ist. Mit Grounding: ein Klick. Ohne: 30 Minuten Suchen.

Forderung und Mahnwesen. Wenn die KI aus E-Mail-Verkehr eine Forderung extrahiert ("Mandant schuldet uns 4.500 CHF aus Auftrag XYZ"), muss die Quell-Mail mit konkreter Stelle verfügbar sein – sowohl für Mahn-Eskalation als auch für Streitfall.

Anti-Geldwäsche-Prüfungen. Bei automatisierter KYC/AML-Datenextraktion (PEP-Prüfung, Sanktions-Listen-Match) ist die Quelle nachzuweisen. FINMA-Pflicht.

Klinische und medizinische Anwendungen. Hier ist Grounding sogar gesetzliche Pflicht (MDR, MepV), wir bauen das aber nicht selbst – verweisen Sie auf spezialisierte Anbieter.

Weniger zwingend, aber empfohlen: jede Extraktion, die regelmässig mit menschlichem Review gepaart wird. Grounding spart pro Beleg 60-80% Reviewer-Zeit.

Wann Grounding weniger nötig ist

Bei rein informativen Outputs, die nirgendwo eingespielt werden (Brainstorming-Notizen, schnelle Wissens-Lookups), ist Grounding Overhead. Ein Mitarbeiter, der "fasse mir diese 10-Seiten-PDF zusammen" fragt und das Resultat einmal liest, braucht keinen Citation-Link.

Bei sehr kurzen Quellen (1-2 Seiten), die der Reviewer ohnehin im Original anschaut, lohnt sich der Setup-Aufwand nicht. Manuelle Verifikation ist schneller als Grounding-Pipeline.

Bei generativen Tasks ohne Quellen-Bezug (KI schreibt Vermietungs-Vertrag von Grund auf) gibt es keine Quellen zum Zitieren. Hier ist Grounding logisch unmöglich.

Vorsicht bei "Grounding-Theater": einige Vendor-Tools liefern Citations, die zwar formal vorhanden, aber halluziniert sind. Validation-Loop ist deshalb Pflicht. Eine Citation, die "Seite 2 Zeile 14" sagt, ohne dass dort der zitierte Text tatsächlich steht, ist schlimmer als keine Citation – sie taeuscht Vertrauen vor.

Kostenpunkt: Grounding kostet zusätzliche Token (Quell-Text muss komplett mitgegeben werden) und etwas Engineering-Zeit für die Validation-Schicht. Bei niedrig-risiko-Use-Cases mit < 100 Beleg-Volumen pro Monat überwiegt der Aufwand den Nutzen.

Vor- und Nachteile

STÄRKEN

GeBüV- und Art. 957a-OR-konformer Audit-Trail bis zur Quelle
Reviewer-Zeit pro Beleg sinkt 60-80% durch direkten Citation-Click
Halluzinierte Werte werden durch Validation-Loop erkannt
EU-AI-Act Art. 12 (Aufzeichnungspflichten) und Art. 14 (Aufsicht) technisch erfüllt
Streitfall-Beweise: bei Mandanten-Anfrage sofort nachweisbar, woher ein Wert stammt

SCHWÄCHEN

Setup-Aufwand 4-7 Tage Engineer-Zeit pro Pipeline
OCR-Bounding-Box-Pipeline ist bei schlechten Scans aufwendig zu kalibrieren
Vendor-Lock-in: Anthropic with_citations und Gemini Citation API haben unterschiedliche Schemas
Citation-Hallucinations möglich (5%) – Validation-Loop ist Pflicht
Token-Mehrverbrauch 30-50% gegenüber plain Structured Output

Häufige Fragen

Welche API ist Mai 2026 die beste für Grounding?

Anthropic das aktuelle Claude-Spitzenmodell mit with_citations (95% Genauigkeit) und Google Gemini 2.5 Pro mit groundingMetadata (93%) sind die Spitze. OpenAI Function-Calling-Setup ist flexibler aber etwas schwächer (90%). Für EU-Souveränität plus Grounding ist Mistral function_calling + LlamaIndex Citation Engine eine valable Open-Source-Alternative. Empfehlung: Anthropic für Recht/Treuhand, Gemini für Workspace-integrierte Use-Cases.

Wie validiere ich, ob eine Citation echt ist?

Zwei Schritte. Erstens: Substring-Match – das cited_text muss exakt (oder mit normalisierten Whitespaces) im Original-Dokument an der angegebenen Position vorkommen. Zweitens: bei Paraphrasen oder OCR-Fehlern ein Embedding-Ähnlichkeit von cited_text zu dem Original-Snippet an der Position (cosine similarity > 0.85). Beide Prüfungen automatisch, Diskrepanzen → Human-Review.

Was kostet Grounding zusätzlich?

Token-Mehrverbrauch durch Citation-Felder im Output: ca. 30-50% gegenüber reinem JSON. Da Structured Output ohnehin Token spart, ist der Netto-Effekt meist neutral. Engineer-Aufwand für Setup: 3-5 Tage für eine Beleg-Pipeline. Validation-Loop: 1-2 Tage. Insgesamt: Grounding kostet 4-7 Tage einmalig, fast keine laufenden Kosten.

Funktioniert Grounding bei OCR-Scans?

Ja, aber Pipeline-Aufbau ist anspruchsvoller. OCR-Engine muss pro erkanntem Wort eine Bounding-Box liefern (Tesseract, Azure Form Recognizer, Google Document AI). Diese Bounding-Boxes werden mit Citations verbunden. Bei schlechtem OCR (Handschrift, Faxe, schlechtem Scan) sinkt Grounding-Genauigkeit auf 75-85%. Vor Production: OCR-Qualität messen.

Quellen

Anthropic – Claude with_citations API (structured output extension) · 2026-04
Google Gemini 2.5 – Grounding and Citations API documentation · 2026-04
LlamaIndex – Citation Query Engine guide · 2026-05
PyMuPDF – text extraction with bounding boxes (docs) · 2026-03
Azure AI Document Intelligence – Form Recognizer with bounding boxes · 2026-04

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen