STRUCTURED EXTRACTION · AI-KONZEPT
Structured Extraction mit Grounding: Cite-The-Source aus PDFs und Mails
Daten aus PDFs und Mails extrahieren mit Belegen: Gemini Citation API, Anthropic with_citations, manuelle Citation-Linker und Audit-Trail-Bezug.
Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05
Was ist Structured Extraction mit Grounding?
Structured Extraction mit Grounding ist die Kombination aus zwei Techniken: Daten in einem definierten Schema aus unstrukturierten Quellen (PDFs, Mails, OCR-Scans, Webseiten) zu extrahieren – und gleichzeitig für jeden extrahierten Wert die Quellstelle ("Cite-The-Source") nachweisbar zu machen. Das Ergebnis ist nicht nur "Betrag = 1.500 CHF", sondern "Betrag = 1.500 CHF, Quelle: Seite 2, Zeile 14".
Der Unterschied zur einfachen Structured Extraction ist die Beweis-Schicht. Ein KMU-Treuhand-System, das Belege erfasst und in die Buchhaltung schreibt, muss bei einer späteren Revision belegen können, woher jeder Wert kommt. Mit Grounding hat jeder extrahierte Wert einen Verweis: Dokument-ID + Seite + Bounding-Box (bei PDFs) oder Mail-ID + Zeichen-Offset (bei Mails).
Die Praxis-Anwendung: Belegerfassung mit Audit-Trail. Pro Beleg extrahiert die KI Datum, Betrag, MWST, Lieferant, Belegnummer – und für jeden Wert einen Quellverweis. Wenn der Mandant in zwei Jahren die Frage stellt "Warum wurde das auf 7.7% MWST gebucht?", kann das System antworten: "Auf Seite 2 unten links steht 'MWST 7,7%'". Das ist GeBüV-konform und revisionsfähig.
Mai 2026 hat sich der Markt stark entwickelt. Anthropic hat im April 2026 die `with_citations`-API erweitert. Google Gemini 2.5 hat eine native Citation-API. Beide produzieren strukturierte Antworten mit Span-Verweisen auf das Quelldokument. Für lokale Modelle gibt es Open-Source-Lösungen wie LlamaIndex Citation Query Engine oder manuelle Citation-Linker auf Embedding-Basis.
Warum es wichtig ist
Ohne Grounding ist Structured Extraction in regulierten Umfeldern problematisch. Eine KI extrahiert aus einem Beleg "Betrag = 1.500 CHF". Wenn der echte Beleg "1.500 USD" sagt, ist das ein Halluzinations-Schaden. Mit Grounding wird sofort sichtbar, dass die Quelle "USD" sagt und das Modell trotzdem "CHF" geschrieben hat – der Fehler ist erkennbar und korrigierbar.
Für GeBüV (Geschäftsbücher-Verordnung) und Art. 957a OR (Buchführungs-Pflicht): Buchhaltungs-Daten müssen bis zur Quelle nachverfolgbar sein. Eine KI-gestützte Belegerfassung ohne Grounding erfüllt das nicht. Mit Grounding hat jeder Eintrag im Hauptbuch einen direkten Link zur Beleg-PDF – Revisor-Prüfung mit einem Klick.
Für EU AI Act Art. 12 (Aufzeichnungspflichten) und Art. 14 (Menschliche Aufsicht): Grounding ist die technische Basis für Prüfbarkeit. Eine Aufsichts-Behörde, die wissen will, wie das System zu einer Klassifizierung gekommen ist, bekommt nicht nur den Output, sondern auch die Quell-Verweise.
Im Schadensfall: Wenn ein Mandant behauptet, die KI habe Daten falsch erfasst, kann das Treuhandbüro mit Grounding sofort prüfen – "die Quelle sagt das genauso, der Fehler war beim Mandanten" oder "die Quelle sagt etwas anderes, wir haben einen Fehler". Ohne Grounding ist die Beweis-Lage ungeklärter.
Prozess-Effizienz: bei Stichproben-Kontrollen (interne Revision, externe Prüfung) muss der Reviewer nicht das ganze PDF lesen, um zu verstehen, woher ein Wert kommt. Ein Klick auf den Citation-Link springt zur Stelle. Reviewer-Zeit pro Beleg sinkt um 60-80%.
Wie es funktioniert – Methoden Mai 2026
Anthropic Claude with_citations. Eingeführt 2024, im April 2026 erweitert auf strukturierte JSON-Outputs mit Citations. Sie senden dem Modell ein oder mehrere Dokumente (PDF-Text, OCR-Output) plus eine Frage. Das Modell antwortet mit JSON-Output, wobei jeder extrahierte Wert ein `citations`-Array enthält: `{"amount": 1500, "amount_citation": [{"document_id": "doc1", "start_char": 1240, "end_char": 1248, "cited_text": "1500.00 CHF"}]}`. Genauigkeit der Citations Mai 2026: ca. 95% korrekte Span-Verweise.
Google Gemini 2.5 Citation API. Ähnlicher Ansatz. Gemini 2.5 Pro liefert bei aktiviertem `groundingMetadata` Token-Level-Verweise. Über den `groundingSupports`-Block werden extrahierten Werten konkrete Doc-Indices und Char-Spans zugeordnet. Gut integriert mit Google Drive und Workspace-Quellen.
OpenAI Citations via Function-Calling. OpenAI hat Mai 2026 keine native Citation-API, aber das gleiche Verhalten ist via Function-Calling erreichbar. Sie definieren ein Schema mit `extracted_value` und `source_quote` als Pflicht-Felder. Das Modell muss zu jedem Wert das Quell-Zitat liefern. Genauigkeit der Citations: ca. 90% – schwächer als native APIs, weil keine Token-Level-Constraints.
LlamaIndex Citation Query Engine. Open-Source. Funktioniert mit beliebigem LLM. Mechanismus: Dokument wird in Chunks zerlegt, jeder Chunk bekommt eine ID. Beim Antwort-Generieren wird der Prompt um "zitiere die verwendete Chunk-ID nach jeder Aussage" erweitert. Nach der Antwort wird per Embedding-Distanz validiert, dass die zitierten Chunks tatsächlich relevant waren. Sehr flexibel, für alle Modelle nutzbar.
Manuelle Citation-Linker. Pattern für Production-Setups, in denen Sie nicht auf Vendor-APIs angewiesen sein wollen. Zwei-Pass-Ansatz: Pass 1 das Modell extrahiert das strukturierte JSON. Pass 2 ein separater Embedding-basierter Linker findet für jeden extrahierten Wert die wahrscheinlichste Quellstelle im Original-Dokument. Vorteil: vendor-unabhängig. Nachteil: doppelter Aufwand, ca. 80-90% Citation-Genauigkeit.
PDF-Bounding-Box-Extraktion. Für juristisch belastbare Audit-Trails reicht ein Text-Offset oft nicht. Tools wie pdfplumber oder PyMuPDF kombinieren Text-Extraktion mit Bounding-Box-Koordinaten. Sie speichern in der Audit-Datenbank nicht nur "Seite 2, Zeile 14" sondern auch "(x: 142, y: 280, w: 80, h: 16)" – für pixel-genaue Hervorhebung beim Review.
OCR-Pipeline-Integration. Bei Scan-Belegen ohne digitalen Text: OCR-Engine (Tesseract, Azure Form Recognizer, Google Document AI) liefert pro erkanntem Wort die Bounding-Box. LLM bekommt den OCR-Output, erzeugt strukturierten Output mit Citations, die in die OCR-Bounding-Boxen verlinkt sind. Komplette Pipeline: PDF → OCR (+ Bounding-Boxes) → LLM Structured Extraction (+ Citations) → Audit-DB.
Validation-Loop. Nach Extraktion + Citation prüft ein zweiter Schritt automatisch: Steht das zitierte Snippet tatsächlich auf der angegebenen Stelle im Original-Dokument? Wenn nein: Wert als unsicher markieren, Human-Review triggern. Fang t etwa 5% halluzinierte Citations.
Structured Extraction mit Grounding in 6 Schritten
- 01Quell-Pipeline aufsetzen: PDF/Mail/Web-Input → Text-Extraktion mit Bounding-Boxes (pdfplumber, PyMuPDF, OCR).
- 02Extraktions-Schema in Pydantic/Zod definieren, jedes Wert-Feld erhält ein parallel-Feld `<feld>_citation`.
- 03LLM-Methode wählen: Anthropic with_citations, Gemini 2.5 Citation API, OpenAI Function-Calling mit Pflicht-Quote, oder LlamaIndex Citation Engine.
- 04Validation-Loop: nach Extraktion automatisch prüfen, ob jedes cited_text tatsächlich im Quell-Dokument steht – Substring-Match + Embedding-Ähnlichkeit.
- 05Audit-DB-Schema: pro Extraktion speichern Wert + Citation (Doc-ID, Char-Offset, Bounding-Box, cited_text) + Validation-Status.
- 06Review-UI bauen: Klick auf einen Audit-Eintrag öffnet PDF an der richtigen Stelle, hebt Bounding-Box hervor.
Wann Grounding Pflicht ist
Bei jeder Extraktion, deren Output in Buchführung, Vertrag, Steuermeldung oder Rechtsverbindlich-Akte fliesst, ist Grounding Pflicht. Konkret:
Belegerfassung für Buchhaltung. GeBüV verlangt Nachvollziehbarkeit bis zur Quelle. Ohne Grounding keine Compliance.
Vertrags-Klausel-Extraktion. Wenn die KI aus einem 80-Seiten-Vertrag bestimmte Klauseln extrahiert, muss der Anwalt nachvollziehen können, welche exakte Stelle gemeint ist. Mit Grounding: ein Klick. Ohne: 30 Minuten Suchen.
Forderung und Mahnwesen. Wenn die KI aus E-Mail-Verkehr eine Forderung extrahiert ("Mandant schuldet uns 4.500 CHF aus Auftrag XYZ"), muss die Quell-Mail mit konkreter Stelle verfügbar sein – sowohl für Mahn-Eskalation als auch für Streitfall.
Anti-Geldwäsche-Prüfungen. Bei automatisierter KYC/AML-Datenextraktion (PEP-Prüfung, Sanktions-Listen-Match) ist die Quelle nachzuweisen. FINMA-Pflicht.
Klinische und medizinische Anwendungen. Hier ist Grounding sogar gesetzliche Pflicht (MDR, MepV), wir bauen das aber nicht selbst – verweisen Sie auf spezialisierte Anbieter.
Weniger zwingend, aber empfohlen: jede Extraktion, die regelmässig mit menschlichem Review gepaart wird. Grounding spart pro Beleg 60-80% Reviewer-Zeit.
Wann Grounding weniger nötig ist
Bei rein informativen Outputs, die nirgendwo eingespielt werden (Brainstorming-Notizen, schnelle Wissens-Lookups), ist Grounding Overhead. Ein Mitarbeiter, der "fasse mir diese 10-Seiten-PDF zusammen" fragt und das Resultat einmal liest, braucht keinen Citation-Link.
Bei sehr kurzen Quellen (1-2 Seiten), die der Reviewer ohnehin im Original anschaut, lohnt sich der Setup-Aufwand nicht. Manuelle Verifikation ist schneller als Grounding-Pipeline.
Bei generativen Tasks ohne Quellen-Bezug (KI schreibt Vermietungs-Vertrag von Grund auf) gibt es keine Quellen zum Zitieren. Hier ist Grounding logisch unmöglich.
Vorsicht bei "Grounding-Theater": einige Vendor-Tools liefern Citations, die zwar formal vorhanden, aber halluziniert sind. Validation-Loop ist deshalb Pflicht. Eine Citation, die "Seite 2 Zeile 14" sagt, ohne dass dort der zitierte Text tatsächlich steht, ist schlimmer als keine Citation – sie taeuscht Vertrauen vor.
Kostenpunkt: Grounding kostet zusätzliche Token (Quell-Text muss komplett mitgegeben werden) und etwas Engineering-Zeit für die Validation-Schicht. Bei niedrig-risiko-Use-Cases mit < 100 Beleg-Volumen pro Monat überwiegt der Aufwand den Nutzen.
Vor- und Nachteile
STÄRKEN
- GeBüV- und Art. 957a-OR-konformer Audit-Trail bis zur Quelle
- Reviewer-Zeit pro Beleg sinkt 60-80% durch direkten Citation-Click
- Halluzinierte Werte werden durch Validation-Loop erkannt
- EU-AI-Act Art. 12 (Aufzeichnungspflichten) und Art. 14 (Aufsicht) technisch erfüllt
- Streitfall-Beweise: bei Mandanten-Anfrage sofort nachweisbar, woher ein Wert stammt
SCHWÄCHEN
- Setup-Aufwand 4-7 Tage Engineer-Zeit pro Pipeline
- OCR-Bounding-Box-Pipeline ist bei schlechten Scans aufwendig zu kalibrieren
- Vendor-Lock-in: Anthropic with_citations und Gemini Citation API haben unterschiedliche Schemas
- Citation-Hallucinations möglich (5%) – Validation-Loop ist Pflicht
- Token-Mehrverbrauch 30-50% gegenüber plain Structured Output
Häufige Fragen
Welche API ist Mai 2026 die beste für Grounding?
Anthropic das aktuelle Claude-Spitzenmodell mit with_citations (95% Genauigkeit) und Google Gemini 2.5 Pro mit groundingMetadata (93%) sind die Spitze. OpenAI Function-Calling-Setup ist flexibler aber etwas schwächer (90%). Für EU-Souveränität plus Grounding ist Mistral function_calling + LlamaIndex Citation Engine eine valable Open-Source-Alternative. Empfehlung: Anthropic für Recht/Treuhand, Gemini für Workspace-integrierte Use-Cases.
Wie validiere ich, ob eine Citation echt ist?
Zwei Schritte. Erstens: Substring-Match – das cited_text muss exakt (oder mit normalisierten Whitespaces) im Original-Dokument an der angegebenen Position vorkommen. Zweitens: bei Paraphrasen oder OCR-Fehlern ein Embedding-Ähnlichkeit von cited_text zu dem Original-Snippet an der Position (cosine similarity > 0.85). Beide Prüfungen automatisch, Diskrepanzen → Human-Review.
Was kostet Grounding zusätzlich?
Token-Mehrverbrauch durch Citation-Felder im Output: ca. 30-50% gegenüber reinem JSON. Da Structured Output ohnehin Token spart, ist der Netto-Effekt meist neutral. Engineer-Aufwand für Setup: 3-5 Tage für eine Beleg-Pipeline. Validation-Loop: 1-2 Tage. Insgesamt: Grounding kostet 4-7 Tage einmalig, fast keine laufenden Kosten.
Funktioniert Grounding bei OCR-Scans?
Ja, aber Pipeline-Aufbau ist anspruchsvoller. OCR-Engine muss pro erkanntem Wort eine Bounding-Box liefern (Tesseract, Azure Form Recognizer, Google Document AI). Diese Bounding-Boxes werden mit Citations verbunden. Bei schlechtem OCR (Handschrift, Faxe, schlechtem Scan) sinkt Grounding-Genauigkeit auf 75-85%. Vor Production: OCR-Qualität messen.
Verwandte Themen
Quellen
- Anthropic – Claude with_citations API (structured output extension) · 2026-04
- Google Gemini 2.5 – Grounding and Citations API documentation · 2026-04
- LlamaIndex – Citation Query Engine guide · 2026-05
- PyMuPDF – text extraction with bounding boxes (docs) · 2026-03
- Azure AI Document Intelligence – Form Recognizer with bounding boxes · 2026-04
PASSEND ZU IHREM STACK?