DATENBEREINIGUNG · AI-KONZEPT
Datenbereinigung vor RAG: Duplikate, Boilerplate, OCR-Artefakte, Charset-Issues, Watermarks
Warum 30 Prozent jedes RAG-Korpus Müll ist und wie Sie ihn aussortieren: Duplikat-Erkennung, Header/Footer-Stripping, OCR-Korrektur, Encoding-Reparatur und Watermark-Entfernung mit cleanlab und dedupe.io.
Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05
Was ist Datenbereinigung vor RAG?
Datenbereinigung vor RAG ist die systematische Entfernung von Müll-Inhalten aus dem Korpus, bevor er gechunkt, embedded und indexiert wird. "Müll" hat sechs Hauptformen: Duplikate, leere Seiten, Footer- und Header-Boilerplate, OCR-Artefakte, Charset-/Encoding-Schäden, Watermarks und PDF-Wasserzeichen.
In der Praxis ist 20 bis 40 Prozent eines unbereinigten Treuhand- oder Anwaltskorpus Müll. Das hat zwei direkte Folgen: erstens steigen Storage- und Embedding-Kosten linear mit dem Korpus-Volumen; zweitens und schlimmer, fällt die Retrieval-Präzision, weil identische oder fast-identische Chunks die Top-k-Ergebnisse fluten und thematisch relevante, aber seltenere Chunks verdrängen.
Datenbereinigung ist nicht "nice to have", sondern Voraussetzung für brauchbare Antwort-Qualität. Wir messen den Effekt regelmässig: nach systematischer Bereinigung steigt Retrieval-Recall@5 um 15 bis 30 Prozent, Antwort-Qualität in Blindtests um eine halbe bis ganze Stufe auf einer 5-Punkte-Skala.
Im Mai 2026 existieren etablierte Werkzeuge: cleanlab (Open-Source-Plus-Cloud) findet duplizierte, mehrdeutige oder fehlklassifizierte Datenpunkte. dedupe.io ist die Industrie-Standard-Bibliothek für Fuzzy-Matching von Records. fuzzywuzzy/RapidFuzz für schnelle String-Distanz-Berechnung. Custom-Regex für Boilerplate-Stripping. ftfy (fixes-text-for-you) repariert Encoding-Schäden. Tesseract-spezifische Post-Processing-Tools (PostOCR-Toolkit) korrigieren typische OCR-Fehler.
Warum es wichtig ist
Drei Effekte machen Datenbereinigung zur teuersten Auslassung im RAG-Aufbau.
Erstens: Retrieval-Verzerrung durch Duplikate. Wenn ein 30-seitiger Mietvertrag in 12 verschiedenen Mandanten-Ordnern liegt (Original, Kopie, Anhang in Mail, Anhang in Antwort-Mail, Scan, OCR-Version), erzeugt naives Indexieren 12x denselben Chunk. Eine Frage zu diesem Vertrag füllt die Top-12-Ergebnisse mit dem gleichen Inhalt, und das Modell sieht keine alternativen Sichten. Dedup reduziert das auf einen Chunk plus 11 Metadaten-Verweise.
Zweitens: Boilerplate-Rauschen. Jede Mandanten-PDF tragt Kopf- und Fusszeile mit Firmenname, Adresse, Telefon, Datum. Wer das nicht entfernt, indexiert tausendfach denselben Adress-Block. Eine Frage "Wer ist der Geschäftsführer?" trifft diese Blöcke statt der Antwort im Vertragsinhalt. Embedding-Modelle bauen den thematischen Schwerpunkt aus häufig vorkommendem Material auf - Boilerplate verzerrt das Vektor-Raum-Geometrie.
Drittens: OCR-Artefakte als unsichtbare Lex-Bomben. Tesseract verwechselt regelmässig "1" und "I", "0" und "O", "rn" und "m". Ein Tippfehler im Embedding-Input verschiebt den Vektor messbar, sodass eine relevante Stelle nicht mehr gefunden wird. Bei Bilanz-Zahlen ist das katastrophal: "100.000" wird zu "I00.000", und die Aktiva-Passiva-Prüfung des Modells fällt durch.
Für Treuhand- und Anwalts-Kontexte kommt eine vierte Dimension dazu: rechtliche Pflicht zur Datenqualität. Art. 957a OR verlangt vollständige, richtige, klare Buchführung. Eine durch OCR-Fehler verzerrte Bilanz-Antwort, die in einer Steuererklärung landet, kann Haftung erzeugen. Bereinigung ist damit Compliance-Massnahme, nicht nur Performance-Tuning.
Wie es funktioniert
Duplikat-Erkennung: Exakte Duplikate (gleiche Hash-Summe) über MD5/SHA-256 in Sekunden zu finden. Fuzzy-Duplikate (gleicher Inhalt, leicht andere Formatierung) über MinHash oder SimHash (datasketch-Bibliothek). Semantic-Duplikate (gleicher Sinn, andere Worte) über Embedding-Nähe (Cosinus-Ähnlichkeit über 0.95). cleanlab und dedupe.io kombinieren diese Strategien.
Leere und Mini-Chunks: Chunks unter 50 Tokens enthalten meist nur Seitenzahl, Datum, eine Überschrift. Aussortieren. Chunks mit 80 Prozent Whitespace oder Sonderzeichen ebenfalls.
Boilerplate-Stripping: pro Mandanten- oder Quellsystem werden wiederkehrende Header- und Footer-Blöcke ermittelt. Tool-Ansatz: alle Chunks aus dem gleichen Quell-Postfach vergleichen, Präfix- und Suffix-Strings, die in mehr als 80 Prozent aller Chunks vorkommen, werden ausgeschnitten. Boilerpy3, trafilatura oder eigene Regex-Tools.
OCR-Korrektur: Heuristiken (typische Tesseract-Fehler: 0/O, 1/I/l, rn/m) über Sprachmodell-Spellcheck. PostOCR-Toolkit, ftfy-OCR-Modus, oder eigenes LLM-Postprocessing (Claude Sonnet/Mistral korrigieren OCR-Output bei Tokenkosten von ca. 1 US-Cent pro Seite).
Charset/Encoding-Reparatur: ftfy (fixes-text-for-you) repariert verbreitete Encoding-Schäden (UTF-8 falsch dekodiert als Latin-1 etc.). chardet erkennt das wahrscheinlichste Encoding. Mojibake (Mehrfach-Encoding-Schäden) wird in den meisten Fällen automatisch erkannt und repariert.
Watermarks und PDF-Wasserzeichen: Watermark-Text ("ENTWURF", "VERTRAULICH", Mandanten-Wasserzeichen mit Datum) wird über Frequenz-Analyse erkannt (kommt auf jeder Seite einer Datei vor) und entfernt. Bei PDF-Wasserzeichen als Bild-Layer hilft pdftotext mit dem -layout-Flag oft, weil das Wasserzeichen-Bild ignoriert wird.
Sprach-Filter: Wenn ein DE-Mandantenkontext erwartet ist und der Chunk in EN, ES oder zufälligem Charset auftaucht: meist Müll. langdetect oder fasttext-lid erkennen die Sprache, ausserhalb der erwarteten Sprache werden Chunks in Quarantäne gestellt für manuelle Prüfung.
Die Reihenfolge zählt. Wir empfehlen: erst Encoding fix, dann OCR-Korrektur, dann Boilerplate-Strip, dann Duplikat-Dedup, dann Sprach-Filter, am Ende Mini-Chunk-Filter. In der falschen Reihenfolge entstehen Phantom-Probleme.
Bereinigungs-Workflow in 6 Schritten
- 01Diagnose: Stichprobe von 200 zufälligen Chunks manuell anschauen, Müll-Quote pro Quellsystem messen.
- 02Encoding-Reparatur: ftfy auf alle Texte anwenden, chardet prüfen, Mojibake fixen.
- 03OCR-Postprocessing: gemäss Quellsystem (Tesseract-typisch, Mistral OCR-typisch) Heuristiken plus LLM-Korrektur bei niedriger Confidence.
- 04Boilerplate-Stripping: pro Quell-Postfach/Mandanten-Ordner häufige Präfix/Suffix-Strings erkennen und ausschneiden.
- 05Duplikat-Dedup: zuerst exakt (Hash), dann Fuzzy (MinHash), optional semantisch (Embedding-Cosinus 0.97+, mit Metadaten-Schutz).
- 06Sprach-Filter und Mini-Chunk-Filter: erwartete Sprache(n) prüfen, Chunks unter 50 Tokens aussortieren. Audit-Log für jeden entfernten Chunk.
Wann es einsetzen
Immer. Es gibt keinen sinnvollen RAG-Aufbau ohne Bereinigung. Die Frage ist nur: wie aufwendig.
Für kleine Korpora (unter 1000 Dokumente) reicht oft ein einfaches Skript mit MD5-Dedup, Boilerplate-Regex und ftfy. Setup-Zeit: ein halber Tag.
Für mittlere Korpora (1000 bis 50.000 Dokumente) lohnt sich cleanlab oder dedupe.io plus eine OCR-Korrektur-Pipeline. Setup: 2 bis 4 Tage.
Für grosse oder heterogene Korpora (über 50.000 Dokumente, viele Quellsysteme): umfassende Pipeline mit Quality-Gates und manueller Stichprobe. Setup: 5 bis 15 Tage.
Wichtig: Bereinigung darf nie nur einmal laufen. Bei jeder Neuindexierung wird sie erneut angewandt; bei Pipeline-Updates müssen die zugrundeliegenden Regeln versioniert sein.
Wann nicht
Datenbereinigung ist niemals optional. Aber bestimmte Bereinigungs-Schritte können kontraproduktiv sein.
Aggressive Dedup-Logik darf nicht "fast gleich" mit "identisch" verwechseln. Zwei Verträge mit identischem Boilerplate aber unterschiedlichen Mandanten und Konditionen müssen beide erhalten bleiben. Embedding-Cosinus 0.95 als Dedup-Schwelle reicht meist nicht; Metadaten-Vergleich (gleicher Mandant, gleiches Datum) muss zusätzlich geprüft werden.
OCR-Korrektur via LLM ist mit Vorsicht zu geniessen, weil Modelle ihrerseits halluzinieren können. Auf Bilanz-Daten müssen Korrekturen mit Konfidenz unter 99 Prozent in eine Review-Queue, nicht direkt übernommen.
Boilerplate-Stripping darf wichtige Mandanten-Adress-Information nicht entfernen, wenn diese für das RAG-Use-Case relevant ist (z.B. CRM-Auswertung).
In besonders schützenswerten Kontexten (StGB Art. 321) darf Bereinigung nie das Original-Dokument verändern. Bereinigung passiert immer auf einer Kopie; Original bleibt unverändert im Audit-Storage.
Vor- und Nachteile
STÄRKEN
- Retrieval-Recall@5 steigt typisch um 15 bis 30 Prozent
- Storage- und Embedding-Kosten sinken um 20 bis 40 Prozent
- Verhindert systematische Falschantworten durch OCR-Artefakte
- Erfüllt Datenqualitäts-Pflichten nach Art. 957a OR
SCHWÄCHEN
- Setup-Aufwand: 2 bis 15 Tage je nach Korpus-Grösse und -Vielfalt
- Aggressive Dedup kann legitime Varianten löschen
- LLM-OCR-Korrektur kann Modell-Halluzinationen einschleppen
- Pipeline muss bei jeder Re-Indexierung idempotent neu laufen
Häufige Fragen
Wie viel Korpus verschwindet typisch durch Bereinigung?
Bei einer Treuhand mit historischem Postfach: 25 bis 45 Prozent. Bei einer reinen Wegleitungs-Bibliothek (kuratiert): 5 bis 10 Prozent. Bei einem Anwalts-Archiv mit OCR-Scans: 30 bis 50 Prozent. Wir messen vor und nach Bereinigung, der Wert ist ein wichtiger Quality-Indikator.
Wann lohnt sich LLM-basierte OCR-Korrektur?
Bei buchhaltungsrelevanten Daten (Bilanzen, Lohnabrechnungen, MWST-Aufstellungen): immer, weil jedes falsche Zeichen Folgen haben kann. Bei freitext-lastigen Dokumenten: nur bei niedriger OCR-Confidence. Kosten: ca. 1 US-Cent pro Seite mit Claude Haiku, 5 Cent mit Sonnet.
Was ist der Unterschied cleanlab vs. dedupe.io?
cleanlab fokussiert auf ML-Datenqualität (Labels, Outlier, Duplikate für Training-Sets). dedupe.io ist auf strukturierte Records spezialisiert (Mandanten-Datenbank-Dedup, CRM-Bereinigung). Für reine Text-Korpora ist cleanlab oder eine eigene MinHash-Lösung passender; für Mandanten-Datenbank-Dedup dedupe.io.
Was kostet die Bereinigung laufend?
Server-Kosten unter CHF 50 pro Monat für mittlere Korpora. LLM-Kosten für OCR-Korrektur skalieren mit Volumen: bei 10.000 Seiten pro Monat ca. CHF 100 mit Haiku, CHF 500 mit Sonnet. Bereinigung sollte 5 bis 10 Prozent der RAG-Gesamtkosten ausmachen - alles darüber zeigt eine schiefe Pipeline an.
Verwandte Themen
Quellen
PASSEND ZU IHREM STACK?