DOCUMENT LOADERS · AI-KONZEPT
Document Loaders: PDF, DOCX, XLSX, EML, HTML, Markdown sauber in RAG einlesen
Welche Tools welche Dokumentformate verlustfrei in eine RAG-Pipeline überführen: Unstructured.io, LlamaParse, MarkItDown (Microsoft, Mai 2026), PyMuPDF und pandoc im Direktvergleich.
Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05
Was sind Document Loaders?
Document Loaders sind die erste Station jeder RAG-Pipeline. Sie holen ein Dokument aus seinem Quellformat (PDF, DOCX, XLSX, EML, HTML, Markdown, EPUB, RTF, CSV) und liefern strukturierten Text plus Metadaten. Klingt simpel, ist es nicht: ein Word-Dokument enthält Track-Changes, Kommentare, eingebettete Tabellen, Fussnoten und Verweise. Ein PDF hat Multi-Column-Layouts, Header und Footer, eingebettete Schriften, gelegentlich gescannte Seiten. Eine E-Mail bringt MIME-Multipart, Anhänge, HTML- und Plaintext-Varianten und Threading-Information mit.
Im Mai 2026 hat sich eine Tool-Landschaft mit klarer Arbeitsteilung etabliert. Unstructured.io ist der pragmatische Allrounder mit Hi-Res-Modus für Layout-Erkennung. LlamaParse (LlamaIndex) liefert qualitativ hervorragende PDF-Extraktion gegen Bezahlung. MarkItDown (Microsoft, März 2025 GA, Mai 2026 stabil) ist Microsoft-nah und liefert sehr saubere Konvertierungen von Office-Formaten zu Markdown. PyMuPDF (AGPL/kommerziell) ist die schnellste Open-Source-PDF-Bibliothek. Pandoc bleibt der Goldstandard für Markdown/RST/LaTeX-Konvertierungen.
Die Wahl hängt vom Quellformat-Mix und vom Lizenzmodell ab. Wer nur Microsoft-Office verarbeitet, fährt mit MarkItDown am schnellsten. Wer alles bekommt, was die Mandanten schicken, braucht eine Pipeline mit mehreren Loadern und Format-Detection vorab.
Warum es wichtig ist
Die Loader-Qualität entscheidet über alles, was danach kommt. Ein Loader, der die Zeilen einer dreispaltigen PDF-Seite quer mischt, liefert dem Chunker Unsinn, dem Embedder Unsinn, dem Retriever Unsinn, dem Sprachmodell Unsinn. Garbage in, garbage out, exponentiell verstärkt durch die Pipeline.
Für Treuhand-, Anwalts- und Behörden-Kontexte ist die Verlust-Frage besonders relevant. Fussnoten in einem Steuergutachten, Track-Changes in einem Vertragsentwurf, Kommentare in einem Excel-Arbeitsblatt tragen oft die juristisch entscheidende Information. Ein Loader, der diese stillschweigend verwirft, untergraebt die Beweiskraft der KI-Antwort.
Lizenzfragen kommen dazu. PyMuPDF steht unter AGPL: wer das Tool in einer SaaS-Plattform produktiv einsetzt, muss seine eigene Software unter AGPL stellen oder eine kommerzielle Lizenz von Artifex Software erwerben. Unstructured.io hat eine permissive Apache-Lizenz für die Kern-Bibliothek, der gehostete API-Service ist kostenpflichtig. LlamaParse ist Cloud-only und sendet Dokumente an LlamaIndex-Server in den USA, was bei sensiblen Mandatsdaten ein revDSG- und Berufsgeheimnis-Problem ist.
Für EU/CH-Hosting empfehlen wir Unstructured.io self-hosted (Docker) oder MarkItDown lokal als Default-Pipeline, mit LlamaParse oder Reducto AI als optionalem Premium-Pfad für komplexe Layouts mit ausdrücklicher Mandanten-Freigabe.
Wie es funktioniert
PDF: Drei Klassen. (1) Text-PDF mit eingebettetem Text: PyMuPDF, pdfplumber, pdfminer.six liefern in Millisekunden Text. (2) PDF mit komplexem Layout: Unstructured.io Hi-Res, LlamaParse oder Marker mit Layout-Erkennung. (3) Gescannte PDF: OCR-Pfad vorschalten (siehe ocr-für-belege-und-verträge).
DOCX: python-docx liest Absatz-Stile, Tabellen, Track-Changes. MarkItDown konvertiert nach Markdown und respektiert Heading-Hierarchie. Für komplexe Word-Dokumente mit Kommentar-Spuren bleibt LibreOffice headless der zuverlässigste Konverter, wenn Treue zum Original wichtiger ist als Geschwindigkeit.
XLSX: openpyxl oder pandas (read_excel) extrahieren Zellen. MarkItDown serialisiert ein Arbeitsblatt als Markdown-Tabelle. Achtung: jede Sheet einzeln. Formeln werden meist als Werte exportiert, nicht als Formel-Text. Verbundene Zellen und Pivot-Tables sind Problemfälle.
EML/MSG: Python mailparser, mail-parser oder unstructured.partition.email lesen MIME-Multipart, dekodieren HTML- und Text-Bodies, extrahieren Anhänge (rekursiv neu in den Loader). MSG-Format (Outlook) braucht extract-msg oder libpff.
HTML: BeautifulSoup mit Boilerpipe-Variante (trafilatura, readability-lxml) entfernt Navigation, Werbung, Footer. Für Konvertierung zu Markdown sind html2text, markdownify oder MarkItDown geeignet.
Markdown: meist direkt verarbeitbar. Wenn Front-Matter (YAML/TOML) vorhanden ist, über python-frontmatter extrahieren und als Metadaten ans Chunk anhängen. Pandoc kann Markdown nach JSON-AST konvertieren, was strukturbewusstes Chunking erlaubt.
In der Praxis bauen Sie keine homogene Pipeline, sondern einen Dispatcher: Datei-Magic-Bytes über libmagic oder python-magic erkennen, dann den passenden Loader aufrufen. Unstructured.partition.auto macht diesen Dispatch eingebaut. MarkItDown ebenfalls. Beide setzen aber Limits: Komplex-PDFs gehen besser über LlamaParse, fremdformatierte Mails (Lotus Notes, Apple Mail Exports) über spezialisierte Parser.
Loader-Workflow in 6 Schritten
- 01Datei-Inventar erstellen: Welche Formate kommen vor, in welcher Verteilung, mit welcher Vertraulichkeit?
- 02Dispatcher schreiben: libmagic/python-magic zur Format-Erkennung, dann pro Format der richtige Loader.
- 03Default-Loader wählen: Unstructured.partition.auto für den Mix, MarkItDown für Office-only.
- 04Premium-Pfad definieren: LlamaParse oder Reducto AI für Komplex-PDFs, mit Mandanten-Consent dokumentiert.
- 05Metadaten-Extraktion: Quelle, Erstelldatum, Autor, Mandant, Vertraulichkeit. An jeden Chunk hängen.
- 06Lossless-Test mit 20 echten Dokumenten pro Format: Mensch vergleicht Loader-Output mit Original, fixiert blinde Flecken.
Wann welcher Loader
MarkItDown für reine Microsoft-Office-Stacks (DOCX, XLSX, PPTX, OneNote): schnell, sauberes Markdown, MIT-Lizenz, lokal lauffähig.
Unstructured.io self-hosted für den heterogenen Mandanten-Mix: 30+ Formate, Layout-Erkennung im Hi-Res-Modus, Apache-Lizenz, Docker-deployment. Default-Empfehlung für Treuhand- und Anwalts-Kontexte.
LlamaParse für komplexe PDFs mit Tabellen, Multi-Column-Layouts und Fussnoten, wenn Qualität wichtiger als Datensouveränität ist. Mandanten-Freigabe einholen, weil die Daten an US-Server gehen.
Reducto AI als Premium-Alternative zu LlamaParse mit EU-Hosting-Option seit Mai 2026.
PyMuPDF für Hochdurchsatz-PDF-Pipelines, wenn die AGPL-Lizenz mit dem Geschäftsmodell vereinbar ist oder eine kommerzielle Artifex-Lizenz vorliegt.
Pandoc für wissenschaftliche Texte, LaTeX, RST, EPUB. Goldstandard bei Akademie und Verlag.
Wann nicht
Einzelne, schon strukturierte JSON- oder XML-Quellen brauchen keine Loader. Hier reicht ein direkter Parser und ein Mapping auf die Chunk-Schema-Struktur.
Bilder, Pläne, Diagramme: gehören in eine Vision-Pipeline (multimodale Embeddings), nicht in einen Text-Loader. Ausnahme: Document AI (Google), das beides macht.
Datenbank-Inhalte: Direktverbindung über SQL Adapter (text2sql) ist schneller und genauer als der Umweg über CSV-Export und Loader.
Live-Daten (APIs, Webhooks): hier ist kein Loader sinnvoll, sondern ein Stream-Ingestion-Setup mit Pub/Sub.
Vor- und Nachteile
STÄRKEN
- Unstructured.io: viele Formate, Layout-Modus, Apache-Lizenz, self-hostbar
- MarkItDown: schnell, MIT-Lizenz, ideal für Office-Stacks
- LlamaParse: höchste PDF-Qualität, gute Tabellen-Extraktion
- PyMuPDF: schnellste Open-Source-PDF-Bibliothek
SCHWÄCHEN
- Unstructured.io Hi-Res-Modus rechenintensiv, GPU empfohlen
- MarkItDown deckt nur Microsoft-Welt gut ab
- LlamaParse Cloud-only, Daten gehen in die USA
- PyMuPDF AGPL-Lizenz, für SaaS-Einsatz kommerzielle Lizenz nötig
Häufige Fragen
Welcher Loader ist der beste für PDFs mit Tabellen?
Im Mai 2026 führt Marker (OSS, Apache-Lizenz) bei rein offenen Stacks, gefolgt von Unstructured.io Hi-Res. Bei Cloud-Tools liefern LlamaParse Premium und Reducto AI die höchste Qualität, beide über 95 Prozent Genauigkeit bei strukturierten Bilanz-Tabellen. Microsoft Table Transformer ist die Option, wenn das Modell selbst gehostet werden soll.
Darf ich LlamaParse für Mandantendaten nutzen?
Nur mit ausdrücklicher Mandanten-Einwilligung und einem Vertrag zur Auftragsverarbeitung (AVV), da LlamaParse Daten an US-Server sendet. Für Daten unter Berufsgeheimnis (StGB Art. 321) raten wir ab. Self-hosted Unstructured.io oder MarkItDown lokal sind die rechtssicheren Alternativen.
Was kostet eine Loader-Pipeline?
Open-Source-Loader (Unstructured Core, MarkItDown, PyMuPDF im OSS-Pfad): nur Server-Kosten. Eine kleine Treuhand mit 50.000 Seiten pro Jahr führt das auf einem 4-vCPU-Server für CHF 25 pro Monat. LlamaParse Premium kostet 3 US-Cent pro Seite, bei 50.000 Seiten somit ca. CHF 1350 pro Jahr. Reducto AI liegt ähnlich.
Was tun bei Lotus Notes, alte .doc, .wpd?
libpff (Lotus Notes), antiword oder LibreOffice (alte .doc), wv (WordPerfect). Diese Formate sind selten, brauchen eigene Adapter. Als Fallback: Datei in moderneres Format konvertieren (Office Online, LibreOffice CLI), dann den Standard-Loader nutzen.
Verwandte Themen
Quellen
PASSEND ZU IHREM STACK?