fairlane.systems

EMAIL-ARCHIVE · AI-KONZEPT

E-Mail-Archive indexieren: IMAP, EWS, Microsoft Graph, MBOX und DSG-Konformität

Wie Sie 5 bis 10 Jahre Mandanten-Korrespondenz für RAG indexieren: IMAP, EWS, Microsoft Graph, MBOX-Imports, Anhang-Extraktion, Threading-Erhaltung, DSG- und Berufsgeheimnis-konform.

Recherche & Faktencheck: · Stand: 2026-05

Was ist E-Mail-Archiv-Indexierung?

E-Mail-Archiv-Indexierung ist die strukturierte Extraktion und Vektorisierung von E-Mail-Beständen, um sie als RAG-Quelle nutzbar zu machen. Im Mai 2026 ist das ein Standard-Pattern für Treuhand-, Anwalts- und Versicherungs-Büro, weil 60 bis 80 Prozent der Mandanten-Korrespondenz historisch in Mail-Postfächern liegt - nicht in CRM-Systemen.

Die Aufgabe ist nicht trivial. Ein typisches Postfach hat 20.000 bis 100.000 Mails. Jede Mail hat Header (From, To, CC, Subject, Date), Body (HTML und Plain-Text-Variante), Anhänge (PDF, DOCX, Bilder), Thread-Beziehungen (In-Reply-To, References) und potentiell verschlüsselte Inhalte (S/MIME, PGP). Mehrsprachige Mandanten-Korrespondenz mischt DE, EN, FR, IT in einer Konversation.

Die Protokoll-Wahl bestimmt die Pipeline. IMAP ist universell aber langsam. EWS (Exchange Web Services) und Microsoft Graph sind die richtigen Wege für Microsoft 365 / Exchange Server. MBOX-Import ist sinnvoll, wenn ein Archiv-Export bereits existiert (z.B. nach Mandantenwechsel oder Compliance-Export).

Für Schweizer Büro ist die DSG-Konformität der entscheidende Filter. Mails enthalten häufig besonders schützenswerte Personendaten (Gesundheitsdaten, religiöse Zugehörigkeit, politische Aktivitäten). Berufsgeheimnis nach StGB Art. 321 (Anwälte, Ärzte) verlangt zusätzliche Vorkehrungen. Die Indexierung muss lokal oder in einer auditierbaren EU/CH-Cloud erfolgen, mit klarer Zweckbindung und Löschkonzept.

Warum es wichtig ist

Ein RAG-System ohne Mail-Indexierung ist halb-blind. Wer eine Mandanten-Frage beantworten muss ("Was haben wir Herrn Bachmann bezüglich der MWST-Korrektur 2024 geschrieben?"), findet die Antwort fast immer in einer Mail, nicht in einem Word-Dokument. Wer KI-Assistenz für Mitarbeiter aufbaut und Mails auslässt, verbrennt 70 Prozent des möglichen Nutzens.

Eine bisher manuell ausgeführte Mail-Recherche dauert in einer Treuhand typisch 15 bis 45 Minuten pro Fall (Suchen, scrollen, Quote-Blöcke zusammensetzen). Mit indexiertem Archiv plus RAG sind das 30 Sekunden. Bei 50 solchen Recherchen pro Monat in einer 5-Personen-Treuhand sind das gesparte 20 Stunden, bei CHF 90 internem Stundensatz CHF 1800 pro Monat.

Kritische Punkte: Threading muss erhalten bleiben. Eine Mail isoliert ist oft sinnlos ("siehe unten" ohne Kontext). Antworten werden im Thread gequotet, sodass naiv-chunkende Pipelines denselben Inhalt 5- bis 10-mal indexieren - Storage-Verschwendung und Retrieval-Rauschen. Anhänge brauchen einen eigenen Pfad: ein 30-seitiger Vertrag im Anhang darf nicht im Mail-Chunk mitlaufen, sondern muss eigenständig im RAG-Index landen, mit Verweis auf die ursprüngliche Mail. evDSG ist nicht nur Compliance-Last, sondern Geschäftsmodell-Risiko. Eine Mail-Indexierung, die unsensibel mit Anwalts-Mandanten-Korrespondenz umgeht, kann unter StGB Art. 321 als Berufsgeheimnis-Verletzung gewertet werden - Geldstrafe und Berufsverbot möglich. Indexierung muss verschlüsselt at rest, lokal verarbeitet, mit Audit-Log und Löschanspruch implementiert sein.

Wie es funktioniert

IMAP: universeller Standard, von jedem Mail-Server unterstützt. Python imaplib oder die höherwertige imap-tools Bibliothek liesen Mails per Folder. Vorsicht: viele Server limitieren die Connection-Anzahl, Parallelisierung muss gedrosselt sein. Für ein 50.000-Mail-Archiv braucht ein IMAP-Full-Sync 4 bis 12 Stunden.

EWS (Exchange Web Services): SOAP-API für Exchange Server und Microsoft 365. Python exchangelib oder ews-java-api. Weniger ratelimitiert als IMAP. Liefert MIME-Mails direkt oder strukturiertes XML. Sinnvoll bei Exchange-On-Premise-Migrationen.

Microsoft Graph: moderne REST-API für Microsoft 365. Python msgraph-sdk oder direktes HTTP. Liefert JSON. Token-basierte Auth via Azure App Registration. Empfohlene Wahl für Microsoft-365-Tenants. Pagination über @odata.nextLink. Rate-Limit: 4 Anfragen pro Sekunde, über Service-to-Service mit App-Permissions skalierbar.

MBOX/PST-Import: bei Archiv-Exporten (z.B. nach Mandantenwechsel). Python mailbox-Modul liest MBOX, libpff oder pypff liest PST. Eigene Adapter für Outlook-Archive (.ost).

Threading: In-Reply-To- und References-Header rekonstruieren Konversations-Bäume. Subject-Heuristiken (Re:, Fwd:) sind unzuverlässig. JWZ-Threading-Algorithmus (Jamie Zawinski, 1997) ist der Standard. Pro Thread sollte eine Konversations-Zusammenfassung erstellt werden, nicht jede einzelne Mail isoliert.

De-Duplikation: Quote-Blöcke in Antworten werden via Heuristiken (auf "Am ... schrieb ..." Marker, "On ... wrote", durchgestrichene Linien) abgetrennt. Tools: talon (Mailgun), email-reply-parser. Pro Mail wird nur der "neu geschriebene" Teil indexiert, der Quote-Teil verweist auf den Vorgänger.

Anhang-Pfad: Anhänge werden extrahiert, durch Document Loader (siehe document-loaders-formate) verarbeitet, separat indexiert und über ein "attached_to_mail_id"-Feld verknüpft. So findet ein RAG-Query "Mandant Bachmann MWST" sowohl die Mail als auch den angehängten MWST-Auszug.

Storage und Verschlüsselung: Mail-Bodies und Anhänge bleiben im Original-Storage (Verschlüsselt at rest, z.B. LUKS oder verschlüsselte Postgres-TDE). Nur Embeddings und Metadaten gehen in die Vektor-DB. Bei Löschanspruch eines Mandanten müssen alle Embedding-Einträge mit dessen ID entfernt werden - vorher: payload-indexierte Mandant-ID in Qdrant.

Mail-Archiv-Indexierungs-Workflow in 6 Schritten

  1. 01Postfach-Inventar: Anzahl Mails, Zeitraum, Sprachen, Verschlüsselungs-Quote, Anhang-Volumen. Protokoll wählen (IMAP, EWS, Graph, MBOX).
  2. 02Rechtsgrundlage und DSG-Konzept: Zweckbindung, Speicherdauer, Löschkonzept, Mandanten-Information, AVV mit Auftragsverarbeiter.
  3. 03Quote-Stripping und JWZ-Threading: pro Mail nur den neu geschriebenen Teil extrahieren, Thread-Beziehungen rekonstruieren.
  4. 04Anhang-Pipeline: Anhänge separat extrahieren, durch Document Loaders verarbeiten, mit "attached_to_mail_id" verknüpfen.
  5. 05Embedding und Vektor-DB: Mail-Body chunken (500 bis 800 Tokens), Metadaten anhängen (From, To, Date, Mandant, Vertraulichkeit), in Qdrant indexieren.
  6. 06Lösch- und Audit-Pipeline: Mandanten-ID payload-indexiert, Löschanspruch entfernt alle Embeddings mit dieser ID; jede Indexierung mit Zeitstempel und Bearbeiter geloggt.

Wann es einsetzen

Treuhand-, Anwalts- und Versicherungs-Büro mit historischer Mail-Korrespondenz ab 5 Jahren oder ab 50.000 Mails. Hier ist der manuelle Suchaufwand das grösste Zeit-Fresser-Pattern.

Firmen mit Mandanten-Onboarding-Prozessen, bei denen alte Mail-Threads relevant sind ("Was haben wir vor 3 Jahren mit diesem Mandanten besprochen?").

Kundenservice / Support-Postfächer, in denen wiederkehrende Fragen liegen und KI-gestützte Antwort-Vorschläge Sinn ergeben.

Compliance-Audits, bei denen E-Mail-Verlaufe nach bestimmten Themen durchsucht werden müssen (z.B. GwG-Check, ESG-Disclosure-Verfolgung).

Im Anwalts-Kontext bei Forensik-Fällen (e-discovery), in denen grosse Mail-Mengen schnell sortiert werden müssen.

Wann nicht

Kleine Postfächer unter 5000 Mails: einfache Volltextsuche (Outlook, Thunderbird) reicht. RAG-Setup amortisiert sich nicht.

Mail-Bestände mit hoher Quote von verschlüsselten Mails (S/MIME, PGP), die ohne Schlüssel nicht entschlüsselbar sind. Hier muss erst der Schlüssel-Workflow geklärt werden.

Kundenservice-Setups mit hoher Privacy-Sensitivität (psychologische Beratung, Suchtberatung), in denen die Re-Identifizierung einzelner Mandanten über das RAG-System ein Risiko darstellt. Hier: striktes Pseudonymisierungs-Setup (siehe anonymisierung-pseudonymisierung) vor Indexierung.

Mail-Postfächer Dritter, für die keine Zweckbindung nachgewiesen werden kann. Wer fremde Mail-Bestände ohne klare Mandanten-Vollmacht indexiert, verletzt DSG und potentiell StGB Art. 321bis.

Vor- und Nachteile

STÄRKEN

  • Macht 60 bis 80 Prozent der historischen Korrespondenz für KI nutzbar
  • Mandanten-Recherche von 30 Minuten auf 30 Sekunden
  • JWZ-Threading und Quote-Stripping reduzieren Index-Grösse deutlich
  • Anhang-Pfad verbindet Mails mit zugehörigen Dokumenten

SCHWÄCHEN

  • Hohes DSG- und Berufsgeheimnis-Risiko, sorgfältiges Konzept nötig
  • Verschlüsselte Mails (S/MIME, PGP) erfordern Schlüssel-Workflow
  • IMAP-Voll-Sync von Grosspostfächern dauert Stunden
  • Quote-Stripping nie perfekt, einzelne Duplikate bleiben

Häufige Fragen

IMAP oder Microsoft Graph?

Für Microsoft 365 immer Graph (besser dokumentiert, höhere Ratelimits, modernes Auth). Für Exchange-On-Premise: EWS oder Graph (ab Exchange 2019). IMAP nur für fremde Mailserver (Gmail, kleine Hoster), bei denen Graph oder EWS nicht verfügbar sind.

Wie behandle ich verschlüsselte Mails (S/MIME, PGP)?

Vor Indexierung entschlüsseln (mit Schlüssel-Material des Mandanten oder der Kanzlei), Klartext indexieren, Verschlüsselungs-Marker im Metadaten-Feld behalten. Ohne Schlüssel: Mails nur über Header indexieren (Subject, From, Date), Body bleibt verschlüsselt und nicht durchsuchbar.

Wie verhindere ich Duplikate durch Quote-Blöcke?

Quote-Stripping mit talon (Mailgun) oder email-reply-parser vor Embedding. Pro Mail nur den neu verfassten Teil chunken. Der gequotete Teil wird über Thread-Beziehung referenziert, nicht erneut indexiert. Spart 50 bis 70 Prozent Storage.

Was kostet die Indexierung eines 50.000-Mail-Archivs?

Embedding-Kosten (OpenAI text-embedding-3-small): ca. CHF 8 bis 15 einmalig. Qdrant-Storage: weniger als CHF 3 pro Monat. Anhang-OCR (siehe ocr-für-belege-und-verträge) je nach Volumen: CHF 50 bis 300 einmalig. Server-Hosting für Pipeline: CHF 25 bis 50 pro Monat. Gesamteinmalig: CHF 60 bis 320, laufend ca. CHF 30 bis 60 pro Monat.

Verwandte Themen

RAG · AI-KONZEPTRetrieval-Augmented Generation (RAG): Wie KI aus eigenen Dokumenten antwortetDOCUMENT LOADERS · AI-KONZEPTDocument Loaders: PDF, DOCX, XLSX, EML, HTML, Markdown sauber in RAG einlesenCHUNKING · AI-KONZEPTChunking-Strategien für RAG: Fixed-Size, Recursive, Semantic, Late-ChunkingDATENBEREINIGUNG · AI-KONZEPTDatenbereinigung vor RAG: Duplikate, Boilerplate, OCR-Artefakte, Charset-Issues, WatermarksANONYMISIERUNG · AI-KONZEPTAnonymisierung und Pseudonymisierung: Presidio, Privacera, K-Anonymität, Differential PrivacyMETADATEN · AI-KONZEPTMetadaten und Filter in RAG: Pre-Filter vs Post-Filter, Qdrant Payload Index, pgvector WHEREDSGVO · COMPLIANCEDSGVO und LLMs: Wann die EU-Datenschutz-Grundverordnung CH-Unternehmen direkt trifft

Quellen

  1. Microsoft Graph - Mail API documentation · 2026-05
  2. Mailgun talon - email quote and signature extraction · 2026-05
  3. JWZ - message threading algorithm · 2026-05
  4. EDÖB - data protection guidance for email archives · 2026-05

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen