RAG MIT EIGENEM WISSEN · SERVICE

RAG mit eigenem Wissen: Antworten aus Ihren Dokumenten – mit Quelle, nicht erfunden

Durchsuchbare Wissensbasis mit Chat. PII-Schwärzung, Zitat-Prüfung, DE/FR/IT/EN. Pilot bis 10000 Docs CHF 3500, Production ab CHF 8500.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Was beinhaltet der Service?

Wir bauen Ihnen eine KI, die aus Ihren eigenen Dokumenten antwortet – Verträge, Handbücher, Mandantenakten, Wegleitungen, Schriftverkehr. Mit Quellenangabe pro Antwort, nicht erfunden. PII-Schwärzung vor dem Modell-Aufruf und Zitat-Prüfung nach der Antwort. Sprachen: Deutsch, Französisch, Italienisch, Englisch. Hosting: auf Ihrem Server, mit Qdrant als Vektor-Datenbank.

Der Service ist die produktive Umsetzung des Architektur-Musters Retrieval-Augmented Generation (siehe das verlinkte Konzept-Thema für die Theorie). Wir liefern hier die Service-Sicht: was bekommen Sie, wie lange dauert es, was kostet es, und was sind die Stellschrauben in der Praxis.

Varianten: Pilot bis 10000 Dokumente (CHF 3500) als 2- bis 3-wochige Implementierung mit einer Datenquelle, einer Chat-UI und Basis-Logging. Production über 100000 Dokumente (ab CHF 8500, individuell) mit mehreren Datenquellen, automatischer Re-Indexierung bei Änderungen, Hybrid-Retrieval (Vektor plus BM25 plus Reranker), Citation-Guards und Audit-Trail nach Art. 957a OR.

Was wir nicht machen: rohe KI-Beratung ohne Implementation, Mandanten-Datenmigration aus Papierakten (das ist Digitalisierung, kein RAG), oder eine reine Cloud-RAG-Lösung in einem US-Hyperscaler. Der Stack läuft auf Ihrem Server.

Warum dieser Service

Drei Probleme löst die produktive RAG-Implementation.

Halluzination. Ein Sprachmodell ohne RAG antwortet plausibel, aber falsch – vor allem bei branchenspezifischem Wissen. „Welche Wegleitung gilt für Spesen-Pauschalen 2026?" beantwortet GPT-4 mit Fantasie-Paragraphen. RAG erdet die Antwort auf das Original-Dokument, gibt Seitenzahl mit, und sagt „nicht im Material", wenn die Quelle fehlt.

Datenstandort. Ihre Mandanten-Korrespondenz, Ihre Vertragsablage, Ihre Handbücher – die sollen nicht an ChatGPT zur „Verbesserung des Diensts" wandern. Mit Qdrant on-premise (auf Ihrem Hetzner-Server) bleibt das Material in der EU. Nur die zur Frage passende Passage wandert – verschlüsselt – an das ausgewählte Sprachmodell, und auch das lässt sich auf EU-only oder lokal beschränken (siehe Multi-LLM Gateway).

Compliance-Tauglichkeit. Buchführungspflichtige Vorgänge brauchen nach Art. 957a OR einen Audit-Trail. Wenn ein KI-Vorschlag in einer Mahnung, einer Rechnung oder einem Vertrag landet, muss nachvollziehbar sein, welche Quelle dahinter stand. RAG mit Citation-Logging liefert das automatisch – jede Antwort ist mit Quellen-Hash und Retrieval-Snapshot verknüpft.

In 2026 gehört RAG zum Standard-Pattern für Schweizer Treuhand- und Anwalts-KI. Die OWASP-LLM-Top-10 (Stand 2026) listet „Sensitive Information Disclosure" und „Vector and Embedding Weaknesses" explizit – RAG mit PII-Schwärzung und Citation-Check ist die direkte Antwort darauf.

Wie der Service implementiert wird

Die Implementation läuft in sechs Phasen über 2 bis 4 Wochen (Pilot) oder 6 bis 12 Wochen (Production).

Phase 1 – Quellsysteme: Wir inventarisieren, woher Dokumente kommen – Dateifreigabe, SharePoint, Mail-Anhänge, CRM-Anhänge, Scan-Archiv. Wir klassifizieren die Vertraulichkeit (öffentlich / intern / vertraulich / Berufsgeheimnis) und definieren, welche Klassen überhaupt in den Index gehen.

Phase 2 – Ingestion und Chunking: Tools wie unstructured.io oder LlamaIndex konvertieren PDF, Word, HTML und OCR-Scans in reinen Text. Struktur-aware-Chunking nach Markdown-Headers oder PDF-Bookmarks liefert bessere Resultate als blindes Token-Schneiden. Typische Chunk-Grösse: 300 bis 800 Tokens mit 50 bis 100 Token Überlapp.

Phase 3 – PII-Schwärzung: Vor dem Embedding läuft eine Schwärzungs-Pipeline (Microsoft Presidio oder ein Regex-plus-NER-Pipeline) über den Text. Sie ersetzt Namen, AHV-Nummern, Adressen, IBAN, Telefonnummern durch Tokens (`[PERSON_1]`, `[IBAN_3]`), die in einer separaten Map gespeichert werden. Das Original-Dokument bleibt unangetastet – nur der Index sieht die geschwärzte Version. Beim Output kann die Schwärzung optional rückgängig gemacht werden, für interne Nutzer mit entsprechender Berechtigung.

Phase 4 – Embedding und Index: Wir empfehlen OpenAI text-embedding-3-large (3072 Dimensionen, mehrsprachig, ca. CHF 0.10 pro 1M Tokens) oder Cohere embed-multilingual-v3 (1024 Dimensionen, EU-tauglich, etwas günstiger). Die Vektoren landen in Qdrant – mit Metadaten zu Mandant, Datum, Vertraulichkeit, Quellen-URL. Qdrant läuft als Docker-Container auf Ihrem Server.

Phase 5 – Retrieval und Generierung: Bei der Anfrage wird zuerst die Frage embedded, dann über Qdrant die Top-k Chunks abgerufen (typisch k=8). Bei Production-Variante kommt Hybrid-Retrieval dazu (Qdrant-Vektor plus BM25-Volltext-Suche) und ein Cross-Encoder-Reranker (Cohere Rerank 3, BGE-reranker) der die Top-3 herausschält. Die Frage plus die Chunks gehen mit klarer Refusal-Instruktion an das Sprachmodell – geroutet über den Multi-LLM Gateway, mit Datenklasse-passendem Modell.

Phase 6 – Citation-Check und Audit-Log: Nach der Antwort prüft eine Citation-Pipeline, ob die zitierten Stellen tatsächlich im Retrieval-Resultat waren. Halluzinierte Zitate werden gefiltert und mit „Quelle nicht im Material" markiert. Jede Anfrage geht ins Audit-Log: Prompt-Hash, Retrieval-Snapshot, gewähltes Modell, Token-Counts, Antwort, Citation-Check-Ergebnis. Bei Production-Variante ist das mit hashketten gesichert und nach Art. 957a OR ausgelegt.

RAG-Service-Workflow in 7 Schritten

01Quellsysteme inventarisieren: welche Dokumente, in welchem Format, mit welcher Vertraulichkeitsstufe?
02Ingestion-Pipeline bauen: PDF/Word/Mail/HTML in reinen Text mit Metadaten konvertieren.
03PII-Schwärzung schalten: Namen, AHV, IBAN, Adressen tokenisieren vor dem Embedding.
04Embedding und Indexierung: text-embedding-3-large oder Cohere multilingual, Vektoren nach Qdrant.
05Retrieval-Logik: k=8 Top-Treffer, optional Hybrid mit BM25 plus Cross-Encoder-Rerank.
06Antwort-Prompt mit Refusal-Instruktion und Citation-Check vor Ausgabe.
07Audit-Log und Re-Indexierung: jede Anfrage protokollieren, geänderte Dokumente automatisch neu indexieren.

Wann der Service sich lohnt

Der Service lohnt sich, wenn (a) Antworten in Ihren Dokumenten stehen und nicht in allgemeinem Welt-Wissen, (b) Sie die Quelle nachweisen müssen – sei es für Buchführungs-Pflicht, Berufsgeheimnis oder Audit-Trail, (c) Sie zu viel Material haben, um es einfach in einen Prompt zu kopieren (typisch ab 50 bis 100 Dokumenten), und (d) das Material digital vorliegt (PDF, Word, E-Mail – kein Papierarchiv ohne OCR).

Konkrete Use-Cases aus der Schweiz: Eine Anwaltskanzlei mit 8 Anwälten indexiert 15 Jahre Mandanten-Schriftverkehr – ein neuer Mandant fragt, der Anwalt bekommt in 5 Sekunden eine Zusammenfassung mit Quellenangabe der relevanten Akten. Eine Treuhand mit 80 Mandaten indexiert die kantonalen Steuer-Wegleitungen – bei MWST-Fragen kommt die richtige Klausel mit Paragraph und Aktualitätsdatum. Ein Industrie-KMU indexiert 4000 SOPs, Maschinen-Handbücher und Reparatur-Protokolle – Servicetechniker fragen über WhatsApp-Bot und bekommen die richtige Stelle.

Der Pilot ist die richtige Wahl, wenn Sie eine einzelne Datenquelle, eine Abteilung und ein klar geschnittenes Anliegen haben. Production wird sinnvoll, wenn mehrere Datenquellen zusammenkommen, automatische Re-Indexierung nötig ist (Mandanten-Akten ändern sich), oder wenn die Antworten in regulierte Prozesse hineinwirken (Steuer-Beratung, Rechts-Auskunft, Compliance).

Wann NICHT

Der Service ist die falsche Wahl, wenn (a) Ihre Dokumente nicht digital vorliegen – dann kommt erst Digitalisierung mit OCR, das ist ein eigener Service, nicht Teil dieses Moduls, (b) Sie zu wenig Material haben (unter 30 bis 50 Dokumente passen in den Kontext eines modernen Sprachmodells, RAG ist Overhead), (c) Sie kreative Texte aus dem Nichts wollen (Verkaufstexte, neue Vertragsentwürfe – RAG erdet auf bestehendem Material und unterdrückt Originalität), oder (d) Ihre Daten zu sensibel sind, um sie überhaupt zu indexieren.

Der letzte Punkt ist wichtig: Auch bei lokaler Vektor-DB bleibt der Embedding-Vektor eine Repräsentation Ihres Texts. In seltenen Fällen können aus Embeddings Bruchstücke des Originals rekonstruiert werden (siehe „Embedding Inversion Attacks", arXiv 2024). Bei extrem sensiblen Daten (interne Untersuchungen, Strafrecht-Mandate, M&A-Vorbereitungen) ist RAG nicht der erste Schritt – sondern eine isolierte Sub-Datenbank pro Mandat mit verschlüsseltem Index.

Und: RAG löst kein Workflow-Problem. Es liefert Antworten – keine Aktionen. Wer Rechnungen automatisch verbuchen, Termine automatisch eintragen oder Mails automatisch beantworten will, braucht zusätzlich Workflow-Automation (siehe n8n-Modul). RAG ist die Wissens-Schicht; n8n ist die Handlungs-Schicht.

Vor- und Nachteile

STÄRKEN

Antwort mit Quellenangabe – nachprüfbar, audit-tauglich nach Art. 957a OR
Daten bleiben in der eigenen Infrastruktur, Qdrant on-premise
PII-Schwärzung vor dem Modell-Aufruf – auch lokale Vektoren sehen keine Klartext-Namen
DE/FR/IT/EN mehrsprachig – Cohere embed-multilingual deckt CH-Sprachen ab
Pilot in 2 bis 3 Wochen lieferbar – nicht 6 Monate Projektzeit

SCHWÄCHEN

Bewegliche Teile: Ingestion, Chunking, Embedding, Retrieval – jede Station kann brechen
Bei nicht-digitalem Material kommt zuerst OCR-Digitalisierung – Mehraufwand
Retrieval-Qualität ist nur so gut wie das Chunking – schlecht geschnittene Dokumente liefern schlechte Antworten
Bei extrem sensiblen Daten (M&A, Strafrecht) bleibt Embedding-Inversion ein Restrisiko
Löst kein Workflow-Problem – Aktionen brauchen zusätzlich n8n

Häufige Fragen

Wie lange dauert ein Pilot wirklich?

Bei vorbereiteten digitalen Dokumenten und einer einzigen Datenquelle: 2 Wochen kalenderzeit, davon 4 bis 6 Manntage Aufwand. Bei mehreren Quellen oder PDF-Scan-Material mit OCR-Bedarf: 3 bis 4 Wochen. Wir geben am Ende der ersten Woche eine ehrliche Re-Estimation – wenn das Material schwieriger ist als erwartet, sehen Sie das früh.

Was kostet der laufende Betrieb?

Bei einem 5-Personen-Treuhand-Büro mit 200 Anfragen pro Monat und 10000 Dokumenten: Qdrant-Container kostet null (läuft auf bestehendem Server), Embedding-Setup einmalig CHF 15 bis 40, pro Anfrage ca. CHF 0.002 plus Sprachmodell-Kosten. Insgesamt unter CHF 30 pro Monat laufende Cloud-Kosten. Bei 100000 Dokumenten und 2000 Anfragen pro Monat: CHF 100 bis 250.

Was, wenn das Material in OneDrive oder SharePoint liegt?

Anbindbar. Wir haben Connectoren für Microsoft Graph API, Google Drive API, Nextcloud, lokale Dateifreigaben und IMAP-Mail. Bei OneDrive oder SharePoint läuft ein Inkremental-Sync über Webhook, sodass geänderte Dokumente innerhalb von Minuten neu indexiert sind. Zugriffsrechte aus Microsoft 365 werden mitgenommen – ein Sachbearbeiter sieht nur Antworten aus Dokumenten, für die er Zugriff hat.

Wie verhindern Sie, dass das Modell halluziniert?

Drei Schichten. Erstens: klare Refusal-Instruktion im System-Prompt – „Antworte nur aus den gegebenen Quellen. Wenn die Antwort dort nicht steht, sage das." Zweitens: Citation-Check nach der Antwort, der jedes Zitat gegen das Retrieval-Resultat abgleicht. Drittens: bei kritischen Use-Cases (Steuer-Auskunft, Rechts-Auskunft) ein Human-in-the-Loop – die KI schlägt vor, ein Mensch gibt frei.

Quellen

Lewis et al. – Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (Meta AI) · 2020-05
Qdrant – Production vector search engine documentation · 2026-05
Microsoft Presidio – PII detection and anonymisation · 2026-03
OWASP – Top 10 for LLM Applications 2026 · 2026-02
Kiteworks – RAG Pipeline Security Best Practices 2026 · 2026-03
OpenAI – Embeddings guide (text-embedding-3 family) · 2026-04

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen