RAG · AI-KONZEPT
Retrieval-Augmented Generation (RAG): Wie KI aus eigenen Dokumenten antwortet
RAG koppelt ein Sprachmodell an eine durchsuchbare Wissensbasis. Antworten kommen mit Quellenangabe, nicht aus dem Training erfunden.
Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05
Was ist RAG?
Retrieval-Augmented Generation, kurz RAG, ist ein Architektur-Muster, das ein Sprachmodell zur Antwortzeit mit relevanten Textstellen aus einer eigenen Dokumenten-Bibliothek versorgt. Statt das Modell „aus dem Gedächtnis" sprechen zu lassen, sucht ein Retriever zuerst in einer Vektor-Datenbank die Passagen, die zur Frage passen. Diese Passagen wandern als zusätzlicher Kontext in den Prompt. Das Modell antwortet dann auf Basis dieser Stellen – und kann sie zitieren.
Der Begriff stammt aus dem Meta-AI-Paper von 2020 (Lewis et al.). Seit Ende 2023 ist RAG das Standard-Pattern für unternehmensinterne KI-Assistenten in Branchen, in denen die Antwort beweisbar sein muss: Recht, Treuhand, Medizin, Versicherung. Mai 2026 ist RAG produktreif: Vektor-Datenbanken (Qdrant, Weaviate, Milvus) laufen stabil auf eigener Hardware, Embedding-Modelle (OpenAI text-embedding-3, Cohere embed-multilingual-v3, BGE-large) sind günstig und mehrsprachig.
Warum es wichtig ist
Ein Sprachmodell ohne RAG halluziniert plausibel, aber falsch. Für jede Frage, deren Antwort in einem Mandantenvertrag, in einer internen Wegleitung oder in einer Verband-Verordnung steht, ist „plausibel, aber falsch" inakzeptabel. RAG schliesst diese Lücke auf drei Ebenen.
Erstens: nachprüfbare Quelle. Jede Antwort kann auf das genaue Dokument und die Seite verweisen, aus der sie stammt. Das ist nicht nur Komfort – es ist Voraussetzung für revisionsfähige KI-Nutzung nach Art. 957a OR (Buchführung) und für jede Tätigkeit unter Berufsgeheimnis (StGB Art. 321).
Zweitens: Datensouveränität. Bei korrekter Implementation verlässt das eigentliche Dokument nie das eigene Hostingsystem. Nur die zur Frage passende Passage geht – verschlüsselt – an das Sprachmodell. Sensible Mandantendaten können bei „nur EU-Modell" oder „nur lokal" gehalten werden (siehe Multi-LLM-Routing).
Drittens: aktuelles Wissen. Modelle haben einen Trainings-Cutoff (das aktuelle Claude-Spitzenmodell z.B. Januar 2026). RAG umgeht das: Neue Dokumente werden indexiert, sofort abrufbar, ohne Modell-Retraining.
Wie es funktioniert
Eine RAG-Pipeline hat fünf Stationen: Ingestion, Chunking, Embedding, Retrieval, Generierung. Jede Station ist tauschbar – das macht die Architektur robust.
Ingestion: Dokumente (PDF, Word, E-Mail, HTML, OCR-Scans) werden aus ihren Quellsystemen abgeholt. Tools wie unstructured.io, LlamaIndex oder eigene Adapter konvertieren in reinen Text und behalten Metadaten (Mandant, Datum, Vertraulichkeit).
Chunking: Lange Dokumente werden in handliche Stücke geschnitten, typischerweise 300–800 Tokens mit 50–100 Token Überlapp. Strukturbewusstes Chunking (z.B. nach Absätzen oder Kapiteln) liefert bessere Retrieval-Qualität als blindes Tokens-Zählen.
Embedding: Jeder Chunk wird durch ein Embedding-Modell in einen Vektor verwandelt – eine Liste von 384, 768, 1024 oder 3072 Zahlen. Semantisch ähnliche Texte landen im Raum nahe beieinander. OpenAI text-embedding-3-small ist günstig (~CHF 0.02 pro 1M Tokens) und gut für Deutsch.
Retrieval: Die Vektor-Datenbank (Qdrant lokal, Pinecone gehostet) findet die k=4..10 ähnlichsten Chunks zur Frage. Optional: Reranking mit einem Cross-Encoder (Cohere Rerank 3, BGE-reranker) verbessert die Top-Treffer um 15–30%.
Generierung: Die Original-Frage plus die gefundenen Chunks gehen als Prompt an das Sprachmodell. Mit klarer Anweisung („Antworte nur auf Basis der gegebenen Quellen. Wenn die Antwort dort nicht steht, sage „nicht im Material") liefert das Modell eine geerdete Antwort plus Zitate.
RAG-Workflow in 6 Schritten
- 01Quellsysteme inventarisieren: Welche Dokumente, in welchem Format, mit welcher Vertraulichkeitsstufe?
- 02Chunking-Strategie wählen: Struktur-aware (Markdown-Header, PDF-Bookmarks) statt blind nach 500 Tokens.
- 03Embedding-Modell wählen: OpenAI text-embedding-3-small für Standard, BGE-large-en/de für lokal-only, Cohere embed-multilingual für DE/FR/IT.
- 04Vektor-Datenbank aufsetzen: Qdrant on-prem für revDSG, Pinecone für ressourcenarme Setups.
- 05Retrieval-Logik bauen: k=8 Top-Treffer, optional Cross-Encoder-Rerank für Top-3.
- 06Antwort-Prompt definieren: „Antworte nur aus den gegebenen Quellen. Zitiere mit [1], [2]. Wenn die Antwort dort nicht steht, sage es."
Wann RAG einsetzen
RAG ist die richtige Wahl, wenn (a) die Antwort in vorhandenen, internen Dokumenten steht, (b) Sie die Quelle nachweisen müssen und (c) die Datenmenge zu gross ist, um sie in jeden Prompt zu kopieren.
Konkrete Anwendungsfälle in der Schweiz: Mandanten-FAQ aus 5 Jahren Korrespondenz, Wegleitungen der Steuerverwaltung als durchsuchbares Wissen, interne Praxis-Bibliothek einer Anwaltskanzlei, Handbücher und SOPs eines KMU. Treuhand-Büros nutzen RAG für Mandanten-Onboarding (welche Unterlagen brauchen wir bei einem Erbgang in Zug?), für MWST-Abrechnung (welche Belege fehlen?), für Mahnwesen (was steht im letzten Schriftwechsel mit diesem Mandanten?).
Die Grösse der Wissensbasis ist erstaunlich flexibel. Qdrant indexiert auf gewöhnlicher Hardware Millionen von Chunks; selbst eine 500-Mitarbeiter-Kanzlei kommt selten über 10 Millionen Chunks. Die Antwortzeit bleibt unter zwei Sekunden – auch bei grossen Beständen.
Wann NICHT
RAG ist die falsche Wahl, wenn die Antwort nicht aus Dokumenten kommt, sondern aus generellem Weltwissen („Was kostet ein Big-Mac in Genf?") – dafür reicht das Sprachmodell direkt. RAG ist auch falsch, wenn die Daten so klein sind, dass sie ganz in einen Prompt passen – moderne Modelle haben 200k bis 2M Token Kontext, eine 30-Seiten-Wegleitung passt komplett rein, schneller und einfacher als RAG.
Weitere Fallen: Wenn die Original-Dokumente nicht digital vorliegen, ist RAG nicht der erste Schritt – zuerst kommt OCR und Dateiformat-Konvertierung (siehe AI-Belegerkennung). Wenn die Dokumente häufig verändert werden, muss die Pipeline Re-Indexing automatisch triggern – sonst antwortet RAG mit veraltetem Stand. Wenn Antworten kreativ sein sollen („Schreibe mir einen Vermietungs-Vertrag von Grund auf"), ist RAG einschränkend – es erdet die Antwort auf bestehendes Material und unterdrückt Originalität.
Vor- und Nachteile
STÄRKEN
- Antwort mit Quellenangabe – nachprüfbar, revisionsfähig
- Aktuelles Wissen ohne Modell-Retraining
- Daten bleiben in der eigenen Infrastruktur (bei lokaler Vektor-DB)
- Skalierbar: Millionen von Dokumenten ohne Prompt-Limit-Probleme
SCHWÄCHEN
- Mehr bewegliche Teile: Ingestion, Chunking, Embedding, Retrieval – jede Station kann brechen
- Initialer Setup-Aufwand: 3–10 Tage je nach Datenvielfalt
- Retrieval-Qualität ist nur so gut wie das Chunking – schlecht geschnittene Dokumente liefern schlechte Antworten
- Modell halluziniert immer noch, wenn der Retriever leer kommt und der Prompt nicht refused
Häufige Fragen
Was kostet eine RAG-Pipeline für 10.000 Dokumente?
Embedding-Setup einmalig: ca. CHF 15–40 (text-embedding-3-small). Storage auf Qdrant: < CHF 5/Monat. Pro Anfrage: ca. CHF 0.002 (Embedding der Frage + Retrieval) plus die Modell-Kosten. Insgesamt für eine 5-Personen-Treuhand mit 200 Anfragen pro Monat: < CHF 20/Monat laufende Cloud-Kosten, plus die Einrichtung.
Halluziniert RAG immer noch?
Weniger, nicht null. Wenn der Retriever keine passende Quelle findet, kann das Modell trotzdem etwas erfinden – ausser, der Prompt zwingt es explizit, das zu sagen. Zwei Gegenmittel: (a) klare Refusal-Instruktion im System-Prompt, (b) eine Citation-Check-Pipeline, die nach der Antwort prüft, ob die zitierten Stellen tatsächlich im Retrieval-Resultat waren.
Brauche ich GPU-Hardware?
Nein, für reine RAG-Retrieval reichen CPUs. Qdrant läuft auf gewöhnlichen Servern. GPU wird nur relevant, wenn Sie ein Embedding-Modell oder das Sprachmodell SELBST lokal betreiben wollen (z.B. Llama 3.1 8B + BGE-large on-prem). Für Standard-Setups mit Cloud-LLM-Provider: keine GPU nötig.
Verwandte Themen
Quellen
PASSEND ZU IHREM STACK?