RAG-PILOT · KOSTEN
Was kostet ein RAG-Pilot? Drei Stufen: 1k, 10k, 100k Dokumente
Konkrete Kostenrechnung für einen RAG-Pilot in der Schweiz: Embedding, Vektor-DB, LLM-Inferenz, Einrichtungs-Aufwand. Drei Volumen-Stufen mit Zahlen in CHF.
Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05
Worum geht es?
Ein RAG-Pilot (Retrieval-Augmented Generation, siehe Retrieval-Augmented-Generation) ist die kleinste produktive Form, das eigene Dokument-Wissen einer KI zugänglich zu machen: Dokumente werden indexiert, eine Vektor-Datenbank speichert die Embeddings, ein Sprachmodell antwortet mit Quellenangabe. Die Frage ist konkret: Was kostet das beim Aufbau, was kostet der Betrieb pro Monat, und wie skaliert die Kostenstruktur, wenn aus 1'000 Dokumenten 100'000 werden?
Dieser Beitrag rechnet drei Stufen durch – 1'000 / 10'000 / 100'000 Dokumente – mit klaren Annahmen: durchschnittliche Dokumentlänge 5 Seiten, etwa 2'500 Tokens pro Dokument. Es wird unterschieden zwischen einmaligen Setup-Kosten (Embedding, Engineering) und laufenden Betriebskosten (Storage, LLM-Anfragen, Wartung). Die Zahlen stammen aus dem Mai 2026 von OpenAI, Cohere, Qdrant Cloud, Pinecone, Hetzner sowie aus der fairlane.systems Pricing-Liste.
Die Kernerkenntnis vorweg: Ein RAG-Pilot mit 10'000 Dokumenten kostet im Aufbau zwischen CHF 3'500 und CHF 8'500 (je nach Schnittstellen-Komplexität), im Betrieb CHF 30 bis CHF 80 pro Monat plus Modell-Aufrufe. Bei 100'000 Dokumenten verdoppeln sich Storage und Setup nicht – die Kosten skalieren unterproportional, weil Embedding-Modelle und Vektor-DB konstante Stückkosten haben.
Warum die Pilot-Frage wichtig ist
Drei häufige Missverständnisse machen RAG-Projekte teurer, als sie sein müssten. Erstens: Anbieter-Angst. Wer „KI" hört, erwartet Enterprise-Preise mit fünfstelligen Setup-Kosten. Die Realität ist, dass die Open-Source-Komponenten (Qdrant, LangChain, LlamaIndex, vLLM, Ollama) gratis sind und der eigentliche Aufwand im sauberen Daten-Mapping liegt. Zweitens: Falsches Skalierungs-Bild. Viele rechnen linear („10x Dokumente = 10x Kosten"). Tatsächlich skaliert die Vektor-DB unterproportional, weil Storage billig ist und Embedding-Kosten einmalig anfallen. Drittens: Engineering-Posten unterschätzt. Die teuerste Komponente ist nicht die Cloud-Rechnung, sondern die Einrichtungs-Zeit für Dokumenten-Ingestion, Chunking-Strategie und Qualitätsprüfung.
Für Schweizer KMU und Treuhand-Büros sind diese Zahlen entscheidend, weil sie die Go/No-Go-Entscheidung treffen. Ein Pilot für CHF 3'500 mit 4-Wochen-Laufzeit ist eine vertretbare Investition. Ein Pilot für CHF 35'000 ist es nicht. Wer ohne Kostenrahmen startet, baut entweder zu viel (Over-Engineering mit eigener Vektor-DB-Plattform) oder zu wenig (Prototyp ohne Audit-Trail, der nicht in den Produktivbetrieb darf).
Vierter Punkt: Die laufenden Kosten hängen mehr vom Nutzungsverhalten ab als von der Dokumentenmenge. 10 Anfragen pro Tag kosten zwischen CHF 0.50 und CHF 5 pro Monat im LLM-Aufruf – abhängig vom gewählten Modell (die aktuelle DeepSeek-V-Generation USD 0.30/0.50, Claude Sonnet USD 3/15 pro 1M Token). Das macht Routing-Strategien (siehe Multi-LLM-Routing-Strategien) sofort relevant.
Drei Stufen, ehrliche Zahlen
Wir rechnen drei Volumen-Stufen mit gleichen Annahmen durch: durchschnittlich 5 Seiten pro Dokument, 2'500 Tokens, monatlich 200 Anfragen, je 8'000 Input/1'500 Output Tokens (typisches Treuhand-Profil).
Stufe 1: 1'000 Dokumente (Pilot-Minimum) Index-Volumen: 2.5 Mio Tokens. Einmalig Embedding (OpenAI text-embedding-3-small bei USD 0.02/1M Token): USD 0.05 – praktisch null. Vektor-DB Qdrant self-host: CHF 0 (läuft auf 2GB-RAM-Server mit). Qdrant Cloud Starter: USD 25/Monat. Pinecone Standard: USD 70/Monat. LLM-Inferenz bei 200 Anfragen/Monat mit Claude Sonnet (USD 3/15): ca. USD 9/Monat. Mit die aktuelle DeepSeek-V-Generation (USD 0.30/0.50): ca. USD 1.50/Monat. Engineering-Setup: 3-5 Tage zu CHF 1'200/Tag = CHF 3'500 bis CHF 6'000 einmalig. Total einmalig: CHF 3'500 (Self-Host) bis CHF 6'000 (Cloud-Stack). Total monatlich: CHF 0-90.
Stufe 2: 10'000 Dokumente (kleine Kanzlei / mittlere Treuhand) Index-Volumen: 25 Mio Tokens. Einmalig Embedding: USD 0.50 – immer noch praktisch null. Vektor-DB Qdrant self-host: CHF 30-50/Monat (kleiner VPS bei Hetzner). Qdrant Cloud: USD 35-70/Monat. Pinecone: USD 70-150/Monat. LLM-Inferenz: gleich 200 Anfragen/Monat = USD 9 bzw. USD 1.50. Engineering-Setup: 5-8 Tage = CHF 5'500 bis CHF 8'500. Total einmalig: CHF 5'500 bis CHF 8'500. Total monatlich: CHF 30-160.
Stufe 3: 100'000 Dokumente (mittlerer Konzern / grosse Kanzlei) Index-Volumen: 250 Mio Tokens. Einmalig Embedding: USD 5 – immer noch praktisch vernachlässigbar. Vektor-DB Qdrant self-host: CHF 80-150/Monat (grösserer VPS oder kleiner Dedicated bei Hetzner). Qdrant Cloud: USD 200-500/Monat. Pinecone: USD 500-1200/Monat. LLM-Inferenz bei z.B. 2'000 Anfragen/Monat: USD 90 (Claude) oder USD 15 (DeepSeek). Engineering-Setup: 10-15 Tage (Multi-Schnittstellen-Ingestion, Audit-Trail, RBAC) = CHF 12'000 bis CHF 18'000. Total einmalig: CHF 12'000 bis CHF 18'000. Total monatlich: CHF 100-1'500.
Einrichtungs-Aufwand der fairlane.systems: Wir veranschlagen für einen sauberen Treuhand-RAG-Pilot CHF 3'500 (Stufe 1) bzw. CHF 5'500-8'500 (Stufe 2) als Pauschale, inklusive Dokumenten-Ingestion, Chunking-Optimierung, Test-Suite, Audit-Trail-Einrichtung. Siehe rag-eigenes-wissen für die Service-Details.
Der interessante Befund: Bei 100x mehr Dokumenten steigen die Kosten nur 3-5x, nicht 100x. Das macht RAG für KMU besonders attraktiv: Sie können klein starten und ohne Architektur-Wechsel skalieren.
RAG-Pilot-Kalkulation in 6 Schritten
- 01Dokumentenmenge zählen: Wie viele PDFs/Word/Mails sind im Ablagesystem? Durchschnittliche Länge schätzen (Seiten oder Tokens).
- 02Anfragefrequenz schätzen: 10, 50, 200, 1'000 Anfragen pro Monat? Pro Anfrage typisch 8'000 Input + 1'500 Output Tokens.
- 03Modell-Wahl treffen: die aktuelle DeepSeek-V-Generation für Kosten (USD 0.30/0.50 per 1M), Claude Sonnet für Qualität (USD 3/15), Mistral Large für EU-Region (USD 2/6).
- 04Vektor-DB-Variante wählen: Qdrant self-host (CHF 0-150/Monat) oder Qdrant Cloud / Pinecone (USD 25-1'200/Monat).
- 05Setup-Aufwand kalkulieren: 3-5 Tage für 1k Doks, 5-8 Tage für 10k, 10-15 Tage für 100k. Bei CHF 1'200/Tag.
- 06ROI rechnen: Eingesparte Recherche-Stunden mal interner Stundensatz minus monatliche Betriebskosten. Amortisation 1-6 Monate üblich.
Wann ein RAG-Pilot startet
Ein RAG-Pilot lohnt sich, wenn (a) die Antwort auf konkrete Fragen in Ihren Dokumenten steht, (b) Sie diese Frage mindestens 50-mal pro Monat haben, (c) die Antwort nachweisbar sein muss (Audit, Mandantenschutz, Revision), und (d) Sie ein Budget zwischen CHF 3'500 und CHF 8'500 für den Einstieg haben.
Konkrete Profile, für die ein RAG-Pilot rechnet: Treuhand-Büro mit 5'000 Mandanten-Korrespondenz-PDFs der letzten 5 Jahre. Anwaltskanzlei mit 2'000 Praxis-Notizen und 8'000 Vertragsmuster. KMU mit 1'500 Handbüchern und SOPs in mehreren Sprachen. Versicherungsmakler mit 12'000 Police-Dokumenten und Schadensakten. Architekturbüro mit 800 Normenwerken und 4'000 Projektdokumenten.
In allen Fällen ist die Kostenrechnung gleich strukturiert: Setup-Pauschale 3'500-8'500, monatlicher Betrieb unter CHF 100. Der ROI liegt typischerweise in der eingesparten Recherche-Zeit: Wenn ein Mitarbeiter zwei Stunden pro Tag mit Akten-Suche verbringt und das durch RAG auf 30 Minuten reduziert wird, sind das 1.5h x 20 Tage = 30h/Monat Ersparnis. Bei intern CHF 100/h sind das CHF 3'000 pro Monat – der Pilot ist nach 2-3 Monaten amortisiert.
Wann der Pilot nicht lohnt
Ein RAG-Pilot lohnt sich nicht, wenn (a) die Dokumentenmenge unter 200 liegt und in ein Standard-Modell-Kontextfenster passt, (b) die Fragen so selten sind, dass die Setup-Kosten nicht amortisieren, (c) die Dokumente nicht digital vorliegen und erst OCR-konvertiert werden müssten, oder (d) die Antwort kreativ sein soll, nicht aus bestehenden Quellen.
Konkret: Eine 3-Personen-Treuhand mit 80 aktiven Mandanten und 30 PDF-Anfragen pro Monat führt einen RAG-Pilot wahrscheinlich nicht amortisierend. Hier reicht ein Vertrags-Generator oder eine einfache PDF-Suche. Wenn die Dokumente alle gescannte Papier-Akten ohne OCR sind, verdoppeln sich die Setup-Kosten durch die nötige OCR-Pipeline (siehe AI-Belegerkennung-OCR) – das kann sich rechnen, ist aber kein „Pilot" mehr, sondern ein Projekt.
Ebenfalls schlechte Fälle: Wenn Dokumente ständig geändert werden (z.B. täglich neue Versionen) und kein Re-Indexing-Automatismus vorgesehen ist – dann antwortet RAG mit veralteten Stellen. Wenn die Mandantenstruktur eine Trennung verlangt (Mandant A darf Mandant B nicht sehen) und kein Multi-Tenant-Konzept eingeplant ist – dann ist der Pilot unbrauchbar. Wenn das Daten-Mapping nicht vorhanden ist (z.B. unstrukturierte Ablage mit gleichen Dateinamen in 12 Ordnern), kostet die Vorarbeit mehr als das eigentliche RAG.
Vor- und Nachteile
STÄRKEN
- Setup-Kosten kalkulierbar: CHF 3'500-8'500 als Pauschale, keine versteckten Engineering-Stunden
- Betriebskosten skalieren unterproportional: 100x Dokumente kosten nur 3-5x mehr
- Cloud-Stack ohne Hardware-Bindung – sofort startklar, jederzeit kuendbar
- Amortisation in 1-6 Monaten üblich bei realistischen Nutzungsannahmen
SCHWÄCHEN
- OCR-Vorarbeit nicht im Pilot enthalten: gescannte Papierakten verdoppeln die Setup-Kosten
- Wenn Dokumente ständig wechseln, braucht es Re-Indexing-Automation – zusätzlicher Aufwand 1-3 Tage
- Multi-Tenant (Mandant A darf B nicht sehen): RBAC-Aufschlag CHF 2'000-4'000 je nach Komplexität
- Cloud-Embedding und Cloud-LLM verlassen die Schweiz – für Personendaten besonders schützenswerter Kategorie nicht ohne weiteres erlaubt
Häufige Fragen
Was kostet ein RAG-Pilot bei fairlane.systems konkret?
CHF 3'500 als Pauschale für einen 4-Wochen-Pilot mit bis zu 5'000 Dokumenten, inklusive Daten-Ingestion, Chunking-Optimierung, Audit-Trail-Einrichtung, Test-Suite und Schulung. Stufe 2 (bis 25'000 Dokumente, mehrsprachig, Multi-Schnittstellen): CHF 8'500. Laufender Betrieb ist separat: typischerweise CHF 50-180/Monat (Cloud-Stack, je nach Anfragevolumen).
Embedding-Kosten – fallen die wirklich kaum ins Gewicht?
Ja. OpenAI text-embedding-3-small kostet USD 0.02 pro 1M Tokens. 100'000 Dokumente a 2'500 Tokens = 250 Mio Tokens = USD 5. Selbst Cohere Embed-Multilingual-v3 (USD 0.10/1M) bleibt unter USD 30 für den initialen Index-Aufbau. Die Embedding-Kosten sind für den ROI praktisch irrelevant.
Pinecone oder Qdrant – was ist günstiger?
Qdrant self-host ist immer am günstigsten (CHF 0-150/Monat je nach Server-Klasse). Qdrant Cloud Starter beginnt bei USD 25/Monat. Pinecone Standard startet bei USD 70/Monat für ein Standard-Index. Bei 100'000 Dokumenten liegt Pinecone bei USD 500-1'200/Monat, Qdrant Cloud bei USD 200-500. Self-Host-Qdrant bei CHF 80-150/Monat. Empfehlung: Qdrant self-host wenn Sie schon einen Hetzner-Server haben, sonst Qdrant Cloud.
Wann amortisiert sich der Pilot?
Faustregel: Wenn der Pilot mindestens 1.5 Recherche-Stunden pro Mitarbeiter pro Tag einspart und 5 Mitarbeitende ihn nutzen, sind das 150h/Monat zu intern CHF 100/h = CHF 15'000 Ersparnis. Bei CHF 3'500 Pilot-Pauschale plus CHF 60/Monat Betrieb liegt die Amortisation unter einem Monat. Realistischer ist 2-3 Mitarbeitende und 0.5-1h/Tag – dann 2-4 Monate Amortisation.
Verwandte Themen
Quellen
- OpenAI – Embedding & API Pricing (text-embedding-3-small, text-embedding-3-large) · 2026-05
- Qdrant Cloud – Pricing (Starter / Standard / Enterprise tiers) · 2026-05
- Pinecone – Serverless & Pod Pricing (Standard, Enterprise) · 2026-05
- fairlane.systems – Service Pricing (AI-Audit, RAG-Pilot, n8n-Sprint) · 2026-05
- Cohere – Embed v3 Pricing (Multilingual) · 2026-05
PASSEND ZU IHREM STACK?