fairlane.systems

FINE-TUNING vs RAG · AI-KONZEPT

Fine-Tuning vs RAG: Wann passt welcher Ansatz? Stand Mai 2026

Fine-Tuning ändert Modell-Verhalten dauerhaft, RAG fuettert frisches Wissen. PEFT/LoRA macht FT erschwinglich, RAG bleibt Standard in Compliance.

Recherche & Faktencheck: · Stand: 2026-05

Was ist Fine-Tuning, was ist RAG?

Fine-Tuning und RAG (Retrieval-Augmented Generation) sind die zwei wichtigsten Wege, ein Sprachmodell an eine eigene Domäne anzupassen. Sie lösen unterschiedliche Probleme und werden in der Praxis oft kombiniert, nicht alternativ verwendet.

Fine-Tuning verändert die Gewichte des Modells selbst. Aus einem allgemeinen Modell wird ein spezialisiertes Modell, das in einem bestimmten Stil schreibt, einem bestimmten Format folgt, oder ein bestimmtes Vokabular versteht. Klassisches Full-Fine-Tuning (alle Gewichte neu trainieren) ist sehr teuer – für ein 70-Milliarden-Parameter-Modell mehrere tausend GPU-Stunden, leicht im fünfstelligen Bereich. Mai 2026 ist der Standard PEFT (Parameter-Efficient Fine-Tuning), insbesondere LoRA (Low-Rank Adaptation) und QLoRA. PEFT trainiert nur eine kleine Adapter-Matrix (typisch 0.1-1% der Modell-Gewichte), das Original-Modell bleibt unverändert. Kosten: CHF 50-500 pro Run statt CHF 5000-50000.

RAG lässt das Modell unverändert und liefert ihm zur Antwortzeit relevante Textstellen aus einer eigenen Dokumentbibliothek mit. Das Modell antwortet auf Basis dieser Stellen und kann sie zitieren. Detail siehe Schwester-Seite retrieval-augmented-generation.

Der Kern-Unterschied: Fine-Tuning lehrt das Modell ein neues VERHALTEN (Schreibstil, Format, Klassifikation), RAG verschafft dem Modell neue FAKTEN (Wissen, das nicht im Training war oder das sich ändert). Beides löst verschiedene Probleme. Beides können auch kombiniert werden: ein fine-getuntes Modell, das über RAG zusätzlich aktuelle Quellen erhält.

Warum es jetzt relevant ist

Die Frage "Fine-Tuning oder RAG?" ist Mai 2026 nicht mehr eine Grundsatz-Frage, sondern eine taktische. Drei Entwicklungen haben das Bild gewandelt.

Erstens: PEFT/LoRA macht Fine-Tuning erschwinglich. Bis 2023 war Fine-Tuning grosse Modelle eine Sache für Konzerne. Mai 2026 mit QLoRA und 4-Bit-Quantisierung (siehe was-ist-quantisierung) trainiert man ein Llama-3.1-70B-Adapter auf einer Workstation mit 2x RTX 4090 in 12-48 Stunden, für CHF 50-200 Strom plus Hardware-Abschreibung. Hugging Face PEFT bietet die Software, OpenAI bietet ein managed Fine-Tuning-API, Anthropic einen Programm-Zugang, Google Vertex AI Fine-Tuning. Der Einstieg ist niederschwellig – aber dass es geht, heisst nicht, dass es sich immer lohnt.

Zweitens: RAG ist robuster im Compliance-Kontext. Eine fine-getunete Antwort trägt das gelernte Wissen IM Modell – sie kann nicht zitieren und nicht beweisen, woher die Information stammt. Für revDSG-DSFA, EU AI Act Art. 12 Logging und Berufsgeheimnis (StGB 321) ist das ein Nachteil. RAG hingegen liefert mit jeder Antwort die Quelle mit. In Treuhand, Anwalt, Versicherung dominiert RAG deswegen Mai 2026 weiterhin.

Drittens: Kontext-Fenster sind so gross, dass kleine Wissens-Basen direkt in den Prompt passen. das aktuelle Claude-Spitzenmodell hat 1 Million Tokens, Gemini 2 hat 2 Millionen, GPT-4.1 hat 1 Million. Eine 200-Seiten-Wegleitung (ca. 100k Tokens) passt komplett in einen Aufruf – schneller und einfacher als RAG. Erst ab einigen 1000 Seiten lohnt RAG überhaupt. Fine-Tuning wird in dieser Welt seltener als "Wissens-Einspeisung" benutzt, eher als "Format- und Stil-Anpassung".

Das Ergebnis: Mai 2026 ist die Mehrheits-Antwort für KMU "RAG, kein Fine-Tuning". Fine-Tuning ist ein Spezialwerkzeug für wiederkehrende Format-Aufgaben (z.B. einheitliche Mahnbrief-Strukturen), nicht das Default-Werkzeug für Wissens-Anwendungen.

Wie sich beides praktisch unterscheidet

Wir vergleichen entlang sechs Dimensionen.

Datenfrische. RAG ist immer aktuell – neue Dokumente werden indexiert, sofort abrufbar. Fine-Tuning ist statisch – neuer Wissensstand verlangt einen neuen Trainings-Lauf. Bei einem KMU, dessen Wissen sich monatlich ändert (Steuermitteilungen, Verbands-Wegleitungen), ist RAG der Default.

Beweisbarkeit der Antwort. RAG zeigt Zitat und Quelle. Fine-Tuning kann das nicht. Für Anwendungen mit revDSG-DSFA, EU AI Act Art. 26 Logging, Art. 957a OR Buchführungs-Audit oder Berufsgeheimnis ist RAG zwingend, Fine-Tuning kein Ersatz.

Verhaltenssteuerung. Fine-Tuning kann durchgängiges Verhalten erzwingen (z.B. "antworte immer in formellem Du-Sie-Schweizerdeutsch ohne Anglizismen", "schreibe Mahnbriefe immer im selben Struktur-Muster"). RAG kann das nur mit ausführlichem System-Prompt – und der frisst Token-Budget. Bei sehr starrem Format-Bedarf ist Fine-Tuning effizienter.

Kosten Anschaffung vs Betrieb. Fine-Tuning ist Investitions-Last: einmal CHF 50-500 für PEFT, dann nur Inference-Kosten. RAG ist Betriebs-Last: keine Anschaffung, dafür pro Anfrage Embedding + Retrieval + Modell-Aufruf (~CHF 0.002-0.02). Bei sehr hohen Anfragezahlen wird Fine-Tuning rechnerisch attraktiv, bei niedrigen ist RAG billiger.

Komplexität im Betrieb. Fine-Tuning ist nach dem einmaligen Training "fertig" und braucht keine zusätzliche Infrastruktur. RAG verlangt Vektor-DB, Embedding-Pipeline, Chunking-Strategie – mehrere bewegliche Teile, die jedes brechen können.

Datenschutz. Beim Fine-Tuning verlassen Trainingsdaten den eigenen Bereich (bei managed Services). Bei RAG bleiben Original-Dokumente in der eigenen Vektor-DB – nur die zur Frage passende Passage geht zum Modell. RAG ist die revDSG-konformere Variante, vor allem mit lokaler Qdrant-Instanz.

Hybrid in der Praxis. Mai 2026 sehen wir oft: ein PEFT-Adapter für Stil und Format auf einem Mittel-grossen Open-Weight-Modell (Llama-3.1-8B, Mistral-7B, Phi-3-medium), kombiniert mit RAG für Fakten. Das gibt einheitliches Verhalten plus aktuelle Fakten plus Quellenangabe, bei moderaten Inference-Kosten.

Entscheidungs-Workflow in 6 Schritten

  1. 01Aufgabentyp klassifizieren: Wissens-Anwendung (Frage-Antwort, Recherche) oder Verhaltens-Anwendung (Format, Klassifikation, Stil)?
  2. 02Compliance-Anforderung prüfen: muss die Antwort zitierbar sein, ist Audit-Log Pflicht? Wenn ja, RAG zwingend, Fine-Tuning kein Ersatz.
  3. 03Datenvolumen abschätzen: weniger als 100k Tokens dauerhaft? Dann in den Prompt, kein RAG, kein Fine-Tuning. Mehr? Dann RAG.
  4. 04Format-Konsistenz prüfen: muss jeder Aufruf das gleiche starre Format liefern? Wenn ja, Fine-Tuning als Ergänzung erwaegen.
  5. 05Prototyp mit Few-Shot-Prompting bauen: in 1-3 Tagen prüfen, ob die Aufgabe lösbar ist und ob der Aufwand für RAG/Fine-Tuning gerechtfertigt ist.
  6. 06Bei produktivem Bedarf: erst RAG aufbauen (oder Prompt-only mit grossem Kontext), Fine-Tuning erst, wenn nach Monaten ein klares Optimierungs-Potenzial sichtbar ist.

Wann Fine-Tuning, wann RAG, wann Hybrid

RAG ist die richtige Wahl wenn: (a) die Antwort in Dokumenten steht, die sich ändern, (b) Beweisbarkeit oder Quellenangabe nötig, (c) Compliance-Logging Pflicht (Treuhand, Anwalt, Versicherung), (d) verschiedene Mandanten unterschiedliche Daten haben (Mandanten-Trennung via Filter), (e) das Modell selbst gut genug ist und Sie keine Verhaltens-Änderung wollen.

Fine-Tuning ist die richtige Wahl wenn: (a) Sie ein durchgängiges Format/Stil brauchen, das jeden Aufruf gleich aussieht, (b) eine sehr enge Spezialaufgabe (z.B. Klassifikation Belegtyp aus 12 Kategorien), die Sie millionenfach ausführen, (c) Sie ein kleines Modell wollen, das speziell auf Ihre Aufgabe optimiert ist und schneller läuft als ein grosses generelles, (d) Daten-Sensitivität ein eigenes Modell zwingt (lokales Llama mit eigenen Adaptern).

Hybrid ist die richtige Wahl wenn: (a) Sie konsistentes Schreib-Format brauchen UND aktuelle Fakten, (b) eine Branche-spezifische Sprache brauchen UND nachweisbare Quellen, (c) ein eigenes lokales Modell brauchen UND wachsendes Dokument-Wissen. Beispiel: ein Anwalts-System, das auf Llama-3.1-8B mit Schweizer Recht-Vokabular fine-getunt wurde, und das über RAG die aktuelle Praxis und konkrete Mandanten-Akten konsultiert.

Konkrete KMU-Praxis Mai 2026: Eine 8-Personen-Treuhand mit Mandanten-FAQ-Chatbot startet mit RAG auf Cloud-Modell (Claude oder GPT-4) plus Qdrant. Geht in 1-2 Wochen, kostet CHF 3000-8000 Einrichtung plus CHF 50-200/Monat Betrieb. Fine-Tuning wird erst Thema, wenn nach 6-12 Monaten ein klares Format-Muster sichtbar ist, das sich automatisieren lohnt, ODER wenn aus Datenschutz-Gründen auf ein eigenes Modell migriert werden soll.

Wann KEINES von beiden

Drei Konstellationen, in denen Sie weder Fine-Tuning noch RAG brauchen.

Erstens: die Aufgabe ist generelles Weltwissen oder generelle Sprachverarbeitung. "Schreibe mir eine E-Mail-Antwort auf diese Anfrage", "Fasse diesen Text zusammen", "Korrigiere diese Tabelle". Hier reicht das nackte Modell. Fine-Tuning wäre Overkill, RAG wäre ohne Wissens-Quelle sinnlos.

Zweitens: die Datenmenge ist klein. Eine 30-Seiten-Wegleitung (15k Tokens) passt vollständig in Claude/GPT/Gemini-Kontext. Einfach den ganzen Text in den Prompt einfügen – schneller, einfacher, deterministischer als RAG, billiger als Fine-Tuning. Erst ab einigen 100k Tokens dauerhafte Wissensbasis lohnt RAG; erst ab klarem wiederkehrenden Format-Muster lohnt Fine-Tuning.

Drittens: schnelles Prototyping. Wer noch nicht weiss, ob die Anwendung überhaupt sinnvoll ist, baut KEIN RAG-System und KEIN Fine-Tuning. Stattdessen: Prompt-Engineering mit Beispielen (Few-Shot Learning) im System-Prompt. In wenigen Stunden lauffähig, gibt Erkenntnis, ob die Idee trägt. Wenn ja, dann RAG oder Fine-Tuning als zweite Stufe.

Fallstrick Mai 2026: Fine-Tuning wird oft als "magisches Werkzeug" angepriesen, das Halluzinationen behebt. Das ist falsch. Fine-Tuning auf eigene Daten kann das Modell sogar zu spezifischeren Halluzinationen verleiten – es lernt das Format der eigenen Daten und produziert dann selbstbewusst falsche Antworten in diesem Format. RAG ist die robustere Halluzinations-Prävention (siehe halluzinationen-begrenzen).

Vor- und Nachteile

STÄRKEN

  • RAG: aktuelles Wissen, Quellenangabe, Daten-Souveränität, einfache Updates
  • Fine-Tuning: konsistentes Format, kompaktes Spezialmodell, niedrige Inference-Kosten bei hohem Volumen
  • Hybrid: kombiniert Stil-Kontrolle und Wissens-Aktualität
  • PEFT/LoRA macht FT zugänglich – Einstieg ab CHF 50-500 statt 5000-50000

SCHWÄCHEN

  • RAG: mehr bewegliche Teile, schwächer bei rigidem Format-Bedarf
  • Fine-Tuning: statisches Wissen, kein Quellennachweis, Daten-Risiko bei managed Services
  • Hybrid erhöht Komplexität – zwei Systeme zu pflegen
  • Fine-Tuning bei Compliance-Use-Cases (Treuhand, Anwalt) nicht ausreichend

Häufige Fragen

Löst Fine-Tuning Halluzinationen?

Nein, oft im Gegenteil. Fine-Tuning auf domänenspezifische Daten kann das Modell lehren, sehr selbstbewusst zu halluzinieren – im Stil und Format der eigenen Daten. Halluzinationen entstehen aus dem Generierungs-Mechanismus, nicht aus Wissens-Lücken. Die robusteste Halluzinations-Prävention ist RAG mit klarer Refusal-Instruktion ("Antworte nur auf Basis der gegebenen Quellen, wenn die Antwort dort nicht steht, sage es") plus Citation-Check-Pipeline.

Kann ich GPT-4 oder Claude direkt fine-tunen?

Bedingt. OpenAI bietet ein managed Fine-Tuning für GPT-3.5, GPT-4o, GPT-4.1 mit Hugging-Face-ähnlicher API. Anthropic bietet Custom-Modelle über AWS Bedrock und ein "Constitutional AI"-Program für Grosskunden. Google Vertex AI fine-tunet Gemini über LoRA. Mistral-La-Plateforme erlaubt Open-Weight-Modelle direkt zu fine-tunen. Mai 2026 ist die Frage selten "kann ich das tun" sondern "lohnt es sich". Für 95% der KMU: nein, RAG ist die richtige erste Antwort.

Was kostet PEFT/LoRA realistisch?

Llama-3.1-8B PEFT-Adapter: 4-12 Stunden auf 1x RTX 4090 oder 1x A100, CHF 5-30 Strom plus Hardware. Llama-3.1-70B QLoRA: 24-72 Stunden auf 2x A100 oder Cloud-Service (Together.ai, Replicate), CHF 50-300. Managed via OpenAI Fine-Tuning (GPT-4o-mini): CHF 50-500 abhängig von Trainings-Daten-Volumen. Hinzu: Daten-Vorbereitung (oft der grösste Aufwand) und Eval-Suite. Realistisches Gesamtbudget für ein KMU-Pilot: CHF 2000-8000 inkl. Beratung.

Verwandte Themen

RAG · AI-KONZEPTRetrieval-Augmented Generation (RAG): Wie KI aus eigenen Dokumenten antwortetEMBEDDINGS · AI-KONZEPTEmbeddings und Vektoren: Wie Sprache zu Mathematik wirdHALLUZINATIONEN · AI-KONZEPTHalluzinationen begrenzen: Fünf Gegenmittel gegen erfundene KI-AntwortenPROMPTING · AI-KONZEPTPrompt-Engineering: Grundlagen, Muster, Anti-PatternsQUANTISIERUNG · AI-KONZEPTWas ist Quantisierung? Modell-Gewichte komprimieren ohne Qualitätsverlust

Quellen

  1. Lewis et al. – Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (Meta AI) · 2020-05
  2. Hugging Face PEFT – Parameter-Efficient Fine-Tuning Documentation · 2026-05
  3. OpenAI – Fine-Tuning Guide and Pricing · 2026-04
  4. Hu et al. – LoRA: Low-Rank Adaptation of Large Language Models · 2021-06

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen