fairlane.systems

EIGENES MODELL · AI-KONZEPT

Wie trainiert man ein eigenes KI-Modell? Fine-Tuning, LoRA, QLoRA Mai 2026

Fine-Tuning vs From-Scratch vs RAG: für 95% der KMU ist Fine-Tuning mit LoRA/QLoRA der richtige Weg. Hardware-Bedarf, Kosten USD 5-50k, Tools Mai 2026.

Recherche & Faktencheck: · Stand: 2026-05

Was bedeutet "eigenes Modell trainieren"?

"Eigenes Modell trainieren" ist ein Begriff mit drei sehr unterschiedlichen Bedeutungen, die in der Praxis oft verwechselt werden. Die Unterschiede entscheiden über Kosten, Aufwand und Erfolgs-Wahrscheinlichkeit für ein KMU.

Variante 1: From-Scratch-Pretraining. Ein komplett neues Sprachmodell von Grund auf trainieren. Kosten Mai 2026: USD 50 Millionen bis 500 Millionen für Frontier-Modelle, USD 1-10 Millionen für ein 13-Milliarden-Parameter-Modell. Personal: 30-100 ML-Engineers, Daten-Engineers, Compliance-Spezialisten. Zeit: 6-24 Monate. Realistisch nur für Tech-Giganten (OpenAI, Anthropic, Google, Meta, Mistral, DeepSeek). Für KMU absolut nicht.

Variante 2: Fine-Tuning. Ein bestehendes Modell (Open-Weight von Llama, Mistral, Qwen, DeepSeek) auf eigene Daten weiter trainieren. Das Modell behält seine Sprachfähigkeit aus dem Pretraining und lernt zusätzlich die spezifischen Stile, Vokabeln oder Aufgaben-Muster Ihrer Domäne. Kosten Mai 2026: USD 5.000-50.000 für typische KMU-Use-Cases. Personal: 1-2 ML-Engineers oder externer Dienstleister. Zeit: 2-8 Wochen.

Variante 3: RAG (Retrieval-Augmented Generation). Kein Training. Das bestehende Modell wird mit Ihren Dokumenten zur Antwort-Zeit verbunden. Das Modell lernt nicht aus den Dokumenten, es liest sie pro Anfrage. Kosten: USD 500-5.000 Einrichtung, USD 20-200/Monat Betrieb. Zeit: 1-4 Wochen. Siehe retrieval-augmented-generation.

Für 95% der KMU ist die richtige Antwort: erst RAG, dann Fine-Tuning, nie From-Scratch. Das ist die Mai-2026-Konsens-Empfehlung. Beginnen Sie mit RAG (schnell, billig, bringt 70-90% des Werts). Wenn RAG nicht reicht (Stil-Probleme, Domän-spezifische Sprache, spezifische Aufgaben-Muster), fügen Sie Fine-Tuning hinzu. From-Scratch ist nur für Branchen mit hochspezifischer Sprache (Recht in Sondersprachen, Medizin mit Forschungsbegriffen) und nur, wenn Sie ein 30-Personen-Team und 10 Millionen USD haben.

Mai 2026 Fine-Tuning-Tools (alle Open-Source, kostenlos):

- Axolotl (OpenAccess-AI): YAML-basierte Konfiguration, sehr populär für Llama, Mistral, Mixtral. Unterstützt LoRA, QLoRA, Full-Fine-Tune, DPO. - Unsloth: Geschwindigkeits-optimiert, 2-5x schneller als Standard PyTorch-Training, 50-70% weniger VRAM. Mai 2026 die populäre Wahl für Single-GPU-Setups. - llama-factory: Web-UI, alle Mainstream-Modelle, viele Trainings-Verfahren (SFT, RLHF, DPO, PPO). - Hugging Face TRL (Transformer RL): offizielle Hugging-Face-Library, Standard für DPO und RLHF. - vLLM und Text Generation Inference (TGI): Inferenz nach Training, hoch optimiert.

Die Werkzeug-Landschaft ist Mai 2026 reif: was 2023 noch Forschungs-Code war, ist jetzt Production-Ready mit Dokumentation, Community-Support und Best-Practices.

Warum eigenes Modell-Training für KMU wichtig ist

Drei spezifische Anlässe machen Fine-Tuning für Schweizer KMU relevant.

Anlass 1: domänenspezifische Sprache. Schweizer Treuhand- und Rechts-Vokabular ist im Pretraining unterrepräsentiert. Begriffe wie "Beistand", "Vermögens-Verwaltung", "Berufsvorsorge-Stiftung", "MWST-Quoten-Saldo-Methode" sind im Standard-Modell verstanden – aber subtile Anwendungs-Muster (welche Klausel passt zu welcher Situation, welcher Brief-Stil ist branchen-üblich) sind nicht im Modell. Fine-Tuning mit 500-2000 Beispielen aus Ihrer eigenen Korrespondenz vermittelt diese Muster. Resultat: das Modell schreibt Anschreiben im Schweizer Treuhand-Stil ohne lange System-Prompts.

Anlass 2: Markenstimme (Brand Voice). Wer eine bestimmte Tonalität pflegt (z.B. "knapp-trocken-Schweizerisch" oder "warm-vertraut-mit-Mandanten-Nahbarkeit"), kann diese mit System-Prompt nur teilweise vermitteln. Fine-Tuning auf 200-1000 eigenen E-Mails, Berichten, Mandanten-Antworten vermittelt den Stil intern. Resultat: das Modell trifft den Hausstil mit > 90% Genauigkeit, ohne dass Sie bei jeder Anfrage einen 500-Token-Stil-Prompt mitschicken müssen. Spart Tokens und verbessert Konsistenz.

Anlass 3: spezifische Aufgaben-Muster. Wenn Sie eine wiederkehrende Aufgabe haben – z.B. "Erstelle aus dieser Rechnung einen Buchungssatz nach unserem Kontenplan und ergänze MWST-Code" – können Sie das mit System-Prompt erklären. Aber bei 300+ verschiedenen Buchungs-Mustern wird der Prompt unwartbar. Fine-Tuning auf 500-2000 Beispiel-Paaren (Input: Rechnung + Beleg-Foto, Output: gewünschter Buchungssatz) trainiert das Muster ins Modell ein. Resultat: keine langen Prompts, konsistente Output-Qualität.

Was Fine-Tuning NICHT löst.

- Cutoff-Datum: Fine-Tuning auf neue Daten verschiebt nicht das Pretraining-Cutoff für Welt-Wissen. - Halluzination bei Faktenfragen: Fine-Tuning auf 500 Beispielen macht das Modell nicht zum Steuer-Experten, der alle Kantone in allen Detail-Fällen kennt. - Unzureichende Daten: Wer keine 200+ qualitative Trainings-Beispiele hat, sollte erst Daten sammeln, dann fine-tunen.

Für alle drei Anlässe ist die Kombination Fine-Tuning + RAG Mai 2026 die stärkste Architektur: Fine-Tuning für Stil und Aufgaben-Muster, RAG für aktuelle Fakten.

Kosten-Realität Mai 2026. Typische Fine-Tuning-Projekte für Schweizer KMU:

- Stil-Fine-Tuning für Treuhand-Korrespondenz: 500-1000 Beispiele aus eigener E-Mail-Sammlung. Llama 3.1 8B Basis. Hardware-Miete (RunPod, Vast.ai): USD 50-200 für den Training-Run. Daten-Vorbereitung: 20-40 Stunden Personal-Aufwand. Plus Eval-Suite und Production-Setup. Total: CHF 3.000-8.000. - Aufgaben-Fine-Tuning für Buchhaltungs-Triage: 2000-5000 Beispiele Beleg → Buchungssatz. Eine kommende Mistral-Large-Generation Basis. Hardware-Miete: USD 300-1000. Daten-Aufbau: 40-80 Stunden. Total: CHF 8.000-20.000. - Multi-Task-Fine-Tuning für Mandanten-Assistant: 5000-15000 Beispiele aus 5-8 Aufgaben (Email-Antwort, Beleg-Klassifikation, Mahn-Brief, Sitzungs-Protokoll). DeepSeek V3 oder Llama 4 Scout Basis. Hardware-Miete: USD 1000-3000. Daten-Aufbau: 100-200 Stunden. Total: CHF 25.000-50.000.

Diese Zahlen umfassen Engineering-Aufwand, nicht laufenden Betrieb. Inference-Kosten nach Fine-Tuning: vergleichbar mit Basis-Modell.

Fine-Tuning im Detail

Vier Verfahren dominieren Mai 2026 das KMU-relevante Fine-Tuning: LoRA, QLoRA, Full-Fine-Tune, DPO.

Verfahren 1: LoRA (Low-Rank Adaptation). Vorgeschlagen 2021 (Hu et al.), Mai 2026 Default-Standard. Statt alle Modell-Parameter zu aktualisieren, wird eine kleine Anzahl zusätzlicher Parameter (Low-Rank-Matrizen) hinzugefügt und nur diese trainiert. Typisch: ein 7-Milliarden-Parameter-Modell bekommt 10-50 Millionen LoRA-Parameter dazu – also 0.15-0.7% des Gesamt-Modells. Vorteile: 5-20x weniger VRAM, 3-10x schneller, kleines LoRA-Artifakt (50-500 MB statt 14 GB), mehrere LoRAs können kombiniert werden. Mai 2026 Standard für 80% aller KMU-Fine-Tunings.

Verfahren 2: QLoRA (Quantised LoRA). Vorgeschlagen 2023 (Dettmers et al.). LoRA-Training auf einem quantisierten Basis-Modell (4-Bit oder 8-Bit). VRAM-Bedarf sinkt um weitere Faktor 2-4 gegenüber LoRA. Mai 2026 ermöglicht QLoRA das Fine-Tuning eines 13B-Modells auf einer einzelnen A100-80GB GPU oder sogar einer RTX 4090 (24GB). Qualitäts-Verlust gegenüber Full-LoRA: typisch 1-3%, oft vernachlässigbar.

Verfahren 3: Full-Fine-Tune. Alle Modell-Parameter werden aktualisiert. Maximales Lern-Potential, aber teuer und VRAM-intensiv. Für ein 7B-Modell: 4-8x A100-80GB oder vergleichbare H100-Konfiguration. Für 13B+: mehrere H100. Mai 2026 wird Full-Fine-Tune nur für Spezial-Fälle eingesetzt – wenn LoRA-Qualität nicht reicht oder fundamental anderes Verhalten antrainiert werden soll.

Verfahren 4: DPO (Direct Preference Optimization). Statt von Input-Output-Beispielen zu lernen (das macht SFT), lernt DPO von "Antwort A ist besser als Antwort B"-Paaren. Vor allem für Stil-Tuning und Refusal-Verhalten. Mai 2026 Standard-Verfahren nach Anthropics Constitutional AI für KMU-Stil-Anpassung. Datenbedarf: 500-3000 Präferenz-Paare.

Hardware-Bedarf Mai 2026. Realistische Konfigurationen:

- 7B-Modell, 4-Bit-QLoRA: 1x RTX 4090 (24GB) oder 1x A100-40GB. Training-Zeit für 1000 Beispiele: 2-8 Stunden. - 13B-Modell, 4-Bit-QLoRA: 1x A100-80GB oder 1x H100-80GB. Training-Zeit: 4-16 Stunden. - 70B-Modell, 4-Bit-QLoRA: 2x H100-80GB oder 4x A100-80GB. Training-Zeit: 12-48 Stunden. - Llama 4 Maverick (400B/17B MoE), QLoRA: 4-8x H100-80GB. Training-Zeit: 24-96 Stunden.

Cloud-Optionen für Hardware-Miete Mai 2026.

- RunPod.io: A100-80GB ca. USD 1.50-2.50/h, H100-80GB ca. USD 3.50-5/h. Pay-as-you-go. - Vast.ai: Marktplatz, oft 30-50% billiger als RunPod, aber unsichere Verfügbarkeit. - Lambda Labs: Profi-Anbieter, USD 2-4/h für A100, USD 4-6/h für H100. Persistent Storage. - Hetzner Cloud GPU: H100 ca. EUR 3.50/h, Datacenter in Falkenstein/Helsinki. EU/CH-Compliance-relevant. - AWS, GCP, Azure: typisch 30-100% teurer als Spezial-Anbieter. Nur bei bestehender Enterprise-Beziehung sinnvoll.

Daten-Vorbereitung – der unterschätzte Teil. 60-80% des Fine-Tuning-Aufwands ist Daten-Sammlung und -Aufbereitung. Schritte:

1. Daten-Inventur: welche E-Mails, Berichte, Belege liegen vor? Volumen prüfen. 2. Qualitäts-Filter: nur produktions-reife Beispiele nutzen, nicht "halbfertige Entwürfe". Mindestens 200-500 hochqualitative Paare sind besser als 5000 mittelmässige. 3. Format-Konvertierung: Trainings-Daten in JSONL mit "messages"-Format (System-Prompt, User-Message, Assistant-Message-Tripel). 4. PII-Entfernung: Mandanten-Namen, IBANs, AHV-Nummern entfernen oder anonymisieren – sonst speichert das Modell sie in den Parametern. 5. Split: 80% Training, 10% Validation, 10% Test. Test-Set bleibt unangetastet, für finale Bewertung. 6. Eval-Suite: 30-100 typische Anfragen Ihrer Domäne, manuell mit Ideal-Antworten annotiert. Damit prüfen Sie Vor- und Nach-Fine-Tuning-Qualität.

Hyperparameter Mai 2026. Standard-Defaults, die fast immer funktionieren:

- Learning Rate: 1e-4 für LoRA, 2e-5 für Full-Fine-Tune. - LoRA Rank (r): 16-32 für Stil, 64-128 für komplexe Aufgaben. - LoRA Alpha: typisch 2*r. - Epochs: 1-3 für LoRA. Mehr führt zu Overfitting. - Batch Size: so gross wie VRAM erlaubt. Bei 1x A100-80GB typisch 4-16 für 7-13B-Modelle. - Gradient Accumulation: erhöht effektive Batch-Grösse ohne mehr VRAM.

Eval und Auswahl der Endgewichte. Während des Trainings wird alle paar Schritte das Validation-Set bewertet. Die Endgewichte sind diejenigen mit der besten Validation-Performance – nicht zwingend die letzten. Standard-Verfahren: Training laufen lassen, alle 200-500 Schritte Checkpoint speichern, am Ende das beste auswählen.

Eigenes Modell trainieren in 5 Schritten

  1. 01Variante klären: RAG (kein Training), Fine-Tuning (CHF 5-50k) oder From-Scratch (USD 50M+, nur Tech-Giganten). Für KMU fast immer RAG plus Fine-Tuning.
  2. 02Daten sammeln: mindestens 200-2000 qualitative Beispiel-Paare aus eigener Praxis. 60-80% des Projekt-Aufwands ist Daten-Vorbereitung, nicht Training.
  3. 03Basis-Modell wählen: Llama 4 Scout (109B/17B MoE, gute DE-Kompetenz, Open-Weight), eine kommende Mistral-Large-Generation, DeepSeek V3, Qwen 3 – abhängig von Sprache, Aufgabe und Hardware.
  4. 04Hardware mieten: 1x A100-80GB oder H100-80GB für 7-13B-Modelle (USD 1.50-5/h auf RunPod, Hetzner, Vast.ai). 4-Bit-QLoRA ist Mai 2026 Standard.
  5. 05Eval-Suite bauen: 30-100 Test-Anfragen mit Ideal-Antworten manuell annotieren. Damit Vor- und Nach-Fine-Tuning-Qualität prüfen, iterativ anpassen.

Wann Fine-Tuning die richtige Wahl ist

Vier konkrete KMU-Szenarien für Fine-Tuning.

Szenario 1: Stil und Markenstimme. Wenn Sie eine spezifische Tonalität pflegen (Schweizerisch-knapp, Anwalt-trocken, Treuhand-formell, Werbeagentur-locker) und mit System-Prompts allein nicht konsistent treffen, ist Stil-Fine-Tuning der richtige Weg. Datenbedarf: 500-1000 eigene Beispiele Ihrer Korrespondenz. Resultat: Modell trifft Stil mit 90%+ Genauigkeit ohne langen System-Prompt.

Szenario 2: domänenspezifische Klassifikation oder Triage. "Klassifiziere eingehende E-Mail nach 12 Kategorien unseres Mandanten-Workflow." Mit System-Prompt erklären wird mit 12+ Kategorien fragil. Fine-Tuning auf 1000-3000 manuell klassifizierten E-Mails liefert > 95% Genauigkeit ohne System-Prompt-Aufwand. Spart Tokens pro Anfrage und ist robuster.

Szenario 3: strukturierte Output-Formate. Wenn Sie spezifische JSON-Strukturen aus Freitext extrahieren wollen (Belegdaten, Kontaktdaten, Vertrag-Klauseln) und Standard-Modelle das Schema nicht zuverlässig befolgen, ist Fine-Tuning auf 500-2000 Input-Output-Paaren effektiv. Mai 2026 ist das oft nicht mehr nötig – moderne Modelle (das aktuelle Claude-Spitzenmodell, das jeweils aktuelle GPT-Spitzenmodell) folgen JSON-Schemas via Strict Mode zuverlässig. Aber bei sehr eigenwilligen Schemas (z.B. SAP-spezifische Buchungs-Felder) bleibt Fine-Tuning relevant.

Szenario 4: Self-Hosting für Compliance. Wenn revDSG, EU AI Act oder Berufsgeheimnis Sie zwingt, Mandantendaten nicht auf Cloud-API zu schicken, brauchen Sie Self-Hosting. Open-Weight-Modelle (Llama 4, Mistral, DeepSeek V3, Qwen 3) bieten eine gute Basis. Mit Fine-Tuning auf eigenen Daten bringen Sie das Modell auf branchen-relevantes Niveau. Hosting auf Hetzner-GPU in Deutschland erfüllt EU-Datenresidenz.

Szenario 5: nicht einsetzen – wenig Daten. Wenn Sie keine 200+ qualitative Trainings-Beispiele haben, ist Fine-Tuning nicht der erste Schritt. Erst Daten sammeln (Mandanten-Korrespondenz strukturieren, Belege annotieren, Beispiel-Paare erstellen lassen), dann fine-tunen. Unter 200 Beispielen produziert Fine-Tuning oft schlechtere Ergebnisse als das Basis-Modell – Overfitting auf die wenigen Beispiele.

Strategische Konsequenz. Fine-Tuning Mai 2026 ist erschwinglich (CHF 3-50k) und technisch reif. Es ist aber kein Ersatz für RAG. Beste Architektur für KMU: Fine-Tuning für Stil und wiederkehrende Aufgaben-Muster, RAG für aktuelle Fakten, Tool-Use für Welt-Zugang. Diese Kombination ist Mai 2026 der State-of-the-Art.

Wann eigenes Training nicht das Richtige ist

Drei Fälle gegen Fine-Tuning.

Erstens: RAG reicht bereits. Wenn Ihre Anwendung Faktenwissen aus eigenen Dokumenten braucht (Verwaltungs-Vorschriften, Verträge, Manuals), ist RAG die schnellere, billigere, wartungsärmere Lösung. Fine-Tuning ist hier überflüssig. Prüfen Sie: lässt sich Ihr Use Case mit RAG abdecken? Wenn ja, stoppen Sie hier.

Zweitens: Fakten-Update-Frequenz hoch. Fine-Tuning fixiert das Wissen zum Trainings-Zeitpunkt. Wenn Ihre Daten sich monatlich oder währlich ändern (Steuer-Sätze, Verordnungen, Preislisten), ist Fine-Tuning der falsche Hebel. Re-Training bei jedem Update ist teuer und langsam. RAG mit aktualisierter Wissensbasis ist die richtige Lösung.

Drittens: zu wenige qualitative Daten. Wer keine 200+ hochqualitative Trainings-Beispiele hat, baut ein überangepasstes Modell. Resultat: Modell antwortet auf Beispiele aus dem Training perfekt, aber daneben oder verwirrt auf neue Anfragen. Unter 200 Beispielen lieber nicht fine-tunen.

Falle "wir trainieren ein eigenes Modell von Null". Bereits erklärt: USD 50-500 Millionen für Frontier-Modelle, USD 1-10 Millionen auch für "kleine" 13B-Modelle. Personal-Bedarf 30-100 Spezialisten. Zeit 6-24 Monate. Für KMU absolut unrealistisch. Wer "wir bauen unser eigenes" sagt, meint praktisch immer Fine-Tuning – wenn nicht, sollte die Realität geprüft werden.

Falle "Fine-Tuning löst Halluzination". Nein. Fine-Tuning auf 1000 Beispielen vermittelt Stil und Aufgaben-Muster, aber nicht Faktentreue zu allen Steuer-Detail-Fragen. Halluzination wird durch RAG (Quellen-Anbindung), Refusal-Prompt und Citation-Checks adressiert, nicht durch Fine-Tuning.

Falle "Fine-Tuning verbraucht keine Tokens". Doch – bei der Inference. Fine-Tuning ändert nichts an der Token-Abrechnung beim späteren Modell-Aufruf. Wer ein 13B-Modell selbst hostet, spart API-Kosten, hat aber Hardware-Betriebskosten. Wer fine-getuntes Modell über Cloud-API (z.B. OpenAI Fine-Tuning) nutzt, zahlt typisch 2-3x mehr pro Token als das Basis-Modell.

Falle "wir machen es einmal und sind fertig". Fine-Tuning ist ein iterativer Prozess. Erste Version typisch nach 4-8 Wochen, danach 2-4 Iterations-Runden über 3-6 Monate, bis Production-Reife erreicht ist. Wer "ein Wochenend-Projekt" plant, unterschätzt den Aufwand massiv.

Vor- und Nachteile

STÄRKEN

  • Stil und Aufgaben-Muster werden internalisiert – kein langer System-Prompt mehr
  • Bei wiederkehrenden Aufgaben spart Tokens pro Anfrage
  • Self-Hosting möglich für Compliance-kritische Schweizer Anwendungen
  • LoRA/QLoRA Mai 2026 erschwinglich (CHF 5-50k) und technisch reif

SCHWÄCHEN

  • Daten-Vorbereitung ist 60-80% des Aufwands, oft unterschätzt
  • Fakten-Update braucht Re-Training oder RAG-Ergänzung
  • Catastrophic Forgetting bei aggressivem Training möglich
  • Unter 200 Beispielen oft schlechter als Basis-Modell

Häufige Fragen

Was kostet Fine-Tuning realistisch für ein KMU?

CHF 5.000-50.000 Mai 2026, abhängig von Aufgabe und Modell-Grösse. Stil-Fine-Tuning für Treuhand-Korrespondenz (Llama 3.1 8B + 1000 Beispiele): CHF 3-8k. Aufgaben-Fine-Tuning für Buchhaltungs-Triage (eine kommende Mistral-Large-Generation + 3000 Beispiele): CHF 8-20k. Multi-Task für Mandanten-Assistant (DeepSeek V3 + 10000 Beispiele): CHF 25-50k. Beinhaltet Engineering, Hardware-Miete, Daten-Aufbau und Eval. From-Scratch-Training für Frontier-Modelle bleibt jenseits jeder KMU-Reichweite (USD 50-500 Millionen).

Wieviele Trainings-Beispiele brauche ich mindestens?

Faustregel: 200+ für ersten Versuch, 500-2000 für Production-Qualität, 5000+ für Mehraufgaben-Modelle. Datenqualität ist wichtiger als Quantität – 200 sehr saubere Beispiele liefern oft bessere Ergebnisse als 5000 mittelmässige. Unter 200 sollte man nicht fine-tunen; das Risiko des Overfitting (Modell merkt sich Beispiele auswendig statt zu verallgemeinern) ist zu hoch. Quelle: Hu et al. LoRA Paper (2021), bestätigt von Mai-2026-Community-Praxis.

Welches Basis-Modell sollte ich wählen Mai 2026?

Für DE-Kompetenz und Self-Hosting: Llama 4 Scout (109B/17B MoE), eine kommende Mistral-Large-Generation (closed-Weight, API-Fine-Tuning), Qwen 3 (Open-Weight, sehr gut bei Multilingual). Für kleinere Hardware: Llama 3.1 8B oder Mistral 7B. Für Code-Aufgaben: Codestral, Qwen 2.5 Coder oder DeepSeek Coder. Für reine Cloud-API-Fine-Tuning (kein Self-Hosting nötig): OpenAI Fine-Tuning auf GPT-4o-mini oder das jeweils aktuelle GPT-Spitzenmodell-mini ist Mai 2026 die schnellste Bequemlichkeits-Option.

Verliert das Modell durch Fine-Tuning seine Original-Fähigkeiten?

Teilweise – das nennt sich "catastrophic forgetting". Bei aggressivem Fine-Tuning (zu viele Epochs, zu höhe Learning Rate) verliert das Modell allgemeine Fähigkeiten zugunsten der Trainings-Aufgabe. Mai 2026 Standard-Verfahren minimiert das: niedrige Learning Rate (1e-4 für LoRA), wenig Epochs (1-3), kleine LoRA-Anteile am Gesamtmodell (0.15-0.7%). LoRA löst das Problem strukturell – die Original-Gewichte bleiben unverändert, nur LoRA-Adapter werden trainiert. Falls Sie das Adapter abschalten, ist das Original-Modell wieder da.

Verwandte Themen

FINE-TUNING vs RAG · AI-KONZEPTFine-Tuning vs RAG: Wann passt welcher Ansatz? Stand Mai 2026PRETRAINING · AI-KONZEPTWas ist Pretraining? Wie ein LLM seine Grundfähigkeit lernt Mai 2026RLHF · AI-KONZEPTWas ist RLHF? Reinforcement Learning from Human Feedback erklärt Mai 2026RAG · AI-KONZEPTRetrieval-Augmented Generation (RAG): Wie KI aus eigenen Dokumenten antwortetQUANTISIERUNG · AI-KONZEPTWas ist Quantisierung? Modell-Gewichte komprimieren ohne QualitätsverlustMETA LLAMA · LLM-ANBIETERMeta Llama im Schweizer Einsatz: Open-Weight-Modell, Self-Host oder ProviderMISTRAL · LLM-ANBIETERMistral AI aus CH-Treuhand-Sicht: EU-Residency, Pricing, Souveränität

Quellen

  1. Hu et al. – LoRA: Low-Rank Adaptation of Large Language Models (arXiv:2106.09685) · 2021-06
  2. Dettmers et al. – QLoRA: Efficient Finetuning of Quantised LLMs (arXiv:2305.14314) · 2023-05
  3. Unsloth – Fine-Tuning Guide and Performance Benchmarks · 2026-05
  4. OpenAccess-AI Collective – Axolotl Training Framework Documentation · 2026-04
  5. Hugging Face – TRL (Transformer Reinforcement Learning) Library Reference · 2026-05

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen