RLHF · AI-KONZEPT

Was ist RLHF? Reinforcement Learning from Human Feedback erklärt Mai 2026

RLHF macht aus einem rohen Base-Model einen hilfsbereiten Assistenten. Drei Phasen: SFT, Reward Model, PPO. Plus Vergleich mit DPO, Constitutional AI und RLAIF Mai 2026.

Recherche & Faktencheck: DuneDive LLC · Stand: 2026-05

Was ist RLHF?

RLHF, Reinforcement Learning from Human Feedback, ist die Trainings-Phase, die ein rohes Sprachmodell nach dem Pretraining (siehe was-ist-pretraining) zu einem hilfsbereiten, höflichen, ungefährlichen Assistenten macht. Vor RLHF schreibt das Modell jede beliebige Textfortsetzung – Fluechfolge, Anleitung zum Selbstschaden, Verschwoerungstheorie. Nach RLHF lehnt es schädliche Anfragen ab, beantwortet hilfreiche Fragen klar und folgt Anweisungen.

Das Verfahren wurde popularisiert durch OpenAI mit InstructGPT (Januar 2022) und ChatGPT (November 2022). Seit Anfang 2023 ist RLHF Standard bei allen Top-Modellen: Claude, GPT, Gemini, Llama Instruct, Mistral Instruct. Mai 2026 hat sich die Familie ausdifferenziert – DPO (Direct Preference Optimization) hat den klassischen PPO-Schritt teilweise ersetzt, Constitutional AI (Anthropic) und RLAIF (Reinforcement Learning from AI Feedback) skalieren das Verfahren ohne menschliche Bewerter.

Die Grundidee bleibt gleich: Menschen (oder ein anderes Modell) sagen "Antwort A ist besser als Antwort B" zu Modell-Ausgaben. Aus diesen Präferenzen lernt das Modell, was "gute Antwort" bedeutet – nicht über starre Regeln, sondern über statistische Belohnung. Das ist ein anderes Lern-Signal als Pretraining: nicht "predict the next token", sondern "produce the answer humans prefer". Diese zweite Stufe formt den Charakter des Modells.

Mai 2026 ist RLHF ein Sammelbegriff für eine Familie verwandter Verfahren: klassisches PPO-RLHF (OpenAI, Llama 2), DPO (Stanford Forschung 2023, Mai 2026 Standard bei Mistral und Open-Source), Constitutional AI mit RLAIF (Anthropic Claude-Familie), und Mischverfahren mit Online-Learning und Reward-Model-Refresh. Für KMU-Nutzer ist die Praxisregel: jedes ernsthafte Business-Modell ist RLHF-trainiert, jedes Base-Model ist es nicht.

Warum RLHF für KMU wichtig ist

Auch ohne selbst je ein Modell zu trainieren, berührt RLHF Ihre Treuhand- oder KMU-Arbeit direkt. Vier Konsequenzen.

Erstens: nutzbare Antworten statt rohem Text-Echo. Ein Base-Model produziert nach einer Frage "Was ist die MWST-Quote für Buchhaltungs-Dienstleistung?" oft eine Antwort, die das Wort "Buchhaltung" enthält – aber kein klares "8.1% Normalsatz" liefert. Nach RLHF beantwortet das Modell die Frage strukturiert, mit Kontext und Disclaimer wenn unsicher. Diese Antwort-Form ist nicht selbstverständlich – sie ist explizit antrainiert. Wer Open-Weight-Modelle nutzt, muss "Instruct" oder "Chat" Varianten wählen, nicht die rohen Base-Models.

Zweitens: Refusal von schädlichen Anfragen. Ein RLHF-trainiertes Modell lehnt Anfragen zu Waffenbau, Selbstschaden, Krimineller-Anleitung ab. Mai 2026 ist diese Schutzschicht bei allen kommerziellen Modellen aktiv. Für KMU praktisch: kein Compliance-Risiko durch versehentlich generierte Bombenbau-Anleitung – aber auch potentielle Frustration ("Modell ist zu vorsichtig"). Wer Refusal-Verhalten anpassen will, kann das per System-Prompt oder via Custom-Fine-Tuning steuern – innerhalb der Anbieter-Acceptable-Use-Policy.

Drittens: Charakter und Ton des Modells. Claude ist tendenziell ausführlich-vorsichtig, GPT ist tendenziell knapper-direkter, Gemini ist tendenziell formeller, Llama Instruct ist tendenziell pragmatischer. Diese Stilunterschiede sind kein Zufall – sie kommen aus dem RLHF-Trainings-Datensatz und den Bewerter-Präferenzen. Wer für Treuhand-Mandanten-Antworten einen bestimmten Ton braucht, prüft Stil-Match per Test-Suite (10-30 typische Mandanten-Fragen, mehrere Modelle vergleichen).

Viertens: Anweisungs-Befolgung (Instruction Following). RLHF-trainierte Modelle folgen Anweisungen im System-Prompt – "Antworte nur in Deutsch", "Antworte in maximal 200 Tokens", "Verwende Sie-Form" – verlässlich. Base-Models tun das nicht. Mai 2026 ist die Anweisungs-Befolgung der stärkste Differenzierer: Top-Modelle (das aktuelle Claude-Spitzenmodell, das jeweils aktuelle GPT-Spitzenmodell) über 95% Befolgung in komplexen Mehr-Anweisung-Tests, Mittelfeld (Gemini, Mistral) bei 80-90%, schwächere Modelle bei 60-75%.

Strategische Konsequenz. RLHF ist die Phase, in der das Modell von "Sprachgenerator" zu "Mitarbeiter-Werkzeug" wird. Wer beim Modell-Wahl-Prozess nur Pretraining-Daten anschaut (Daten-Mix, Cutoff), übersieht die RLHF-Qualität – die für Geschäfts-Nutzung mindestens so wichtig ist. Treuhand-Tests sollten 20-30 typische Anfragen über mehrere Modelle laufen lassen und bewerten: Klarheit, Refusal-Verhalten, Anweisungs-Befolgung, Halluzinations-Rate.

RLHF in drei Phasen

Klassisches RLHF aus dem InstructGPT-Paper (OpenAI, 2022) zerfällt in drei aufeinander aufbauende Phasen.

Phase 1: Supervised Fine-Tuning (SFT). Menschliche Demonstrationen werden gesammelt. Annotatoren bekommen Fragen oder Aufgaben und schreiben modelhaft gute Antworten. Typische Datenmenge: 10.000-100.000 Frage-Antwort-Paare. Das Base-Model wird auf diesen Paaren weiter trainiert (klassisches Supervised Learning), bis es lernt, das Format "Frage → strukturierte Antwort" zu produzieren. Nach SFT ist das Modell ein "rohe Assistant" – kann Anweisungen folgen, aber hat noch keine feine Präferenz-Steuerung.

Phase 2: Reward Model Training. Annotatoren bekommen je 2-4 Modell-Antworten zur selben Frage und sortieren sie nach Präferenz (beste, zweitbeste, schlechteste). Aus diesen Präferenzen wird ein Reward Model trainiert – ein zweites Modell, das für JEDE Antwort eine numerische Belohnung vorhersagen kann. "Mit dieser Antwort wären die menschlichen Bewerter im Schnitt zufrieden mit Score 7.3/10." Datenmenge typisch 50.000-500.000 Vergleichs-Paare. Das Reward Model ist KEIN finales Antwort-Modell – es ist ein Hilfsmodell für Phase 3.

Phase 3: Reinforcement Learning (PPO). Das SFT-Modell aus Phase 1 wird mit Proximal Policy Optimization (PPO, ein Reinforcement-Learning-Algorithmus) weiter trainiert. Schleife: Modell beantwortet eine Frage, Reward Model gibt Score, Modell-Parameter werden so angepasst, dass kuenftige Antworten höheren Score bekommen. Dabei wird ein KL-Penalty-Term verwendet, damit das Modell nicht zu weit vom SFT-Stand abdriftet ("Reward Hacking" vermeiden). Phase 3 ist die teuerste – sie braucht das Reward Model, das Trainings-Modell, mehrere GPU-Kopien für parallele Sampling, typisch 7-30 Tage Wallclock-Zeit auf 100-1000 GPUs. Geschätzte Kosten für ein 70B-Modell PPO-Phase: USD 1-10 Millionen.

Variante DPO (Direct Preference Optimization). Mai 2026 Standard bei vielen Open-Source-Modellen (Mistral, Qwen, Llama-OS-Derivative). DPO überspringt das explizite Reward Model und das PPO-Sampling. Statt dessen wird direkt aus den Präferenz-Paaren ein Loss berechnet, der das Modell zur bevorzugten Antwort hin und von der nicht-bevorzugten weg trainiert. Vorteile: einfacher zu implementieren, 3-10x billiger, stabilere Trainings-Dynamik. Nachteile: weniger Spielraum für komplexe Belohnungs-Strukturen. Anthropic und OpenAI nutzen weiterhin Mischverfahren (DPO-ähnliche Bausteine plus klassisches PPO), DeepSeek und Mistral Mai 2026 vorwiegend DPO.

Variante Constitutional AI (Anthropic, 2022 Paper, Mai 2026 in das aktuelle Claude-Spitzenmodell). Statt menschlicher Annotation der Präferenzen werden die Bewertungen von einem KI-Bewerter erzeugt – auf Basis einer "Verfassung" (constitution) aus 30-100 expliziten Prinzipien ("Antworten sind hilfreich, harmlos, ehrlich"). Das spart Annotation-Kosten und macht die Werte transparent dokumentierbar. Variante RLAIF (Reinforcement Learning from AI Feedback) ist die generischere Form: ein KI-Bewerter ersetzt menschliche Bewerter komplett oder teilweise. Mai 2026 ist RLAIF Standard für Skalierungs-Schritte; voll-menschliche RLHF wird für "Final-Polish" eingesetzt.

Praktische Kosten Mai 2026. Komplette RLHF-Phase für ein Top-Modell: USD 5-30 Millionen (Reward-Model-Training, PPO-Compute, Annotator-Kosten). Annotator-Kosten allein: USD 2-10 pro Vergleichs-Paar bei qualifizierten Annotatoren (mehrsprachig, fachlich), insgesamt USD 1-5 Millionen für 500.000 Paare. Constitutional AI / RLAIF reduziert diese Kosten um Faktor 5-10.

RLHF verstehen in 5 Schritten

01Verstehen Sie die drei Phasen: SFT (menschliche Demonstrationen), Reward Model (Präferenz-Annotation), PPO oder DPO (RL-Training).
02Unterscheiden Sie Base-Model (roher Text-Continuator) und Instruct-/Chat-Modell (RLHF-trainiert, assistance-fähig) – für Business immer RLHF-Variante.
03Prüfen Sie pro Modell die Anweisungs-Befolgung mit 10-20 echten Treuhand-Anfragen – RLHF-Qualität ist nicht zwingend gleich Pretraining-Qualität.
04Verstehen Sie die Grenzen: RLHF formt Stil und Refusal, nicht Faktenwissen. Fakten kommen aus RAG oder Fine-Tuning auf domänenspezifischem Material.
05Treffen Sie Modell-Wahl mit RLHF-Bewusstsein: Anthropic Claude (Constitutional AI), OpenAI GPT (klassisches PPO + DPO-Mix), Mistral/Llama (DPO), DeepSeek (DPO-Mix).

Wann RLHF-Wissen praktisch wird

Drei konkrete Anlässe, in denen RLHF-Verständnis den Ausschlag gibt.

Anlass 1: Open-Weight-Modell-Auswahl. Wenn Sie Llama 4, Mistral oder DeepSeek selbst hosten, MÜSSEN Sie die Instruct- oder Chat-Variante wählen, nicht das Base-Model. Hugging Face listet beide; das Base-Model heisst typisch "llama-4-maverick-base", die RLHF-trainierte "llama-4-maverick-instruct" oder "-chat". Wer versehentlich Base-Model lädt, bekommt unbrauchbare Textfortsetzung statt Frage-Antwort-Verhalten.

Anlass 2: Fine-Tuning eines eigenen Modells. Wenn Sie auf einem Open-Weight-Modell Fine-Tuning machen (siehe wie-trainiert-man-eigenes-modell), starten Sie typisch von der Instruct-Version. Das spart Ihnen die eigene RLHF-Phase. Aber Achtung: aggressives Fine-Tuning kann RLHF-Verhalten überschreiben – das Modell wird wieder "roher" und kann Refusal-Eigenschaften verlieren. Bei sensitiven Branchen (Treuhand, Recht, Medizin) sollte ein Compliance-Check nach Fine-Tuning erfolgen.

Anlass 3: System-Prompt-Engineering. Da RLHF die Anweisungs-Befolgung trainiert, ist der System-Prompt das wichtigste Werkzeug zur Steuerung. Top-Modelle befolgen 5-10 explizite Anweisungen (Sprache, Ton, Format, Verbot, Refusal-Klausel) verlässlich. Schwächere Modelle "vergessen" Anweisungen nach 200-500 Tokens Konversation. Wer System-Prompts schreibt, testet auf dem Ziel-Modell und passt Anzahl/Komplexität an die RLHF-Qualität an.

Anlass 4: Bewertung der Refusal-Qualität. Mai 2026 unterscheiden sich Modelle stark in Refusal-Verhalten. Zu strikte Refusals (Claude tendenziell, das jeweils aktuelle GPT-Spitzenmodell mit "Safety-Mode") verhindern auch legitime Anfragen ("Wie schreibe ich eine Mahnung mit rechtlich korrekten Drohungen?"). Zu lasche Refusals (manche Open-Source-Mistral-Derivate) erzeugen Compliance-Risiko. Treuhand-Büro prüfen am Test-Set: 10-20 grenzwertige Anfragen über 3-4 Modelle vergleichen, klären ob das Verhalten zur Branche passt.

Anlass 5: Halluzinations-Verständnis. RLHF reduziert Halluzination – aber nicht null. Das Reward Model belohnt selbstsichere, flüssige Antworten – das kann dazu führen, dass das Modell auch dann selbstsicher antwortet, wenn es nichts weiss. Constitutional AI mit expliziten "Ehrlichkeits"-Prinzipien (Anthropic) und Refusal-Training (OpenAI) reduzieren das. Für beweispflichtige Anwendungen bleibt RAG (siehe retrieval-augmented-generation) das wichtigere Werkzeug als RLHF allein.

Wann RLHF nicht das Problem löst

Drei Fälle, in denen RLHF nicht der richtige Ansatzpunkt ist.

Erstens: faktische Falsch-Antworten. RLHF formt Stil, Ton und Anweisungs-Befolgung – aber es bringt dem Modell kein neues Faktenwissen. Wenn das Modell nach Pretraining glaubt, der MWST-Normalsatz sei 7%, kann RLHF dieses Fakt nicht reparieren. Faktentreue verbessert sich durch RAG (Quellen-Anbindung) und Fine-Tuning auf domänenspezifischem Material, nicht durch mehr RLHF-Präferenz-Daten.

Zweitens: harte deterministische Regeln. Wer "wenn Anfrage Steuerberatung, dann ablehnen wegen StBVG" als HARTE Regel braucht (rechtliche Pflicht), kann das nicht zuverlässig per RLHF überzeugen. Das Modell lernt es typisch in 95-98% der Fälle, lehnt aber in 2-5% trotzdem fehlerhaft an. Für harte Regeln: Output-Filter, Refusal-Wrapper oder externer Klassifikator vor dem Modell-Aufruf.

Drittens: spezifischer Schreibstil. RLHF trainiert auf breite Bewerter-Präferenz – das ist eine Mittelung. Wenn Sie einen bestimmten Stil (Treuhand-Hausstil, Anwaltskanzlei-Memo-Stil) wollen, ist Fine-Tuning auf 200-2000 Stil-Beispielen wirksamer als ein langer System-Prompt-Versuch. RLHF gibt Ihnen "hilfsbereit-vorsichtig", nicht "Schweizer Kanzlei-Trockenheit".

Falle "RLHF macht das Modell sicher". RLHF reduziert offensichtliche Schäden (Bombe, Selbstschaden, Krimineller-Anleitung), aber Mai 2026 sind sophistizierte Jailbreaks (Mehrschritt-Manipulation, Rollen-Spiel-Tricks) weiterhin möglich. Wer Compliance-kritische Anwendungen baut, kann sich nicht allein auf RLHF-Refusal verlassen – er braucht Output-Filter, Audit-Log, Eskalation an menschliche Prüfung bei verdächtigem Input.

Falle "wir trainieren unser eigenes RLHF". Vollständiges RLHF ist USD 5-30 Millionen Aufwand. Selbst DPO (billiger) kostet USD 200.000-2 Millionen für einen sinnvollen Lauf. Für KMU ist RLHF-Selbst-Training Mai 2026 nicht wirtschaftlich. Stattdessen: bestehendes RLHF-Modell nehmen und mit Fine-Tuning (LoRA, siehe wie-trainiert-man-eigenes-modell) auf eigene Aufgaben anpassen.

Vor- und Nachteile

STÄRKEN

Verwandelt rohes Sprachmodell in hilfsbereiten Assistenten
Implementiert Refusal-Verhalten für schädliche Anfragen
Verbessert Anweisungs-Befolgung dramatisch (von 30% zu 95%+)
Mai 2026 Standard in allen kommerziellen Modellen

SCHWÄCHEN

Sehr teuer: USD 5-30 Millionen für Frontier-Modelle, USD 0.5-3M auch für DPO
Bringt kein neues Faktenwissen – nur Stil und Verhalten
Reward Hacking möglich – Modell wird selbstsicher in Halluzinationen
Wertekorpus der Annotatoren oder Verfassung prägt das Modell-Verhalten subtil

Häufige Fragen

Was ist der Unterschied zwischen RLHF und DPO?

Klassisches RLHF (PPO) trainiert zuerst ein Reward Model und nutzt dieses dann für Reinforcement Learning. DPO (Direct Preference Optimization, Stanford 2023) überspringt das Reward Model und trainiert das Modell direkt auf Präferenz-Paaren. Vorteile DPO: 3-10x billiger, stabiler, einfacher zu implementieren. Nachteile: weniger Flexibilität für komplexe Belohnungs-Strukturen. Mai 2026 Standard bei Open-Source (Mistral, Llama, DeepSeek), während Anthropic und OpenAI Mischverfahren einsetzen.

Was ist Constitutional AI?

Anthropic-Verfahren (2022 Paper, Mai 2026 in das aktuelle Claude-Spitzenmodell). Statt menschliche Annotation der Präferenzen wird ein KI-Bewerter mit einer "Verfassung" (30-100 explizite Prinzipien wie "hilfreich, harmlos, ehrlich") verwendet. Vorteile: skaliert ohne Annotator-Kosten, Werte sind transparent dokumentierbar, sehr konsistent. Praktische Konsequenz: Claude-Familie hat charakteristisch klare Refusal-Regeln und ist eher vorsichtig – das ist explizit aus den Verfassungs-Prinzipien abgeleitet.

Kann ich RLHF "abschalten"?

Nicht per API-Parameter. RLHF ist in die Modell-Gewichte trainiert und nicht zur Laufzeit deaktivierbar. Wer "ungezügelten" Output braucht, muss ein Base-Model nutzen (von Hugging Face, "*-base" Varianten von Llama 4, Mistral, Qwen). Mai 2026 sind kommerzielle API-Modelle (Claude, GPT, Gemini) ausschliesslich in RLHF-Form verfügbar. Wer Refusal-Verhalten anpassen will, kann das per System-Prompt-Engineering oder Custom Fine-Tuning (innerhalb der Anbieter-AUP) tun.

Lohnt sich RLAIF für KMU?

Nein, für KMU ist auch RLAIF zu teuer. RLAIF (Reinforcement Learning from AI Feedback) reduziert RLHF-Kosten um Faktor 5-10 – aber immer noch USD 500.000-3 Millionen pro sinnvollem Lauf. Mai 2026 ist die KMU-Strategie: bestehendes RLHF-Modell nehmen (Claude, GPT, Mistral Instruct) und mit Fine-Tuning (LoRA, USD 5-50k) auf eigene Domäne anpassen. RLAIF ist relevant für Anbieter, nicht für Nutzer.

Quellen

PASSEND ZU IHREM STACK?

Wie das in Ihrem Betrieb konkret aussieht – 30 Minuten Erstgespräch.

Erstgespräch buchen