RLHF¶
RLHF (Reinforcement Learning from Human Feedback) ist eine Trainingsmethode, die Modelle dazu bringt, Outputs zu generieren, die Menschen bevorzugen.
Das Problem¶
Nach Pre-Training kann ein LLM Text generieren – aber nicht unbedingt hilfreichen, harmlosen oder ehrlichen Text.
RLHF "alignt" das Modell mit menschlichen Werten.
Der Prozess¶
graph TB
A[SFT-Modell] --> B[Generiert Antworten]
B --> C[Menschen ranken]
C --> D[Reward Model Training]
D --> E[RL-Training mit PPO]
E --> F[Aligned Model]
1. Supervised Fine-Tuning (SFT)¶
Training auf hochwertigen Beispielen.
2. Reward Model¶
- Modell generiert mehrere Antworten
- Menschen ranken sie
- Separates Modell lernt, "Qualität" vorherzusagen
3. RL-Optimierung¶
- Model optimiert gegen das Reward Model
- PPO (Proximal Policy Optimization) als Algorithmus
- KL-Penalty verhindert zu starke Abweichung
Alternativen¶
| Methode | Beschreibung |
|---|---|
| DPO | Direct Preference Optimization – kein Reward Model nötig |
| RLAIF | RL from AI Feedback – KI statt Menschen |
| Constitutional AI | Prinzipien-basiertes Self-Training |
Siehe auch¶
- Fine-Tuning – Der Kontext
- LLM – Was alignt wird