Zum Inhalt

RLHF

RLHF (Reinforcement Learning from Human Feedback) ist eine Trainingsmethode, die Modelle dazu bringt, Outputs zu generieren, die Menschen bevorzugen.


Das Problem

Nach Pre-Training kann ein LLM Text generieren – aber nicht unbedingt hilfreichen, harmlosen oder ehrlichen Text.

RLHF "alignt" das Modell mit menschlichen Werten.


Der Prozess

graph TB
    A[SFT-Modell] --> B[Generiert Antworten]
    B --> C[Menschen ranken]
    C --> D[Reward Model Training]
    D --> E[RL-Training mit PPO]
    E --> F[Aligned Model]

1. Supervised Fine-Tuning (SFT)

Training auf hochwertigen Beispielen.

2. Reward Model

  • Modell generiert mehrere Antworten
  • Menschen ranken sie
  • Separates Modell lernt, "Qualität" vorherzusagen

3. RL-Optimierung

  • Model optimiert gegen das Reward Model
  • PPO (Proximal Policy Optimization) als Algorithmus
  • KL-Penalty verhindert zu starke Abweichung

Alternativen

Methode Beschreibung
DPO Direct Preference Optimization – kein Reward Model nötig
RLAIF RL from AI Feedback – KI statt Menschen
Constitutional AI Prinzipien-basiertes Self-Training

Siehe auch