LLM (Large Language Model)¶
Ein Large Language Model (LLM) ist ein neuronales Netz, das auf riesigen Textmengen trainiert wurde, um Sprache zu verstehen und zu generieren. Bekannte Beispiele: GPT-4, Claude, Llama, Gemini.
Was macht ein LLM?¶
Die Kernaufgabe ist simpel: Vorhersage des nächsten Tokens.
Aus dieser einfachen Aufgabe emergieren komplexe Fähigkeiten wie Reasoning, Zusammenfassung und Code-Generierung.
Architektur¶
Moderne LLMs basieren fast alle auf der Transformer-Architektur (Decoder-only):
graph TB
Input[Token Input] --> Emb[Embedding Layer]
Emb --> T1[Transformer Block 1]
T1 --> T2[Transformer Block 2]
T2 --> Dots[...]
Dots --> TN[Transformer Block N]
TN --> Head[Language Model Head]
Head --> Output[Token Probabilities]
→ Details: Transformer, Attention
Skalierung¶
LLMs werden durch drei Faktoren besser:
| Faktor | Beispiel |
|---|---|
| Parameter | 7B → 70B → 405B |
| Trainingsdaten | Mehr Text, diverse Quellen |
| Compute | Mehr GPUs, längeres Training |
Die "Scaling Laws" zeigen: Verdopplung der Ressourcen → vorhersagbare Verbesserung.
Training eines LLM¶
1. Pre-Training¶
- Unsupervised auf Internet-Text
- Ziel: Next-Token-Prediction
- Milliarden von Tokens
- Wochen auf tausenden GPUs
2. Supervised Fine-Tuning (SFT)¶
- Training auf hochwertigen Instruktionen
- Mensch-geschriebene Beispiele
- Model lernt "helpful" zu sein
3. RLHF / Preference Tuning¶
- Reinforcement Learning from Human Feedback
- Menschen ranken Outputs
- Model optimiert für menschliche Präferenzen
Wichtige Größen¶
| Modell | Parameter | Context Length | Open Source? |
|---|---|---|---|
| GPT-4 | ~1.8T (MoE) | 128K | Nein |
| Claude 3.5 Sonnet | ~70-175B (geschätzt) | 200K | Nein |
| Llama 3.1 | 8B / 70B / 405B | 128K | Ja |
| Mistral Large | ~123B | 128K | Nein |
| Qwen 2.5 | 0.5B - 72B | 128K | Ja |
Lokale LLMs¶
Mit Quantisierung kannst du LLMs auf Consumer-Hardware laufen lassen:
| Modell | VRAM (Q4) | Qualität |
|---|---|---|
| Llama 3.1 8B | ~5 GB | Gut für einfache Tasks |
| Llama 3.1 70B | ~40 GB | Near-GPT-4 für viele Tasks |
| Mistral 7B | ~5 GB | Sehr effizient |
→ Mehr: Quantisierung, GPU, VRAM
Limitierungen¶
- Halluzinationen: Generiert plausibel klingende Falschinformationen
- Context Window: Begrenzte "Aufmerksamkeitsspanne"
- Kein echtes Verstehen: Pattern Matching auf Steroiden
- Kein Weltwissen nach Cutoff: Nur Wissen bis zum Training
- Teuer in Training & Inferenz
Siehe auch¶
- Transformer – Die Architektur hinter LLMs
- Tokenisierung – Wie Text zu Zahlen wird
- Attention – Der Kern des Transformers
- Temperature – Output kontrollieren
- RLHF – Wie LLMs "aligned" werden