LLM (Large Language Model)¶

Ein Large Language Model (LLM) ist ein neuronales Netz, das auf riesigen Textmengen trainiert wurde, um Sprache zu verstehen und zu generieren. Bekannte Beispiele: GPT-4, Claude, Llama, Gemini.

Was macht ein LLM?¶

Die Kernaufgabe ist simpel: Vorhersage des nächsten Tokens.

Input:  "Die Hauptstadt von Deutschland ist"
Output: " Berlin" (mit hoher Wahrscheinlichkeit)

Aus dieser einfachen Aufgabe emergieren komplexe Fähigkeiten wie Reasoning, Zusammenfassung und Code-Generierung.

Architektur¶

Moderne LLMs basieren fast alle auf der Transformer-Architektur (Decoder-only):

graph TB
    Input[Token Input] --> Emb[Embedding Layer]
    Emb --> T1[Transformer Block 1]
    T1 --> T2[Transformer Block 2]
    T2 --> Dots[...]
    Dots --> TN[Transformer Block N]
    TN --> Head[Language Model Head]
    Head --> Output[Token Probabilities]

→ Details: Transformer, Attention

Skalierung¶

LLMs werden durch drei Faktoren besser:

Faktor	Beispiel
Parameter	7B → 70B → 405B
Trainingsdaten	Mehr Text, diverse Quellen
Compute	Mehr GPUs, längeres Training

Die "Scaling Laws" zeigen: Verdopplung der Ressourcen → vorhersagbare Verbesserung.

Training eines LLM¶

1. Pre-Training¶

Unsupervised auf Internet-Text
Ziel: Next-Token-Prediction
Milliarden von Tokens
Wochen auf tausenden GPUs

2. Supervised Fine-Tuning (SFT)¶

Training auf hochwertigen Instruktionen
Mensch-geschriebene Beispiele
Model lernt "helpful" zu sein

3. RLHF / Preference Tuning¶

Reinforcement Learning from Human Feedback
Menschen ranken Outputs
Model optimiert für menschliche Präferenzen

Wichtige Größen¶

Modell	Parameter	Context Length	Open Source?
GPT-4	~1.8T (MoE)	128K	Nein
Claude 3.5 Sonnet	~70-175B (geschätzt)	200K	Nein
Llama 3.1	8B / 70B / 405B	128K	Ja
Mistral Large	~123B	128K	Nein
Qwen 2.5	0.5B - 72B	128K	Ja

Lokale LLMs¶

Mit Quantisierung kannst du LLMs auf Consumer-Hardware laufen lassen:

Modell	VRAM (Q4)	Qualität
Llama 3.1 8B	~5 GB	Gut für einfache Tasks
Llama 3.1 70B	~40 GB	Near-GPT-4 für viele Tasks
Mistral 7B	~5 GB	Sehr effizient

→ Mehr: Quantisierung, GPU, VRAM

Limitierungen¶

Halluzinationen: Generiert plausibel klingende Falschinformationen
Context Window: Begrenzte "Aufmerksamkeitsspanne"
Kein echtes Verstehen: Pattern Matching auf Steroiden
Kein Weltwissen nach Cutoff: Nur Wissen bis zum Training
Teuer in Training & Inferenz

Siehe auch¶

Transformer – Die Architektur hinter LLMs
Tokenisierung – Wie Text zu Zahlen wird
Attention – Der Kern des Transformers
Temperature – Output kontrollieren
RLHF – Wie LLMs "aligned" werden