Zum Inhalt

LLM (Large Language Model)

Ein Large Language Model (LLM) ist ein neuronales Netz, das auf riesigen Textmengen trainiert wurde, um Sprache zu verstehen und zu generieren. Bekannte Beispiele: GPT-4, Claude, Llama, Gemini.


Was macht ein LLM?

Die Kernaufgabe ist simpel: Vorhersage des nächsten Tokens.

Input:  "Die Hauptstadt von Deutschland ist"
Output: " Berlin" (mit hoher Wahrscheinlichkeit)

Aus dieser einfachen Aufgabe emergieren komplexe Fähigkeiten wie Reasoning, Zusammenfassung und Code-Generierung.


Architektur

Moderne LLMs basieren fast alle auf der Transformer-Architektur (Decoder-only):

graph TB
    Input[Token Input] --> Emb[Embedding Layer]
    Emb --> T1[Transformer Block 1]
    T1 --> T2[Transformer Block 2]
    T2 --> Dots[...]
    Dots --> TN[Transformer Block N]
    TN --> Head[Language Model Head]
    Head --> Output[Token Probabilities]

→ Details: Transformer, Attention


Skalierung

LLMs werden durch drei Faktoren besser:

Faktor Beispiel
Parameter 7B → 70B → 405B
Trainingsdaten Mehr Text, diverse Quellen
Compute Mehr GPUs, längeres Training

Die "Scaling Laws" zeigen: Verdopplung der Ressourcen → vorhersagbare Verbesserung.


Training eines LLM

1. Pre-Training

  • Unsupervised auf Internet-Text
  • Ziel: Next-Token-Prediction
  • Milliarden von Tokens
  • Wochen auf tausenden GPUs

2. Supervised Fine-Tuning (SFT)

  • Training auf hochwertigen Instruktionen
  • Mensch-geschriebene Beispiele
  • Model lernt "helpful" zu sein

3. RLHF / Preference Tuning

  • Reinforcement Learning from Human Feedback
  • Menschen ranken Outputs
  • Model optimiert für menschliche Präferenzen

Wichtige Größen

Modell Parameter Context Length Open Source?
GPT-4 ~1.8T (MoE) 128K Nein
Claude 3.5 Sonnet ~70-175B (geschätzt) 200K Nein
Llama 3.1 8B / 70B / 405B 128K Ja
Mistral Large ~123B 128K Nein
Qwen 2.5 0.5B - 72B 128K Ja

Lokale LLMs

Mit Quantisierung kannst du LLMs auf Consumer-Hardware laufen lassen:

Modell VRAM (Q4) Qualität
Llama 3.1 8B ~5 GB Gut für einfache Tasks
Llama 3.1 70B ~40 GB Near-GPT-4 für viele Tasks
Mistral 7B ~5 GB Sehr effizient

→ Mehr: Quantisierung, GPU, VRAM


Limitierungen

  • Halluzinationen: Generiert plausibel klingende Falschinformationen
  • Context Window: Begrenzte "Aufmerksamkeitsspanne"
  • Kein echtes Verstehen: Pattern Matching auf Steroiden
  • Kein Weltwissen nach Cutoff: Nur Wissen bis zum Training
  • Teuer in Training & Inferenz

Siehe auch

  • Transformer – Die Architektur hinter LLMs
  • Tokenisierung – Wie Text zu Zahlen wird
  • Attention – Der Kern des Transformers
  • Temperature – Output kontrollieren
  • RLHF – Wie LLMs "aligned" werden