GPU¶
Eine GPU (Graphics Processing Unit) ist ein spezialisierter Prozessor, der ursprünglich für Grafikberechnungen entwickelt wurde, aber heute das Rückgrat von KI und Machine Learning bildet.
Warum GPUs für KI?¶
Neuronale Netze bestehen aus Millionen von Matrixoperationen, die parallel ausgeführt werden können. Genau dafür sind GPUs optimiert:
| CPU | GPU | |
|---|---|---|
| Kerne | 8–24 (stark) | 1.000–16.000+ (einfacher) |
| Architektur | Sequentiell optimiert | Parallel optimiert |
| Ideal für | Komplexe Einzelaufgaben | Viele einfache Berechnungen |
Analogie
Eine CPU ist wie ein Mathematik-Professor – brillant bei komplexen Problemen, aber nur einer. Eine GPU ist wie 10.000 Schüler mit Taschenrechnern – jeder kann nur einfache Aufgaben, aber zusammen lösen sie riesige Probleme schneller.
GPU vs CPU bei Matrixmultiplikation¶
Die zentrale Operation in Neuronalen Netzen ist die Matrixmultiplikation:
Bei einer \(1024 \times 1024\) Matrix:
- CPU: Berechnet Element für Element → ~2 Milliarden Operationen sequentiell
- GPU: Berechnet tausende Elemente gleichzeitig → massiv schneller
import torch
# CPU - langsam
a_cpu = torch.randn(4096, 4096)
b_cpu = torch.randn(4096, 4096)
c_cpu = a_cpu @ b_cpu # Sekunden
# GPU - schnell
a_gpu = torch.randn(4096, 4096, device='cuda')
b_gpu = torch.randn(4096, 4096, device='cuda')
c_gpu = a_gpu @ b_gpu # Millisekunden
Wichtige GPU-Specs für KI¶
VRAM (Video RAM)¶
Der wichtigste Faktor für lokale LLMs. Das Modell muss komplett in den VRAM passen:
| Modellgröße | VRAM benötigt (FP16) | VRAM benötigt (Q4) |
|---|---|---|
| 7B Parameter | ~14 GB | ~4 GB |
| 13B Parameter | ~26 GB | ~8 GB |
| 70B Parameter | ~140 GB | ~40 GB |
Quantisierung hilft
Mit Quantisierung kannst du große Modelle auf kleineren GPUs laufen lassen – mit minimalem Qualitätsverlust.
Tensor Cores¶
Spezialisierte Kerne für Matrix-Operationen in FP16/BF16. Moderne NVIDIA-GPUs (ab Volta) haben Tensor Cores, die Training und Inferenz massiv beschleunigen.
Memory Bandwidth¶
Wie schnell Daten zwischen VRAM und GPU-Kernen fließen. Wichtig für große Batch-Sizes und lange Context Windows.
GPU-Hersteller für KI¶
NVIDIA¶
Der Marktführer. CUDA ist der De-facto-Standard für KI-Frameworks:
- Consumer: RTX 4090 (24 GB), RTX 5090 (32 GB)
- Prosumer: RTX A6000 (48 GB)
- Datacenter: H100 (80 GB), H200 (141 GB)
AMD¶
Aufholend mit ROCm als CUDA-Alternative:
- Consumer: RX 7900 XTX (24 GB)
- Datacenter: MI300X (192 GB)
Software-Support
NVIDIA hat deutlich besseren Software-Support. Viele KI-Tools funktionieren nur mit CUDA oder haben experimentellen ROCm-Support.
Apple Silicon¶
M1/M2/M3/M4 Chips mit Unified Memory – CPU und GPU teilen sich den RAM:
- Gut für Inferenz kleinerer Modelle
- MLX-Framework von Apple
- Kein CUDA, limitierte Framework-Unterstützung
GPU-Auslastung optimieren¶
graph LR
A[Modell laden] --> B[Batch vorbereiten]
B --> C[GPU-Berechnung]
C --> D[Ergebnis zurück]
D --> B
style C fill:#7c3aed,color:#fff
Häufige Bottlenecks:
- VRAM zu klein → Quantisierung oder kleineres Modell
- CPU-Bottleneck → Daten werden nicht schnell genug geladen
- Batch-Size zu klein → GPU ist nicht ausgelastet
Praktische Tipps¶
Für lokale LLMs
- Mindestens 8 GB VRAM für 7B-Modelle (quantisiert)
- 16 GB VRAM gibt dir deutlich mehr Flexibilität
- 24 GB VRAM = Sweet Spot für Enthusiasten
Siehe auch¶
- VRAM – Warum Speicher so wichtig ist
- CUDA – NVIDIAs Programmierplattform
- Quantisierung – Große Modelle auf kleinen GPUs
- Inferenz – GPUs in der Praxis nutzen