GPU¶

Eine GPU (Graphics Processing Unit) ist ein spezialisierter Prozessor, der ursprünglich für Grafikberechnungen entwickelt wurde, aber heute das Rückgrat von KI und Machine Learning bildet.

Warum GPUs für KI?¶

Neuronale Netze bestehen aus Millionen von Matrixoperationen, die parallel ausgeführt werden können. Genau dafür sind GPUs optimiert:

	CPU	GPU
Kerne	8–24 (stark)	1.000–16.000+ (einfacher)
Architektur	Sequentiell optimiert	Parallel optimiert
Ideal für	Komplexe Einzelaufgaben	Viele einfache Berechnungen

Analogie

Eine CPU ist wie ein Mathematik-Professor – brillant bei komplexen Problemen, aber nur einer. Eine GPU ist wie 10.000 Schüler mit Taschenrechnern – jeder kann nur einfache Aufgaben, aber zusammen lösen sie riesige Probleme schneller.

GPU vs CPU bei Matrixmultiplikation¶

Die zentrale Operation in Neuronalen Netzen ist die Matrixmultiplikation:

\[ C = A \times B \]

Bei einer \(1024 \times 1024\) Matrix:

CPU: Berechnet Element für Element → ~2 Milliarden Operationen sequentiell
GPU: Berechnet tausende Elemente gleichzeitig → massiv schneller

import torch

# CPU - langsam
a_cpu = torch.randn(4096, 4096)
b_cpu = torch.randn(4096, 4096)
c_cpu = a_cpu @ b_cpu  # Sekunden

# GPU - schnell
a_gpu = torch.randn(4096, 4096, device='cuda')
b_gpu = torch.randn(4096, 4096, device='cuda')
c_gpu = a_gpu @ b_gpu  # Millisekunden

Wichtige GPU-Specs für KI¶

VRAM (Video RAM)¶

Der wichtigste Faktor für lokale LLMs. Das Modell muss komplett in den VRAM passen:

Modellgröße	VRAM benötigt (FP16)	VRAM benötigt (Q4)
7B Parameter	~14 GB	~4 GB
13B Parameter	~26 GB	~8 GB
70B Parameter	~140 GB	~40 GB

Quantisierung hilft

Mit Quantisierung kannst du große Modelle auf kleineren GPUs laufen lassen – mit minimalem Qualitätsverlust.

Tensor Cores¶

Spezialisierte Kerne für Matrix-Operationen in FP16/BF16. Moderne NVIDIA-GPUs (ab Volta) haben Tensor Cores, die Training und Inferenz massiv beschleunigen.

Memory Bandwidth¶

Wie schnell Daten zwischen VRAM und GPU-Kernen fließen. Wichtig für große Batch-Sizes und lange Context Windows.

GPU-Hersteller für KI¶

NVIDIA¶

Der Marktführer. CUDA ist der De-facto-Standard für KI-Frameworks:

Consumer: RTX 4090 (24 GB), RTX 5090 (32 GB)
Prosumer: RTX A6000 (48 GB)
Datacenter: H100 (80 GB), H200 (141 GB)

AMD¶

Aufholend mit ROCm als CUDA-Alternative:

Consumer: RX 7900 XTX (24 GB)
Datacenter: MI300X (192 GB)

Software-Support

NVIDIA hat deutlich besseren Software-Support. Viele KI-Tools funktionieren nur mit CUDA oder haben experimentellen ROCm-Support.

Apple Silicon¶

M1/M2/M3/M4 Chips mit Unified Memory – CPU und GPU teilen sich den RAM:

Gut für Inferenz kleinerer Modelle
MLX-Framework von Apple
Kein CUDA, limitierte Framework-Unterstützung

GPU-Auslastung optimieren¶

graph LR
    A[Modell laden] --> B[Batch vorbereiten]
    B --> C[GPU-Berechnung]
    C --> D[Ergebnis zurück]
    D --> B

    style C fill:#7c3aed,color:#fff

Häufige Bottlenecks:

VRAM zu klein → Quantisierung oder kleineres Modell
CPU-Bottleneck → Daten werden nicht schnell genug geladen
Batch-Size zu klein → GPU ist nicht ausgelastet

Praktische Tipps¶

Für lokale LLMs

Mindestens 8 GB VRAM für 7B-Modelle (quantisiert)
16 GB VRAM gibt dir deutlich mehr Flexibilität
24 GB VRAM = Sweet Spot für Enthusiasten

GPU-Auslastung prüfen

# NVIDIA
nvidia-smi -l 1

# AMD
rocm-smi

Siehe auch¶

VRAM – Warum Speicher so wichtig ist
CUDA – NVIDIAs Programmierplattform
Quantisierung – Große Modelle auf kleinen GPUs
Inferenz – GPUs in der Praxis nutzen