Zum Inhalt

GPU

Eine GPU (Graphics Processing Unit) ist ein spezialisierter Prozessor, der ursprünglich für Grafikberechnungen entwickelt wurde, aber heute das Rückgrat von KI und Machine Learning bildet.


Warum GPUs für KI?

Neuronale Netze bestehen aus Millionen von Matrixoperationen, die parallel ausgeführt werden können. Genau dafür sind GPUs optimiert:

CPU GPU
Kerne 8–24 (stark) 1.000–16.000+ (einfacher)
Architektur Sequentiell optimiert Parallel optimiert
Ideal für Komplexe Einzelaufgaben Viele einfache Berechnungen

Analogie

Eine CPU ist wie ein Mathematik-Professor – brillant bei komplexen Problemen, aber nur einer. Eine GPU ist wie 10.000 Schüler mit Taschenrechnern – jeder kann nur einfache Aufgaben, aber zusammen lösen sie riesige Probleme schneller.


GPU vs CPU bei Matrixmultiplikation

Die zentrale Operation in Neuronalen Netzen ist die Matrixmultiplikation:

\[ C = A \times B \]

Bei einer \(1024 \times 1024\) Matrix:

  • CPU: Berechnet Element für Element → ~2 Milliarden Operationen sequentiell
  • GPU: Berechnet tausende Elemente gleichzeitig → massiv schneller
import torch

# CPU - langsam
a_cpu = torch.randn(4096, 4096)
b_cpu = torch.randn(4096, 4096)
c_cpu = a_cpu @ b_cpu  # Sekunden

# GPU - schnell
a_gpu = torch.randn(4096, 4096, device='cuda')
b_gpu = torch.randn(4096, 4096, device='cuda')
c_gpu = a_gpu @ b_gpu  # Millisekunden

Wichtige GPU-Specs für KI

VRAM (Video RAM)

Der wichtigste Faktor für lokale LLMs. Das Modell muss komplett in den VRAM passen:

Modellgröße VRAM benötigt (FP16) VRAM benötigt (Q4)
7B Parameter ~14 GB ~4 GB
13B Parameter ~26 GB ~8 GB
70B Parameter ~140 GB ~40 GB

Quantisierung hilft

Mit Quantisierung kannst du große Modelle auf kleineren GPUs laufen lassen – mit minimalem Qualitätsverlust.

Tensor Cores

Spezialisierte Kerne für Matrix-Operationen in FP16/BF16. Moderne NVIDIA-GPUs (ab Volta) haben Tensor Cores, die Training und Inferenz massiv beschleunigen.

Memory Bandwidth

Wie schnell Daten zwischen VRAM und GPU-Kernen fließen. Wichtig für große Batch-Sizes und lange Context Windows.


GPU-Hersteller für KI

NVIDIA

Der Marktführer. CUDA ist der De-facto-Standard für KI-Frameworks:

  • Consumer: RTX 4090 (24 GB), RTX 5090 (32 GB)
  • Prosumer: RTX A6000 (48 GB)
  • Datacenter: H100 (80 GB), H200 (141 GB)

AMD

Aufholend mit ROCm als CUDA-Alternative:

  • Consumer: RX 7900 XTX (24 GB)
  • Datacenter: MI300X (192 GB)

Software-Support

NVIDIA hat deutlich besseren Software-Support. Viele KI-Tools funktionieren nur mit CUDA oder haben experimentellen ROCm-Support.

Apple Silicon

M1/M2/M3/M4 Chips mit Unified Memory – CPU und GPU teilen sich den RAM:

  • Gut für Inferenz kleinerer Modelle
  • MLX-Framework von Apple
  • Kein CUDA, limitierte Framework-Unterstützung

GPU-Auslastung optimieren

graph LR
    A[Modell laden] --> B[Batch vorbereiten]
    B --> C[GPU-Berechnung]
    C --> D[Ergebnis zurück]
    D --> B

    style C fill:#7c3aed,color:#fff

Häufige Bottlenecks:

  1. VRAM zu klein → Quantisierung oder kleineres Modell
  2. CPU-Bottleneck → Daten werden nicht schnell genug geladen
  3. Batch-Size zu klein → GPU ist nicht ausgelastet

Praktische Tipps

Für lokale LLMs

  • Mindestens 8 GB VRAM für 7B-Modelle (quantisiert)
  • 16 GB VRAM gibt dir deutlich mehr Flexibilität
  • 24 GB VRAM = Sweet Spot für Enthusiasten

GPU-Auslastung prüfen

# NVIDIA
nvidia-smi -l 1

# AMD
rocm-smi

Siehe auch

  • VRAM – Warum Speicher so wichtig ist
  • CUDA – NVIDIAs Programmierplattform
  • Quantisierung – Große Modelle auf kleinen GPUs
  • Inferenz – GPUs in der Praxis nutzen