Zum Inhalt

KI-Wiki

Aktivierungsfunktionen

Aktivierungsfunktionen¶

Aktivierungsfunktionen bringen Nicht-Linearität in neuronale Netze. Ohne sie wäre jedes noch so tiefe Netz nur eine lineare Transformation.

Wichtige Funktionen¶

ReLU (Rectified Linear Unit)¶

\[ f(x) = \max(0, x) \]

Pro: Schnell, kein Vanishing Gradient
Con: "Dead Neurons" bei negativen Werten
Einsatz: Standard für Hidden Layers

GELU (Gaussian Error Linear Unit)¶

\[ f(x) = x \cdot \Phi(x) \]

Smoother als ReLU
Standard in Transformer (GPT, BERT)

Sigmoid¶

\[ f(x) = \frac{1}{1 + e^{-x}} \]

Output zwischen 0 und 1
Für Binary Classification
Vanishing Gradient Problem!

Softmax¶

\[ f(x_i) = \frac{e^{x_i}}{\sum_j e^{x_j}} \]

Normalisiert zu Wahrscheinlichkeiten
Für Multi-Class Output Layer

Siehe auch¶

Neuronale Netze – Wo Aktivierungen eingesetzt werden
Gradient – Warum Vanishing Gradients ein Problem sind