Aktivierungsfunktionen¶
Aktivierungsfunktionen bringen Nicht-Linearität in neuronale Netze. Ohne sie wäre jedes noch so tiefe Netz nur eine lineare Transformation.
Wichtige Funktionen¶
ReLU (Rectified Linear Unit)¶
\[
f(x) = \max(0, x)
\]
- Pro: Schnell, kein Vanishing Gradient
- Con: "Dead Neurons" bei negativen Werten
- Einsatz: Standard für Hidden Layers
GELU (Gaussian Error Linear Unit)¶
\[
f(x) = x \cdot \Phi(x)
\]
- Smoother als ReLU
- Standard in Transformer (GPT, BERT)
Sigmoid¶
\[
f(x) = \frac{1}{1 + e^{-x}}
\]
- Output zwischen 0 und 1
- Für Binary Classification
- Vanishing Gradient Problem!
Softmax¶
\[
f(x_i) = \frac{e^{x_i}}{\sum_j e^{x_j}}
\]
- Normalisiert zu Wahrscheinlichkeiten
- Für Multi-Class Output Layer
Siehe auch¶
- Neuronale Netze – Wo Aktivierungen eingesetzt werden
- Gradient – Warum Vanishing Gradients ein Problem sind