Zum Inhalt

Aktivierungsfunktionen

Aktivierungsfunktionen bringen Nicht-Linearität in neuronale Netze. Ohne sie wäre jedes noch so tiefe Netz nur eine lineare Transformation.


Wichtige Funktionen

ReLU (Rectified Linear Unit)

\[ f(x) = \max(0, x) \]
  • Pro: Schnell, kein Vanishing Gradient
  • Con: "Dead Neurons" bei negativen Werten
  • Einsatz: Standard für Hidden Layers

GELU (Gaussian Error Linear Unit)

\[ f(x) = x \cdot \Phi(x) \]
  • Smoother als ReLU
  • Standard in Transformer (GPT, BERT)

Sigmoid

\[ f(x) = \frac{1}{1 + e^{-x}} \]
  • Output zwischen 0 und 1
  • Für Binary Classification
  • Vanishing Gradient Problem!

Softmax

\[ f(x_i) = \frac{e^{x_i}}{\sum_j e^{x_j}} \]
  • Normalisiert zu Wahrscheinlichkeiten
  • Für Multi-Class Output Layer

Siehe auch

  • Neuronale Netze – Wo Aktivierungen eingesetzt werden
  • Gradient – Warum Vanishing Gradients ein Problem sind