Embedding¶
Ein Embedding ist eine dichte Vektorrepräsentation von diskreten Objekten (Wörter, Tokens, IDs). Es wandelt kategoriale Daten in Zahlen um, mit denen neuronale Netze arbeiten können.
Von Token zu Vektor¶
Die Embedding-Tabelle ist eine große Matrix: (vocab_size, embedding_dim)
Semantische Ähnlichkeit¶
Gute Embeddings platzieren ähnliche Konzepte nah beieinander:
Berühmtes Beispiel: $$ \text{König} - \text{Mann} + \text{Frau} \approx \text{Königin} $$
In Transformern¶
- Input Embedding: Token → Vektor (trainiert)
- Position Embedding: Position → Vektor
- Beide werden addiert vor dem ersten Attention-Layer
Siehe auch¶
- Tokenisierung – Wie Text zu Token-IDs wird
- Transformer – Wo Embeddings verwendet werden
- Attention – Was mit Embeddings passiert