Tokenisierung¶

Tokenisierung zerlegt Text in kleinere Einheiten (Tokens), die ein LLM verarbeiten kann. Es ist die Brücke zwischen menschlicher Sprache und Zahlen.

Token ≠ Wort¶

Tokens können sein: - Ganze Wörter: "Hello" → [15496] - Teilwörter: "unhappiness" → ["un", "happiness"] - Zeichen: Bei unbekannten Wörtern

# GPT-4 Tokenisierung
"Künstliche Intelligenz" → ["K", "ünst", "liche", " Intell", "igenz"]
                        → [42, 9116, 4571, 30462, 25370]

Algorithmen¶

Methode	Beschreibung
BPE (Byte Pair Encoding)	Häufige Zeichenpaare werden zu Token (GPT, Llama)
WordPiece	Ähnlich wie BPE, anders trainiert (BERT)
SentencePiece	Sprach-agnostisch, arbeitet auf Raw Text

Vokabulargröße¶

Modell	Vocab Size
GPT-4	~100.000
Llama 3	128.000
BERT	30.522

Größeres Vokabular = weniger Tokens pro Text, aber größere Embedding-Tabelle.

Context Window¶

Die maximale Anzahl Tokens, die ein Modell auf einmal verarbeiten kann:

Modell	Context Length
GPT-4	128K Tokens
Claude	200K Tokens
Llama 3.1	128K Tokens

Siehe auch¶

Embedding – Was mit Tokens passiert
LLM – Wie Tokens verarbeitet werden
KV-Cache – Warum Context Windows teuer sind