Tokenisierung¶
Tokenisierung zerlegt Text in kleinere Einheiten (Tokens), die ein LLM verarbeiten kann. Es ist die Brücke zwischen menschlicher Sprache und Zahlen.
Token ≠ Wort¶
Tokens können sein:
- Ganze Wörter: "Hello" → [15496]
- Teilwörter: "unhappiness" → ["un", "happiness"]
- Zeichen: Bei unbekannten Wörtern
# GPT-4 Tokenisierung
"Künstliche Intelligenz" → ["K", "ünst", "liche", " Intell", "igenz"]
→ [42, 9116, 4571, 30462, 25370]
Algorithmen¶
| Methode | Beschreibung |
|---|---|
| BPE (Byte Pair Encoding) | Häufige Zeichenpaare werden zu Token (GPT, Llama) |
| WordPiece | Ähnlich wie BPE, anders trainiert (BERT) |
| SentencePiece | Sprach-agnostisch, arbeitet auf Raw Text |
Vokabulargröße¶
| Modell | Vocab Size |
|---|---|
| GPT-4 | ~100.000 |
| Llama 3 | 128.000 |
| BERT | 30.522 |
Größeres Vokabular = weniger Tokens pro Text, aber größere Embedding-Tabelle.
Context Window¶
Die maximale Anzahl Tokens, die ein Modell auf einmal verarbeiten kann:
| Modell | Context Length |
|---|---|
| GPT-4 | 128K Tokens |
| Claude | 200K Tokens |
| Llama 3.1 | 128K Tokens |
Siehe auch¶
- Embedding – Was mit Tokens passiert
- LLM – Wie Tokens verarbeitet werden
- KV-Cache – Warum Context Windows teuer sind