Zum Inhalt

Tokenisierung

Tokenisierung zerlegt Text in kleinere Einheiten (Tokens), die ein LLM verarbeiten kann. Es ist die Brücke zwischen menschlicher Sprache und Zahlen.


Token ≠ Wort

Tokens können sein: - Ganze Wörter: "Hello"[15496] - Teilwörter: "unhappiness"["un", "happiness"] - Zeichen: Bei unbekannten Wörtern

# GPT-4 Tokenisierung
"Künstliche Intelligenz"  ["K", "ünst", "liche", " Intell", "igenz"]
                         [42, 9116, 4571, 30462, 25370]

Algorithmen

Methode Beschreibung
BPE (Byte Pair Encoding) Häufige Zeichenpaare werden zu Token (GPT, Llama)
WordPiece Ähnlich wie BPE, anders trainiert (BERT)
SentencePiece Sprach-agnostisch, arbeitet auf Raw Text

Vokabulargröße

Modell Vocab Size
GPT-4 ~100.000
Llama 3 128.000
BERT 30.522

Größeres Vokabular = weniger Tokens pro Text, aber größere Embedding-Tabelle.


Context Window

Die maximale Anzahl Tokens, die ein Modell auf einmal verarbeiten kann:

Modell Context Length
GPT-4 128K Tokens
Claude 200K Tokens
Llama 3.1 128K Tokens

Siehe auch

  • Embedding – Was mit Tokens passiert
  • LLM – Wie Tokens verarbeitet werden
  • KV-Cache – Warum Context Windows teuer sind