Token
// Beschreibung
// Anwendungsbereiche
- Kostenberechnung
- Kontextmanagement
- Performanceoptimierung
// Deep Dive
Definition und Kerncharakter
Ein Token ist die kleinste Texteinheit, die ein Large Language Model verarbeitet. Tokens sind nicht zwangsläufig Wörter — sie können auch Wortteile (Subwords), einzelne Zeichen, Satzzeichen, Emojis oder Whitespace sein. Die genaue Aufteilung übernimmt ein Tokenizer, der das Vokabular und die Zerlegungsregeln definiert.
Tokens sind die zentrale Recheneinheit der modernen KI. Sie bestimmen drei wichtige Eigenschaften: Kosten (API-Preise pro 1M Tokens), Kontextlänge (Wie viele Tokens darf das Modell gleichzeitig verarbeiten? Siehe Kontextfenster) und Verarbeitungsgeschwindigkeit (Tokens pro Sekunde im Output). Wer mit LLM-APIs arbeitet, muss Tokens verstehen — sie sind die Währung der KI.
Wie funktioniert Tokenization technisch?
Tokenizer wandeln Text in Sequenzen von Integer-IDs um, die das Modell verarbeitet. Drei dominante Verfahren prägen die LLM-Landschaft:
Byte-Pair Encoding (BPE): Das Verfahren wird von GPT-Modellen (tiktoken), Llama (mit Anpassungen) und vielen anderen LLMs genutzt. Es startet mit einzelnen Zeichen und fügt die häufigsten Paare iterativ zu neuen Tokens zusammen, bis ein Vokabular der gewünschten Größe (typisch 50.000–200.000 Tokens) entsteht. Häufige Wörter wie "the" oder "und" werden zu einem Token, seltene Wörter in mehrere Subwords zerlegt.
SentencePiece: Wird von Llama, T5 und Gemini genutzt. Behandelt den Text als reinen Byte-Stream und nutzt einen Whitespace-Marker (▁) — das macht das Verfahren sprachunabhängig und unicode-freundlich. WordPiece: Von BERT entwickelt, ähnlich BPE, aber mit anderem Merging-Kriterium (Likelihood statt Frequency).
Moderne Tokenizer wie tiktoken (OpenAI) oder der Claude-Tokenizer sind extrem schnell und behandeln Unicode, Emojis und mehrsprachigen Text robust. Das Vokabular ist fix und Teil des Modells — neue Tokenizer erfordern komplettes Re-Training.
Token vs. Wort — die Faustregel
Für englischen Text gilt: 1 Token ≈ 0,75 Wörter oder 4 Zeichen. Ein durchschnittliches englisches Buch mit 80.000 Wörtern hat etwa 100.000–110.000 Tokens. Für deutsche Texte verschlechtert sich das Verhältnis erheblich: 1 deutsches Wort entspricht oft 1,5–2 Tokens, weil Umlaute, Komposita (Donaudampfschifffahrtsgesellschaft) und Flexionen in mehrere Subwords zerlegt werden.
Praktisches Beispiel: Der Satz "Künstliche Intelligenz revolutioniert die Geschäftswelt" hat 5 Wörter, wird aber in GPT-Tokenizern in etwa 10–12 Tokens zerlegt. Dasselbe auf Englisch ("Artificial intelligence is revolutionizing the business world") braucht nur 6–7 Tokens. Das hat direkte Auswirkungen auf Kosten und Kontextfenster-Nutzung — ein wichtiger Punkt für deutschsprachige Anwendungen.
Geschichte und Evolution
Frühe NLP-Systeme nutzten Word-Level Tokenization — jedes Wort ein Token. Problem: Out-of-Vocabulary-Wörter konnten nicht verarbeitet werden. Character-Level Tokenization löste das Problem, war aber ineffizient bei langen Texten. Mit dem Aufkommen der Transformer 2017/2018 wurde Subword-Tokenization zum Standard — der Kompromiss aus Vokabular-Größe und Robustheit.
2018: BPE wird mit GPT-1 populär. 2019: Google publiziert SentencePiece. 2022/2023: tiktoken (OpenAI) wird zur Referenzimplementierung. 2024: Multimodale Tokenization — Bilder und Audio werden in Patches/Frames tokenisiert und als Token-Sequenz behandelt. 2025/2026: Forschung an "Byte-Latent Transformer" und tokenless Architekturen wie ByT5, die direkt auf Bytes arbeiten. Bisher haben sich diese aber nicht durchgesetzt — Standard-Tokenizer bleiben dominant.
Anwendungsfälle und Pricing in der Praxis
Tokens bestimmen direkt die API-Kosten. Aktuelle Preise (Juni 2026, pro 1M Tokens): GPT-5 10/30 USD (Input/Output), Claude Opus 4.7 15/75 USD, Claude Sonnet 4.6 3/15 USD, Claude Haiku 4.5 0,80/4 USD, Gemini 2.5 Pro 1,25/10 USD. Output ist überall deutlich teurer als Input — typisch 3–5× — weil das Modell bei jedem Output-Token einen kompletten Forward-Pass durchläuft.
Kosten-Optimierung in der Praxis: Prompt Caching reduziert Input-Kosten bei wiederholtem Kontext um bis zu 90 Prozent — essenziell für RAG, Chatbots mit System-Prompt und Agenten. Modell-Mix: Günstigere Modelle (Haiku, GPT-5-mini) für einfache Aufgaben, teure nur für komplexe. Token-Budgets: Max-Token-Limits setzen, um runaway costs zu verhindern. Batch-Processing: 50 Prozent günstiger bei asynchroner Verarbeitung. Mehr dazu in unserer KI-Implementierung.
Wichtige Tools: tiktoken (Python-Library) für GPT-Tokenization, @anthropic-ai/tokenizer für Claude, Hugging Face Tokenizers für Llama, Mistral und Co. Online-Tools wie der OpenAI Tokenizer und Anthropics Token Counter helfen bei der Schätzung vor dem API-Call.
Vor- und Nachteile
Vorteile von Subword-Tokenization: Robust gegenüber unbekannten Wörtern (es gibt keine Out-of-Vocabulary-Fehler mehr). Effizient bei der Vokabular-Größe (50K–200K Tokens reichen für viele Sprachen). Sprachübergreifend einsetzbar. Schnelle Verarbeitung — Tokenization ist nicht der Bottleneck.
Nachteile: Tokenizer sind sprachsensitiv — englischer Text ist effizienter tokenisiert als deutscher, asiatischer oder seltener Sprachen. Code, Emojis und Sonderzeichen können unerwartet viele Tokens verbrauchen. Tokens entsprechen oft nicht intuitiven Wortgrenzen — eine "Banane" kann je nach Tokenizer in 1–4 Tokens zerlegt werden. Bei Zahlen und mathematischen Ausdrücken kommt es regelmäßig zu unerwarteten Splits, was Reasoning-Aufgaben erschwert. Tokenization-bedingte Bugs (z.B. das berühmte "SolidGoldMagikarp"-Phänomen bei GPT) zeigen die Fragilität.
Verwandte Konzepte und Abgrenzung
Tokens hängen direkt mit dem Kontextfenster zusammen — der maximalen Token-Anzahl, die ein Modell gleichzeitig verarbeiten kann (4K bis 2M Tokens je nach Modell). Embeddings sind die nachgelagerte Repräsentation: Aus jedem Token-ID wird ein hochdimensionaler Vektor, mit dem das Modell rechnet. Ein Token ist eine Integer-ID, ein Embedding ein Vektor mit typisch 768–12.288 Dimensionen.
Wichtig: Tokens sind keine semantischen Einheiten. Sie sind statistisch optimiert, nicht linguistisch. Das ist der Grund, warum Modelle bei manchen Aufgaben — Buchstaben zählen, Reime erkennen, mathematische Manipulationen — überraschend schlecht abschneiden. Wer das versteht, kann viele LLM-Limitierungen besser einordnen und mit cleverem Prompt Engineering umgehen. Multimodale Modelle erweitern das Konzept: Bilder werden in "Visual Tokens" (typ. 256 pro Bild), Audio in "Audio Tokens" zerlegt. So bleibt die einheitliche Sequenz-Verarbeitung des Transformers erhalten.
// Häufige Fragen
Was ist ein Token in einem LLM?
Wie viele Tokens hat ein Wort?
Was ist Tokenization (BPE, SentencePiece, WordPiece)?
Warum kosten LLM-Antworten pro Token?
Wie kann ich Token-Kosten reduzieren?
Sind deutsche Texte tokenineffizienter als englische?
// Verwandte Einträge
Brauchst du Hilfe mit Token?
Wir beraten dich gerne zu Einsatz, Integration und Strategie.
Kontakt aufnehmen