AI Pirates
DE| EN
AI Pirates
DE | EN
concept

Token

KI-Grundlagen

// Beschreibung

Tokens sind die kleinsten Texteinheiten, die ein Sprachmodell verarbeitet — oft Wortteile oder Zeichen. Sie bestimmen die Kosten, die Kontextlänge und die Verarbeitungsgeschwindigkeit von KI-Anfragen.

// Anwendungsbereiche

  • Kostenberechnung
  • Kontextmanagement
  • Performanceoptimierung

// Deep Dive

Definition und Kerncharakter

Ein Token ist die kleinste Texteinheit, die ein Large Language Model verarbeitet. Tokens sind nicht zwangsläufig Wörter — sie können auch Wortteile (Subwords), einzelne Zeichen, Satzzeichen, Emojis oder Whitespace sein. Die genaue Aufteilung übernimmt ein Tokenizer, der das Vokabular und die Zerlegungsregeln definiert.

Tokens sind die zentrale Recheneinheit der modernen KI. Sie bestimmen drei wichtige Eigenschaften: Kosten (API-Preise pro 1M Tokens), Kontextlänge (Wie viele Tokens darf das Modell gleichzeitig verarbeiten? Siehe Kontextfenster) und Verarbeitungsgeschwindigkeit (Tokens pro Sekunde im Output). Wer mit LLM-APIs arbeitet, muss Tokens verstehen — sie sind die Währung der KI.

Wie funktioniert Tokenization technisch?

Tokenizer wandeln Text in Sequenzen von Integer-IDs um, die das Modell verarbeitet. Drei dominante Verfahren prägen die LLM-Landschaft:

Byte-Pair Encoding (BPE): Das Verfahren wird von GPT-Modellen (tiktoken), Llama (mit Anpassungen) und vielen anderen LLMs genutzt. Es startet mit einzelnen Zeichen und fügt die häufigsten Paare iterativ zu neuen Tokens zusammen, bis ein Vokabular der gewünschten Größe (typisch 50.000–200.000 Tokens) entsteht. Häufige Wörter wie "the" oder "und" werden zu einem Token, seltene Wörter in mehrere Subwords zerlegt.

SentencePiece: Wird von Llama, T5 und Gemini genutzt. Behandelt den Text als reinen Byte-Stream und nutzt einen Whitespace-Marker (▁) — das macht das Verfahren sprachunabhängig und unicode-freundlich. WordPiece: Von BERT entwickelt, ähnlich BPE, aber mit anderem Merging-Kriterium (Likelihood statt Frequency).

Moderne Tokenizer wie tiktoken (OpenAI) oder der Claude-Tokenizer sind extrem schnell und behandeln Unicode, Emojis und mehrsprachigen Text robust. Das Vokabular ist fix und Teil des Modells — neue Tokenizer erfordern komplettes Re-Training.

Token vs. Wort — die Faustregel

Für englischen Text gilt: 1 Token ≈ 0,75 Wörter oder 4 Zeichen. Ein durchschnittliches englisches Buch mit 80.000 Wörtern hat etwa 100.000–110.000 Tokens. Für deutsche Texte verschlechtert sich das Verhältnis erheblich: 1 deutsches Wort entspricht oft 1,5–2 Tokens, weil Umlaute, Komposita (Donaudampfschifffahrtsgesellschaft) und Flexionen in mehrere Subwords zerlegt werden.

Praktisches Beispiel: Der Satz "Künstliche Intelligenz revolutioniert die Geschäftswelt" hat 5 Wörter, wird aber in GPT-Tokenizern in etwa 10–12 Tokens zerlegt. Dasselbe auf Englisch ("Artificial intelligence is revolutionizing the business world") braucht nur 6–7 Tokens. Das hat direkte Auswirkungen auf Kosten und Kontextfenster-Nutzung — ein wichtiger Punkt für deutschsprachige Anwendungen.

Geschichte und Evolution

Frühe NLP-Systeme nutzten Word-Level Tokenization — jedes Wort ein Token. Problem: Out-of-Vocabulary-Wörter konnten nicht verarbeitet werden. Character-Level Tokenization löste das Problem, war aber ineffizient bei langen Texten. Mit dem Aufkommen der Transformer 2017/2018 wurde Subword-Tokenization zum Standard — der Kompromiss aus Vokabular-Größe und Robustheit.

2018: BPE wird mit GPT-1 populär. 2019: Google publiziert SentencePiece. 2022/2023: tiktoken (OpenAI) wird zur Referenzimplementierung. 2024: Multimodale Tokenization — Bilder und Audio werden in Patches/Frames tokenisiert und als Token-Sequenz behandelt. 2025/2026: Forschung an "Byte-Latent Transformer" und tokenless Architekturen wie ByT5, die direkt auf Bytes arbeiten. Bisher haben sich diese aber nicht durchgesetzt — Standard-Tokenizer bleiben dominant.

Anwendungsfälle und Pricing in der Praxis

Tokens bestimmen direkt die API-Kosten. Aktuelle Preise (Juni 2026, pro 1M Tokens): GPT-5 10/30 USD (Input/Output), Claude Opus 4.7 15/75 USD, Claude Sonnet 4.6 3/15 USD, Claude Haiku 4.5 0,80/4 USD, Gemini 2.5 Pro 1,25/10 USD. Output ist überall deutlich teurer als Input — typisch 3–5× — weil das Modell bei jedem Output-Token einen kompletten Forward-Pass durchläuft.

Kosten-Optimierung in der Praxis: Prompt Caching reduziert Input-Kosten bei wiederholtem Kontext um bis zu 90 Prozent — essenziell für RAG, Chatbots mit System-Prompt und Agenten. Modell-Mix: Günstigere Modelle (Haiku, GPT-5-mini) für einfache Aufgaben, teure nur für komplexe. Token-Budgets: Max-Token-Limits setzen, um runaway costs zu verhindern. Batch-Processing: 50 Prozent günstiger bei asynchroner Verarbeitung. Mehr dazu in unserer KI-Implementierung.

Wichtige Tools: tiktoken (Python-Library) für GPT-Tokenization, @anthropic-ai/tokenizer für Claude, Hugging Face Tokenizers für Llama, Mistral und Co. Online-Tools wie der OpenAI Tokenizer und Anthropics Token Counter helfen bei der Schätzung vor dem API-Call.

Vor- und Nachteile

Vorteile von Subword-Tokenization: Robust gegenüber unbekannten Wörtern (es gibt keine Out-of-Vocabulary-Fehler mehr). Effizient bei der Vokabular-Größe (50K–200K Tokens reichen für viele Sprachen). Sprachübergreifend einsetzbar. Schnelle Verarbeitung — Tokenization ist nicht der Bottleneck.

Nachteile: Tokenizer sind sprachsensitiv — englischer Text ist effizienter tokenisiert als deutscher, asiatischer oder seltener Sprachen. Code, Emojis und Sonderzeichen können unerwartet viele Tokens verbrauchen. Tokens entsprechen oft nicht intuitiven Wortgrenzen — eine "Banane" kann je nach Tokenizer in 1–4 Tokens zerlegt werden. Bei Zahlen und mathematischen Ausdrücken kommt es regelmäßig zu unerwarteten Splits, was Reasoning-Aufgaben erschwert. Tokenization-bedingte Bugs (z.B. das berühmte "SolidGoldMagikarp"-Phänomen bei GPT) zeigen die Fragilität.

Verwandte Konzepte und Abgrenzung

Tokens hängen direkt mit dem Kontextfenster zusammen — der maximalen Token-Anzahl, die ein Modell gleichzeitig verarbeiten kann (4K bis 2M Tokens je nach Modell). Embeddings sind die nachgelagerte Repräsentation: Aus jedem Token-ID wird ein hochdimensionaler Vektor, mit dem das Modell rechnet. Ein Token ist eine Integer-ID, ein Embedding ein Vektor mit typisch 768–12.288 Dimensionen.

Wichtig: Tokens sind keine semantischen Einheiten. Sie sind statistisch optimiert, nicht linguistisch. Das ist der Grund, warum Modelle bei manchen Aufgaben — Buchstaben zählen, Reime erkennen, mathematische Manipulationen — überraschend schlecht abschneiden. Wer das versteht, kann viele LLM-Limitierungen besser einordnen und mit cleverem Prompt Engineering umgehen. Multimodale Modelle erweitern das Konzept: Bilder werden in "Visual Tokens" (typ. 256 pro Bild), Audio in "Audio Tokens" zerlegt. So bleibt die einheitliche Sequenz-Verarbeitung des Transformers erhalten.

// Häufige Fragen

Was ist ein Token in einem LLM?
Tokens sind die kleinsten Texteinheiten, die ein Sprachmodell verarbeitet — oft Wortteile, ganze Wörter, Satzzeichen oder einzelne Zeichen. Sie bestimmen die Kosten, die Kontextlänge und die Verarbeitungsgeschwindigkeit von KI-Anfragen.
Wie viele Tokens hat ein Wort?
Faustregel für Englisch: 1 Token entspricht ca. 0,75 Wörtern oder 4 Zeichen. Deutsche Texte sind tokenineffizienter — ein deutsches Wort braucht oft 1,5–2 Tokens. Lange Komposita wie "Donaudampfschifffahrtsgesellschaft" werden in viele Subwords zerlegt.
Was ist Tokenization (BPE, SentencePiece, WordPiece)?
Tokenization ist der Prozess, Text in Tokens zu zerlegen. Byte-Pair Encoding (BPE) wird von GPT genutzt, SentencePiece von Llama und T5, WordPiece von BERT. Alle Verfahren teilen Text in häufig vorkommende Subwords auf, um große Vokabulare effizient abzudecken.
Warum kosten LLM-Antworten pro Token?
Tokens sind die natürliche Recheneinheit eines Transformer-Modells. Jedes Token bedeutet einen Vorwärtsdurchlauf durch das gesamte Netz. Die Kosten skalieren also linear mit der Token-Anzahl. Anbieter rechnen Input- und Output-Tokens getrennt ab — Output ist meist 3–5× teurer.
Wie kann ich Token-Kosten reduzieren?
Drei Hebel: 1) Prompt Caching nutzen (bis 90 Prozent Ersparnis bei wiederholtem Kontext), 2) günstigere Modelle für einfache Aufgaben (Haiku/Mini statt Opus/GPT-5), 3) Prompts kompakter formulieren und unnötigen Kontext entfernen. RAG hilft, statt langer Kontexte gezielt relevante Snippets zu laden.
Sind deutsche Texte tokenineffizienter als englische?
Ja. Die meisten Tokenizer wurden auf englischen Text optimiert. Deutsche Wörter, Umlaute und Komposita werden in mehr Subwords zerlegt. Ein deutscher Text braucht oft 30–50 Prozent mehr Tokens als seine englische Übersetzung — relevant für Kosten und Kontextfenster-Nutzung.

// Verwandte Einträge

Brauchst du Hilfe mit Token?

Wir beraten dich gerne zu Einsatz, Integration und Strategie.

Kontakt aufnehmen