concept

Kontextfenster

KI-Grundlagen

// Beschreibung

Das Kontextfenster definiert, wie viele Tokens ein Sprachmodell gleichzeitig verarbeiten kann. Es bestimmt, wie lange Gespräche oder Dokumente ein Modell erfassen kann — von 4.000 bis über 1 Million Tokens.

// Anwendungsbereiche

Dokumentenanalyse
Lange Gespräche
Code-Review
Zusammenfassungen

// Deep Dive

Definition und Kerncharakter

Das Kontextfenster (englisch Context Window) eines Large Language Models definiert, wie viele Tokens das Modell in einer einzigen Anfrage gleichzeitig verarbeiten kann — Eingabe (Prompt, System-Prompt, Konversationshistorie, Dokumente) und Ausgabe zusammen. Es ist die Arbeits-Gedächtniskapazität eines LLMs.

Das Kontextfenster ist eine der wichtigsten Eigenschaften beim Vergleich von LLMs. Es bestimmt, welche Aufgaben überhaupt machbar sind: Kann ich einen Roman zusammenfassen lassen? Eine komplette Codebase analysieren? Mehrere Geschäftsberichte vergleichen? Eine lange Konversation ohne Vergessen führen? Je größer das Fenster, desto mehr Information kann das Modell direkt nutzen — ohne den Umweg über RAG oder Chunking. 2026 ist 1M Tokens (Claude Opus 4.7, GPT-5) oder gar 2M (Gemini 2.5 Pro) der Industriestandard für High-End-Modelle.

Wie funktioniert das Kontextfenster technisch?

Das Kontextfenster ergibt sich direkt aus der Transformer-Architektur. Self-Attention vergleicht jedes Token mit jedem anderen — das skaliert quadratisch mit der Sequenzlänge (O(n²) in Zeit und Speicher). Bei 1.000 Tokens sind das 1 Million Vergleiche, bei 1 Million Tokens 1 Billion. Naive Implementierungen wären bei langen Kontexten unmöglich teuer.

Moderne Modelle nutzen diverse Optimierungen, um trotzdem auf 1M+ Tokens zu skalieren: FlashAttention reduziert Speicherzugriffe durch Kachel-basierte Berechnung. RingAttention verteilt lange Sequenzen auf mehrere GPUs. Sliding Window Attention (Mistral) beschränkt Attention auf ein lokales Fenster und nutzt nur für ausgewählte Tokens globale Attention. Grouped-Query-Attention (GQA) teilt sich Key/Value-Heads zwischen mehreren Query-Heads.

Außerdem: RoPE (Rotary Position Embeddings) und ALiBi erlauben Modellen, auf längere Sequenzen zu generalisieren als beim Training gesehen — Stichwort "context length extrapolation". Prompt Caching speichert KV-Cache wiederkehrender Prompt-Teile zwischen, um Kosten um bis zu 90 Prozent zu senken. Die Realität: Auch wenn das Kontextfenster nominal 1M Tokens ist, wird die effektive Nutzung durch Latenz und Kosten begrenzt.

Geschichte und Evolution (2022–2026)

Die Entwicklung der Kontextfenster ist eine der steilsten Skalierungs-Kurven der KI. 2022: GPT-3 startet mit 2K–4K Tokens. 2023: GPT-3.5 Turbo hat 4K, später 16K. GPT-4 startet mit 8K, dann 32K. Claude 2 bringt 100K Tokens, mehr als das Zehnfache des Üblichen. 2024: Gemini 1.5 schockt mit 1M Tokens (intern 10M getestet). Claude 3 erreicht 200K. GPT-4 Turbo bietet 128K.

2025: Claude 3.5/4 erweitert auf 200K–1M. GPT-4o bringt 128K. Llama 3.1 erreicht 128K. Juni 2026: Gemini 2.5 Pro führt mit 2M Tokens, Claude Opus 4.7 und GPT-5 bieten 1M, Llama 4 kommt mit 256K, Mistral Large 3 mit 128K. In vier Jahren ist das Kontextfenster um den Faktor 500 gewachsen — von 4K auf 2M Tokens. Damit lassen sich Anwendungen umsetzen, die 2022 noch undenkbar waren.

Anwendungsfälle in der Praxis

Dokumentenanalyse: Ganze Verträge (50–200 Seiten), Jahresberichte (300+ Seiten) oder Forschungspapiere in einer einzigen Anfrage analysieren. Bei 1M Tokens passen ca. 750.000 Wörter — etwa der gesamte "Herr der Ringe". Code-Review und Refactoring: Mit Claude Code oder Cursor ganze Repositories analysieren, Architektur-Vorschläge entwickeln, Test-Coverage prüfen. Eine mittelgroße Codebase mit 100K Zeilen passt komfortabel in 1M Tokens.

Lange Konversationen: Coaching, Therapie-Bots, Customer-Support-Sessions oder komplexe Beratungs-Dialoge funktionieren mit großem Kontextfenster ohne Vergessen. Multi-Document-Vergleich: Mehrere Quartalsberichte, Konkurrenz-Whitepapers oder Studien gleichzeitig analysieren und gegenüberstellen.

Many-Shot Learning: Statt Fine-Tuning kann man dem Modell Dutzende oder Hunderte Beispiele direkt im Prompt geben — das funktioniert für viele Tasks fast so gut wie ein eigener Trainingslauf. Agentische Workflows: Lange Tool-Calling-Sequenzen, Memory-Management und mehrstufige Recherchen profitieren massiv. In unserer KI-Implementierung nutzen wir große Kontextfenster regelmäßig für Brand-Audits und Strategieanalysen.

Vor- und Nachteile

Vorteile: Mehr Kontext bedeutet mehr Information für das Modell und damit oft bessere Antworten. Ganze Codebases oder Dokumente passen rein, ohne dass man eine RAG-Pipeline bauen muss — das spart Entwicklungs- und Wartungsaufwand. Lange Konversationen funktionieren ohne Memory-Tricks. Many-Shot-Learning ersetzt in vielen Fällen Fine-Tuning. Die Implementierung ist deutlich einfacher als RAG.

Nachteile: Kosten skalieren linear mit Token-Anzahl — 1M Tokens bei GPT-5 kosten 10 USD, bei Opus 15 USD. Latenz wird zum Thema: Bei 1M Tokens Input dauert es oft 30+ Sekunden bis zum ersten Output-Token. Lost in the Middle: Studien zeigen, dass Modelle Informationen in der Mitte sehr langer Kontexte häufig übersehen. Die Aufmerksamkeit konzentriert sich auf Anfang und Ende. Bei extremen Kontextlängen sinkt die Reasoning-Qualität. RAG bleibt für sehr große Wissensbasen, häufig wechselnde Daten und Datenschutz-kritische Anwendungen die bessere Wahl.

// Häufige Fragen

Was ist das Kontextfenster eines LLMs?

Das Kontextfenster (auch Context Window) definiert, wie viele Tokens ein Sprachmodell gleichzeitig verarbeiten kann — also die maximale Eingabe- plus Ausgabe-Länge. Es bestimmt, wie lange Gespräche oder Dokumente ein Modell erfassen kann: von 4.000 Tokens (frühe GPT-3) bis über 2 Millionen Tokens (Gemini 2.5 Pro).

Wie groß sind die Kontextfenster aktueller LLMs 2026?

Claude Opus 4.7: 1M Tokens. GPT-5: 1M Tokens. Gemini 2.5 Pro: 2M Tokens. Llama 4: 256K Tokens. Claude Sonnet 4.6: 200K Tokens. Mistral Large 3: 128K Tokens. Frühe Modelle wie GPT-3 hatten nur 4K Tokens — eine 250-fache Steigerung in vier Jahren.

Warum ist ein großes Kontextfenster wichtig?

Größere Kontextfenster ermöglichen längere Konversationen, Analyse ganzer Bücher und Codebasen, weniger Bedarf für RAG-Pipelines und bessere Verarbeitung komplexer Aufgaben mit viel Hintergrundwissen. Bei 1M Tokens passen ca. 750.000 Wörter — ein kompletter Roman, mehrere Quartalsberichte oder ganze Software-Projekte.

Lost in the Middle — was ist das Problem mit langem Kontext?

Studien zeigen, dass LLMs Informationen in der Mitte sehr langer Kontexte oft übersehen oder ignorieren. Modelle achten besser auf Anfang und Ende des Inputs. Lösung: Wichtige Informationen bewusst platzieren und für sehr lange Kontexte gezielt RAG mit Retrieval einsetzen.

Wann ist RAG besser als ein großes Kontextfenster?

RAG ist besser, wenn die Wissensbasis sehr groß ist (Millionen Dokumente), häufig aktualisiert wird, datenschutzkritisch ist oder Kosten optimiert werden sollen. Großes Kontextfenster ist besser bei abgeschlossenen Aufgaben mit klar abgegrenztem Material — etwa Code-Review einer Codebase oder Analyse eines konkreten Berichts.

Werden lange Kontexte gleichmäßig schnell verarbeitet?

Nein. Aufgrund der quadratischen Komplexität von Self-Attention werden lange Kontexte langsamer und teurer. Time-to-First-Token steigt mit der Kontextlänge stark an. Moderne Optimierungen (FlashAttention, RingAttention) und Caching mildern das, aber bei 1M Tokens sind erste Antworten oft erst nach 30+ Sekunden zu erwarten.

// Verwandte Einträge

Brauchst du Hilfe mit Kontextfenster?

Wir beraten dich gerne zu Einsatz, Integration und Strategie.

Kontakt aufnehmen