Temperatur
// Beschreibung
// Anwendungsbereiche
- Kreativitätssteuerung
- API-Konfiguration
- Konsistente Ausgaben
- Experimentelles Writing
// Deep Dive
Definition und Kerncharakter
Die Temperature ist ein Hyperparameter, mit dem du steuern kannst, wie "kreativ" oder wie "vorhersagbar" ein LLM antwortet. Sie ist neben Top-K und Top-P einer der wichtigsten Sampling-Parameter und beeinflusst direkt, welches Token als nächstes generiert wird. Bei T=0 wählt das Modell immer den wahrscheinlichsten Kandidaten — die Antworten werden weitgehend deterministisch. Bei T=1 wird gemäß Original-Verteilung gesamplet. Bei T > 1 wird die Verteilung "abgeflacht", seltene Tokens werden wahrscheinlicher — das Modell wirkt kreativer, aber auch unzuverlässiger.
Wer Temperature versteht, hat einen massiven Hebel über Output-Qualität. Falsch gesetzt führt sie zu wiederholenden Bot-Antworten (T zu niedrig) oder zu inkohärentem Nonsens (T zu hoch). Richtig gesetzt liefert sie reproduzierbare Production-Outputs für RAG, Coding und strukturierte Daten — oder vielfältige Kreativ-Texte für Slogans und Storytelling. Mehr zu Prompting in unserem KI-Implementierungs-Service.
Wie funktioniert Temperature technisch?
Ein LLM produziert pro Token eine Verteilung über das gesamte Vokabular (typisch 50k-200k Tokens). Die rohen Output-Werte heißen Logits. Temperature skaliert diese Logits VOR dem Softmax: softmax(logits / T). Bei T=1 ändert sich nichts. Bei T < 1 werden Unterschiede verstärkt — die wahrscheinlichsten Tokens dominieren noch stärker. Bei T > 1 werden Unterschiede eingeebnet — auch unwahrscheinliche Tokens haben spürbare Chancen.
Der Grenzfall T=0 ist mathematisch nicht definiert (Division durch null). Frameworks ersetzen das in der Praxis durch Greedy Decoding: Wähle den Token mit höchstem Logit. Frameworks wie OpenAI oder Anthropic mappen "temperature=0" auf greedy. Trotzdem ist die Ausgabe nicht 100 Prozent deterministisch: GPU-Floating-Point-Reihenfolgen, Batch-Position und KV-Cache-Effekte führen zu minimalen Variationen. Für strikte Reproduzierbarkeit nutze Seed-Parameter (OpenAI seed, vLLM, Together).
Temperature, Top-K und Top-P im Vergleich
Temperature skaliert die gesamte Verteilung. Top-K beschneidet auf die K wahrscheinlichsten Tokens, der Rest wird auf 0 gesetzt (typisch K=40). Top-P (Nucleus Sampling) wählt das kleinste Token-Set, dessen kumulierte Wahrscheinlichkeit P erreicht (typisch P=0.9). Top-P passt sich dynamisch an: Bei sicheren Vorhersagen kleine Sets, bei unsicheren größere.
In der Praxis kombiniert man: temperature=0.7, top_p=0.9 ist ein bewährtes Default-Setup für Chat. Für Coding eher temperature=0.1 oder temperature=0. Für maximale Kreativität temperature=1.0, top_p=0.95. Anthropic-Claude empfiehlt seit 2026 explizit nur EINEN der beiden Parameter zu variieren — Temperature oder Top-P, nicht beides gleichzeitig.
Range, Defaults und Modell-Unterschiede
OpenAI (GPT-5, GPT-4.1): Temperature 0-2, Default 1.0. Anthropic (Claude Opus 4.7, Sonnet 4.5, Haiku 4.5): Temperature 0-1, Default 1.0. Google (Gemini 2.5 Pro): Temperature 0-2, Default 1.0. Llama 4, Mistral, Qwen 3 via vLLM/TGI: Temperature 0-5, Default je Engine. Die gefühlte Kreativität bei gleichem T-Wert unterscheidet sich zwischen Modellen erheblich. T=0.7 bei Claude wirkt konservativer als T=0.7 bei Llama 4 Instruct — Anthropic hat seine Default-Verteilung enger kalibriert.
Code-Beispiele in Python und TypeScript
OpenAI Python SDK mit niedriger Temperature für Datenextraktion:
from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
model="gpt-5",
messages=[
{"role": "system", "content": "Du extrahierst strukturiertes JSON."},
{"role": "user", "content": "Name: Max Mustermann, Email: max@example.com"}
],
temperature=0.0, # deterministisch
seed=42, # reproduzierbar
response_format={"type": "json_object"}
)
print(response.choices[0].message.content)
Anthropic Claude SDK für kreatives Schreiben:
import anthropic
client = anthropic.Anthropic()
message = client.messages.create(
model="claude-opus-4-7",
max_tokens=1024,
temperature=0.9, # kreativer Modus
top_p=0.95,
messages=[
{"role": "user", "content": "Schreibe drei unkonventionelle Slogans fuer eine Bio-Limonade."}
]
)
print(message.content[0].text)
Vercel AI SDK (TypeScript) mit Streaming und Top-P:
import { anthropic } from '@ai-sdk/anthropic';
import { streamText } from 'ai';
const result = await streamText({
model: anthropic('claude-sonnet-4-5'),
prompt: 'Erklaere LLM-Temperature in einem Tweet.',
temperature: 0.4,
topP: 0.9,
maxTokens: 280,
});
for await (const chunk of result.textStream) {
process.stdout.write(chunk);
}
Wann welche Temperature? Praxis-Cheatsheet
T=0 (Greedy): Strukturierte Datenextraktion, JSON-Output, SQL-Generierung, Klassifikation, RAG-Antworten auf Faktenfragen, Translation. T=0.2-0.3: Code-Generierung (Anthropic empfiehlt 0.0-0.2 für Claude Code), technische Dokumentation, Customer-Support-Bots mit fester Tonalität. T=0.5-0.7: Standard-Chat, Q&A mit etwas Variation, Email-Drafts, Zusammenfassungen. T=0.8-1.0: Kreatives Schreiben, Brainstorming, Storytelling, Werbetexte, Variantengenerierung. T > 1.0: Experimentelle Outputs, Poetry, ungewöhnliche Assoziationen — Vorsicht: Qualität sinkt rasch.
Vor- und Nachteile, Best Practices
Vorteile niedriger Temperature: Reproduzierbarkeit, konsistente Markenstimme, Eignung für regulierte Branchen (Finanz, Healthcare), niedrige Halluzinationsrate, leichter zu testen. Nachteile: Wiederholungs-Loops bei generativen Tasks ("As an AI assistant..."-Spam), Mangel an Vielfalt.
Vorteile hoher Temperature: Kreativität, Vielfalt, frische Formulierungen, Brainstorming-Power. Nachteile: Halluzinationen steigen, Konsistenz sinkt, schwerer zu evaluieren.
Best Practices: Logge Temperature pro Call. Variiere bei A/B-Tests. Verwende Seed-Parameter für Reproduzierbarkeit. Für Production: pinne Temperature in Code, nicht in Prompts. Bei strukturiertem Output kombiniere niedrige Temperature mit JSON-Schema-/Tool-Use-Erzwingung. Teste Temperature-Sweeps (0.0, 0.3, 0.7, 1.0) bei neuen Use-Cases.
Abgrenzung und verwandte Konzepte
Temperature ist ein Inferenz-Parameter, nicht Teil des Modells selbst — du kannst dasselbe Modell mit unterschiedlichen T-Werten ansprechen. Davon zu trennen sind Sampling-Strategien wie Greedy, Beam Search, Top-K und Top-P sowie modernere Verfahren wie Min-P und Typical Sampling. Inferenz-Engines wie vLLM, llama.cpp und TGI unterstützen alle. Prompt Engineering ist die Disziplin, das Modell durch Eingaben zu steuern — Temperature ist die feingranulare Schraube an der Output-Seite. Bei Fine-Tuning wird hingegen das Modell selbst angepasst — Temperature bleibt davon unberührt.
// Häufige Fragen
Was ist Temperatur in einem LLM?
Welche Temperatur ist für Coding und Datenextraktion ideal?
Welche Temperatur ist für Kreativ-Texte ideal?
Was ist der Unterschied zwischen Temperature, Top-K und Top-P?
Verhält sich Temperature bei Claude, GPT und Open-Source-Modellen gleich?
Sollte man Temperature für Production-Apps fest setzen?
// Verwandte Einträge
Brauchst du Hilfe mit Temperatur?
Wir beraten dich gerne zu Einsatz, Integration und Strategie.
Kontakt aufnehmen