concept

Temperatur

KI-Grundlagen

// Beschreibung

Die Temperatur ist ein Parameter, der die Zufälligkeit der KI-Ausgabe steuert. Niedrige Werte (0.1) erzeugen vorhersagbare, konsistente Antworten; hohe Werte (1.0+) führen zu kreativeren, aber weniger vorhersagbaren Ergebnissen.

// Anwendungsbereiche

Kreativitätssteuerung
API-Konfiguration
Konsistente Ausgaben
Experimentelles Writing

// Deep Dive

Definition und Kerncharakter

Die Temperature ist ein Hyperparameter, mit dem du steuern kannst, wie "kreativ" oder wie "vorhersagbar" ein LLM antwortet. Sie ist neben Top-K und Top-P einer der wichtigsten Sampling-Parameter und beeinflusst direkt, welches Token als nächstes generiert wird. Bei T=0 wählt das Modell immer den wahrscheinlichsten Kandidaten — die Antworten werden weitgehend deterministisch. Bei T=1 wird gemäß Original-Verteilung gesamplet. Bei T > 1 wird die Verteilung "abgeflacht", seltene Tokens werden wahrscheinlicher — das Modell wirkt kreativer, aber auch unzuverlässiger.

Wer Temperature versteht, hat einen massiven Hebel über Output-Qualität. Falsch gesetzt führt sie zu wiederholenden Bot-Antworten (T zu niedrig) oder zu inkohärentem Nonsens (T zu hoch). Richtig gesetzt liefert sie reproduzierbare Production-Outputs für RAG, Coding und strukturierte Daten — oder vielfältige Kreativ-Texte für Slogans und Storytelling. Mehr zu Prompting in unserem KI-Implementierungs-Service.

Wie funktioniert Temperature technisch?

Ein LLM produziert pro Token eine Verteilung über das gesamte Vokabular (typisch 50k-200k Tokens). Die rohen Output-Werte heißen Logits. Temperature skaliert diese Logits VOR dem Softmax: softmax(logits / T). Bei T=1 ändert sich nichts. Bei T < 1 werden Unterschiede verstärkt — die wahrscheinlichsten Tokens dominieren noch stärker. Bei T > 1 werden Unterschiede eingeebnet — auch unwahrscheinliche Tokens haben spürbare Chancen.

Der Grenzfall T=0 ist mathematisch nicht definiert (Division durch null). Frameworks ersetzen das in der Praxis durch Greedy Decoding: Wähle den Token mit höchstem Logit. Frameworks wie OpenAI oder Anthropic mappen "temperature=0" auf greedy. Trotzdem ist die Ausgabe nicht 100 Prozent deterministisch: GPU-Floating-Point-Reihenfolgen, Batch-Position und KV-Cache-Effekte führen zu minimalen Variationen. Für strikte Reproduzierbarkeit nutze Seed-Parameter (OpenAI seed, vLLM, Together).

Temperature, Top-K und Top-P im Vergleich

Temperature skaliert die gesamte Verteilung. Top-K beschneidet auf die K wahrscheinlichsten Tokens, der Rest wird auf 0 gesetzt (typisch K=40). Top-P (Nucleus Sampling) wählt das kleinste Token-Set, dessen kumulierte Wahrscheinlichkeit P erreicht (typisch P=0.9). Top-P passt sich dynamisch an: Bei sicheren Vorhersagen kleine Sets, bei unsicheren größere.

In der Praxis kombiniert man: temperature=0.7, top_p=0.9 ist ein bewährtes Default-Setup für Chat. Für Coding eher temperature=0.1 oder temperature=0. Für maximale Kreativität temperature=1.0, top_p=0.95. Anthropic-Claude empfiehlt seit 2026 explizit nur EINEN der beiden Parameter zu variieren — Temperature oder Top-P, nicht beides gleichzeitig.

Range, Defaults und Modell-Unterschiede

OpenAI (GPT-5, GPT-4.1): Temperature 0-2, Default 1.0. Anthropic (Claude Opus 4.7, Sonnet 4.5, Haiku 4.5): Temperature 0-1, Default 1.0. Google (Gemini 2.5 Pro): Temperature 0-2, Default 1.0. Llama 4, Mistral, Qwen 3 via vLLM/TGI: Temperature 0-5, Default je Engine. Die gefühlte Kreativität bei gleichem T-Wert unterscheidet sich zwischen Modellen erheblich. T=0.7 bei Claude wirkt konservativer als T=0.7 bei Llama 4 Instruct — Anthropic hat seine Default-Verteilung enger kalibriert.

Code-Beispiele in Python und TypeScript

OpenAI Python SDK mit niedriger Temperature für Datenextraktion:

from openai import OpenAI
client = OpenAI()

response = client.chat.completions.create(
    model="gpt-5",
    messages=[
        {"role": "system", "content": "Du extrahierst strukturiertes JSON."},
        {"role": "user", "content": "Name: Max Mustermann, Email: max@example.com"}
    ],
    temperature=0.0,          # deterministisch
    seed=42,                  # reproduzierbar
    response_format={"type": "json_object"}
)
print(response.choices[0].message.content)

Anthropic Claude SDK für kreatives Schreiben:

import anthropic
client = anthropic.Anthropic()

message = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=1024,
    temperature=0.9,          # kreativer Modus
    top_p=0.95,
    messages=[
        {"role": "user", "content": "Schreibe drei unkonventionelle Slogans für eine Bio-Limonade."}
    ]
)
print(message.content[0].text)

Vercel AI SDK (TypeScript) mit Streaming und Top-P:

import { anthropic } from '@ai-sdk/anthropic';
import { streamText } from 'ai';

const result = await streamText({
  model: anthropic('claude-sonnet-4-5'),
  prompt: 'Erklaere LLM-Temperature in einem Tweet.',
  temperature: 0.4,
  topP: 0.9,
  maxTokens: 280,
});

for await (const chunk of result.textStream) {
  process.stdout.write(chunk);
}

Wann welche Temperature? Praxis-Cheatsheet

T=0 (Greedy): Strukturierte Datenextraktion, JSON-Output, SQL-Generierung, Klassifikation, RAG-Antworten auf Faktenfragen, Translation. T=0.2-0.3: Code-Generierung (Anthropic empfiehlt 0.0-0.2 für Claude Code), technische Dokumentation, Customer-Support-Bots mit fester Tonalität. T=0.5-0.7: Standard-Chat, Q&A mit etwas Variation, Email-Drafts, Zusammenfassungen. T=0.8-1.0: Kreatives Schreiben, Brainstorming, Storytelling, Werbetexte, Variantengenerierung. T > 1.0: Experimentelle Outputs, Poetry, ungewöhnliche Assoziationen — Vorsicht: Qualität sinkt rasch.

Vor- und Nachteile, Best Practices

Vorteile niedriger Temperature: Reproduzierbarkeit, konsistente Markenstimme, Eignung für regulierte Branchen (Finanz, Healthcare), niedrige Halluzinationsrate, leichter zu testen. Nachteile: Wiederholungs-Loops bei generativen Tasks ("As an AI assistant..."-Spam), Mangel an Vielfalt.

Vorteile hoher Temperature: Kreativität, Vielfalt, frische Formulierungen, Brainstorming-Power. Nachteile: Halluzinationen steigen, Konsistenz sinkt, schwerer zu evaluieren.

Best Practices: Logge Temperature pro Call. Variiere bei A/B-Tests. Verwende Seed-Parameter für Reproduzierbarkeit. Für Production: pinne Temperature in Code, nicht in Prompts. Bei strukturiertem Output kombiniere niedrige Temperature mit JSON-Schema-/Tool-Use-Erzwingung. Teste Temperature-Sweeps (0.0, 0.3, 0.7, 1.0) bei neuen Use-Cases.

Abgrenzung und verwandte Konzepte

Temperature ist ein Inferenz-Parameter, nicht Teil des Modells selbst — du kannst dasselbe Modell mit unterschiedlichen T-Werten ansprechen. Davon zu trennen sind Sampling-Strategien wie Greedy, Beam Search, Top-K und Top-P sowie modernere Verfahren wie Min-P und Typical Sampling. Inferenz-Engines wie vLLM, llama.cpp und TGI unterstützen alle. Prompt Engineering ist die Disziplin, das Modell durch Eingaben zu steuern — Temperature ist die feingranulare Schraube an der Output-Seite. Bei Fine-Tuning wird hingegen das Modell selbst angepasst — Temperature bleibt davon unberührt.

// Häufige Fragen

Was ist Temperatur in einem LLM?

Die Temperatur ist ein Sampling-Parameter, der die Zufälligkeit der KI-Ausgabe steuert. Niedrige Werte (0.1) erzeugen vorhersagbare, konsistente Antworten; hohe Werte (1.0+) führen zu kreativeren, aber weniger vorhersagbaren Ergebnissen. Technisch skaliert Temperatur die Logits vor dem Softmax und beeinflusst so die Wahrscheinlichkeitsverteilung der nächsten Tokens.

Welche Temperatur ist für Coding und Datenextraktion ideal?

Für deterministische Tasks wie Code-Generierung, JSON-Output, Datenextraktion oder Klassifikation eignen sich Werte zwischen 0.0 und 0.2. Bei T=0 wird das wahrscheinlichste Token gewählt (Greedy Decoding) — Outputs sind nahezu reproduzierbar. OpenAI- und Anthropic-Modelle haben aber selbst bei T=0 minimale Nicht-Determinismen durch Floating-Point-Effekte auf GPUs.

Welche Temperatur ist für Kreativ-Texte ideal?

Für Brainstorming, Storytelling, Werbetexte oder Variantenproduktion sind 0.7 bis 1.2 gängig. Werte über 1.5 produzieren oft inkohärente Outputs — besser ist die Kombination aus moderater Temperatur (0.8-1.0) und Top-P 0.9 oder Top-K 40, um kreativ zu bleiben ohne Wahrscheinlichkeitslawine.

Was ist der Unterschied zwischen Temperature, Top-K und Top-P?

Temperature skaliert die Verteilung global. Top-K beschneidet auf die K wahrscheinlichsten Tokens (z. B. K=40). Top-P (Nucleus Sampling) wählt das kleinste Token-Set, dessen kumulierte Wahrscheinlichkeit P erreicht (z. B. P=0.9). In der Praxis kombiniert man Temperature 0.7 mit Top-P 0.9 — das gibt kohärente und dennoch vielfältige Outputs.

Verhält sich Temperature bei Claude, GPT und Open-Source-Modellen gleich?

Nein. OpenAI-Modelle akzeptieren Temperature von 0-2. Anthropic-Claude geht von 0-1 (intern). Llama 4, Mistral und Qwen liegen meist bei 0-2, manche Inference-Engines erlauben mehr. Die gefühlte Kreativität bei gleichem T-Wert variiert je nach Modell — gleiche T=0.7 wirkt bei Claude konservativer als bei einem Llama-4-Instruct.

Sollte man Temperature für Production-Apps fest setzen?

Ja, fast immer. Für Customer-Support-Bots, RAG-Antworten und strukturierte Tasks empfehlen wir T zwischen 0 und 0.3 plus Seed-Parameter für Reproduzierbarkeit. Bei kreativen Endpoints (Slogan-Generator, Bildbeschreibungen) lieber T=0.8-1.0 mit Top-P 0.9. Logge T und Seed pro Call, damit Outputs nachvollziehbar bleiben.

// Verwandte Einträge

Brauchst du Hilfe mit Temperatur?

Wir beraten dich gerne zu Einsatz, Integration und Strategie.

Kontakt aufnehmen