concept

Inferenz

KI-Grundlagen

// Beschreibung

Inferenz bezeichnet den Vorgang, wenn ein trainiertes KI-Modell auf neue Eingaben angewendet wird und Ergebnisse generiert. Die Inferenz-Geschwindigkeit und -Kosten sind entscheidende Faktoren für den produktiven KI-Einsatz.

// Anwendungsbereiche

API-Anfragen
Echtzeit-Verarbeitung
Batch-Processing
Edge-Deployment

// Deep Dive

Definition und Kerncharakter

Inferenz (englisch Inference) ist der Vorgang, bei dem ein bereits trainiertes KI-Modell auf eine neue Eingabe angewendet wird, um eine Ausgabe zu erzeugen. Während im Training Gewichte des neuronalen Netzes über Milliarden Gradient-Updates angepasst werden, bleibt das Modell während der Inferenz unverändert — es wird nur ausgeführt. Bei einem LLM bedeutet Inferenz konkret: Aus einer Sequenz von Tokens wird Token für Token die wahrscheinlichste Fortsetzung generiert.

Inferenz ist der ökonomische Hebel jeder KI-Anwendung. Während Training für ein Foundation Model wie GPT-5 oder Claude Opus 4.7 einmalig Milliarden USD kostet, summieren sich die Inferenz-Kosten über Milliarden täglicher Anfragen schnell auf zweistellige Millionenbeträge — pro Monat, pro Anbieter. Wer Inferenz versteht und optimiert, drückt seine KI-OPEX um 50-80 Prozent. Genau deshalb steht Inferenz-Optimierung 2026 im Zentrum jedes seriösen KI-Implementierungs-Projekts. Mehr dazu unter KI-Implementierung.

Wie funktioniert Inferenz technisch?

Ein LLM-Inferenz-Durchlauf besteht aus zwei Phasen. In der Prefill-Phase wird der gesamte Input-Prompt parallel verarbeitet: Tokenizer wandelt Text in IDs um, das Modell rechnet alle Self-Attention-Layer durch und baut den KV-Cache auf — eine Zwischenspeicherung der Key- und Value-Tensoren pro Layer. Diese Phase ist compute-bound (rechenintensiv, GPU-Auslastung 90 Prozent+).

In der Decode-Phase wird Token für Token generiert. Jeder neue Token nutzt den KV-Cache und produziert über den Sampling-Schritt (mit Temperature, Top-K, Top-P) das nächste Token. Diese Phase ist memory-bound: Die GPU wartet hauptsächlich auf Speicherzugriffe. Genau hier liegen die meisten Optimierungspotenziale.

Zentrale Inferenz-Optimierungen 2026: Quantization reduziert Gewichte von FP16 auf INT8, INT4 oder gar FP4 — bis zu 4x kleiner und schneller bei minimalem Qualitätsverlust. Flash Attention 3 rechnet Self-Attention IO-optimal. Speculative Decoding nutzt ein kleines Draft-Modell, das mehrere Tokens vorschlägt, die das große Modell parallel verifiziert — 2-4x Speedup. Continuous Batching (vLLM, TensorRT-LLM, TGI) packt unterschiedliche Requests dynamisch in einen GPU-Batch. Mixture-of-Experts aktiviert pro Token nur einen Bruchteil der Parameter. Kombiniert erreichen H200- oder Groq-LPU-Cluster heute 1000+ Tokens/Sekunde pro Stream.

Latenz vs. Durchsatz

Zwei KPIs dominieren die Inferenz-Diskussion. Latenz: Wie schnell kommt das erste Token (TTFT, Time-To-First-Token) und wie viele Token pro Sekunde danach (TPS)? Für Chat-Interfaces zählen TTFT < 500ms und TPS > 50. Durchsatz: Wie viele parallele Requests schafft die GPU? Hier spielen Batch-Size, KV-Cache-Größe und Memory-Bandbreite die Hauptrolle. Real-Time-Use-Cases (Voice-Agents) brauchen niedrige Latenz, Batch-Workflows (Klassifikation von Millionen Dokumenten) maximalen Durchsatz. Inference-Optimierung ist immer ein Trade-off zwischen beidem.

Hardware: GPU, TPU, NPU, LPU, CPU

GPU (NVIDIA H100, H200, B200, AMD MI300X): Der Industriestandard. CUDA-Ökosystem, Top-Performance, hohe Verfügbarkeit, aber teuer (H200 ab 30k USD). TPU (Google v5/v6): Optimiert für Google-Workloads, exzellente Energieeffizienz, aber nur in GCP nutzbar. NPU (Apple Neural Engine, Qualcomm Hexagon, Intel AI Boost): Ideal für On-Device-Inferenz auf Smartphones, Laptops, Embedded — perfekt für Privacy-First-Anwendungen. LPU (Groq, Cerebras): Spezialhardware mit deterministischem Memory-Layout — Groq erreicht über 1500 TPS auf Llama 4 70B. CPU: Mit GGUF/Llama.cpp lassen sich kleine Modelle (3-13B) auf Modern CPUs (M4 Ultra, AMD EPYC) sinnvoll betreiben.

Cloud-Inferenz vs. Self-Hosted

Cloud-Inferenz bietet maximale Convenience: OpenAI, Anthropic, Google Vertex AI, AWS Bedrock, Azure OpenAI, Together AI, Fireworks, Replicate und Hugging Face Inference Endpoints sind in Minuten integriert. Vorteil: Keine Hardware-Investitionen, automatische Skalierung, neueste Modelle. Nachteil: Daten verlassen die eigene Infrastruktur, Vendor Lock-in, Token-basierte Kosten skalieren linear mit Last.

Self-Hosted Inferenz via vLLM, TGI (HuggingFace Text Generation Inference), TensorRT-LLM, Ollama oder LM Studio lohnt sich ab 50-100M Tokens/Tag oder bei strikten DSGVO-/IP-Anforderungen. Llama 4, Mistral, Qwen 3 und DeepSeek V3 sind die Open-Source-Champions 2026. Hybride Setups (sensible Daten on-prem, Standard-Tasks in der Cloud) sind heute Best Practice — wir bauen sie regelmäßig in unserer KI-Beratung.

Kostenmodelle und Pricing 2026

Cloud-Provider rechnen pro Token oder pro Sekunde Compute ab. Stand Juni 2026: GPT-5 ca. 10 USD pro 1M Input-Tokens und 30 USD pro 1M Output-Tokens. Claude Opus 4.7 bei 15/75 USD, Sonnet 4.5 bei 3/15 USD, Haiku 4.5 bei 0,80/4 USD. Gemini 2.5 Pro bei 1,25/5 USD. Llama 4 70B über Together oder Fireworks zwischen 0,30 und 0,80 USD pro 1M Token. Wer Anthropic Batch oder OpenAI Batch nutzt, spart 50 Prozent — ideal für nicht-zeitkritische Workloads. Prompt Caching halbiert Input-Kosten bei wiederkehrendem System-Prompt nochmals.

Anwendungsfälle in der Praxis

Real-Time-Chat: Customer-Support-Bots, Coding-Assistenten wie Claude Code oder Cursor — Latenz unter 500ms TTFT ist Pflicht. Batch-Processing: Klassifikation von Verträgen, Sentiment-Analyse auf Social-Media-Posts, Übersetzung großer Dokumentenmengen — hier zählt Throughput, nicht TTFT. Streaming RAG: Antworten auf Basis interner Wissensdatenbanken — RAG-Pipelines kombinieren Retrieval-Latenz mit LLM-Inferenz. Edge-Inferenz: Apple Intelligence, Pixel AI und Microsoft Phi auf NPUs für Privacy-First-Szenarien. Agentic Workflows: Multi-Turn-Agenten wie Claude Code triggern Dutzende Inferenz-Calls pro Task — Optimierung hat hier den größten Hebel.

Vor- und Nachteile

Vorteile: Inferenz ist günstig im Vergleich zum Training, skaliert linear, lässt sich gut messen und optimieren. Mit Caching, Quantization und Batching erreicht man 5-10x Effizienzgewinne. Nachteile: Inferenz-Kosten skalieren mit Nutzung — virale Apps können binnen Stunden vierstellige USD-Rechnungen produzieren. Latenz ist je nach Modell-Größe und Kontextfenster schwer planbar. GPU-Verfügbarkeit ist 2026 weiterhin angespannt, besonders bei H200 und B200.

Tipps für Inferenz at Scale: Wähle das kleinste Modell, das die Qualität liefert (Haiku statt Opus, wo möglich). Nutze Prompt Caching aggressiv. Komprimiere Prompts (System-Prompt-Trimming). Cache identische Anfragen via Semantic Cache (z. B. GPTCache, Redis Vector). Setze pro Use-Case ein Routing-Layer ein, der einfache Anfragen zu billigen Modellen routet und komplexe zu Premium-Modellen. Beobachte TPM/RPM-Limits und plane Fallback-Provider ein.

Vergleich und Abgrenzung

Inferenz ist die Gegenoperation zum Training: Training verändert Gewichte, Inferenz nicht. Fine-Tuning ist eine kurze, fokussierte Training-Phase und keine Inferenz. Ein häufiges Missverständnis: "Das Modell lernt aus meinen Inputs" — das stimmt bei klassischer API-Inferenz NICHT, außer wenn der Anbieter Daten explizit für künftiges Training nutzt (bei OpenAI standardmäßig opt-out, bei Anthropic API generell nicht). Inferenz ist auch zu unterscheiden von Reasoning-Time-Compute: Modelle wie GPT-5 mit erweitertem Thinking oder Claude Opus 4.7 mit extended Thinking nutzen während der Inferenz mehr Compute, indem sie interne Chain-of-Thought-Steps generieren — der Output bleibt aber das Resultat eines (sehr viel teureren) Inferenz-Calls.

// Häufige Fragen

Was ist Inferenz?

Was ist der Unterschied zwischen Training und Inferenz?

Training ist die einmalige, extrem rechenintensive Phase, in der das Modell aus Daten lernt und Parameter aktualisiert (Gradient Descent). Inferenz ist die laufende Nutzung des fertigen Modells für neue Eingaben — ohne Gewichtsänderung. Training kostet pro LLM oft Millionen USD, Inferenz dagegen Bruchteile eines Cents pro Anfrage, summiert sich aber über Millionen Calls.

Wie kann man Inferenz beschleunigen?

Wichtige Hebel sind Quantization (INT8/INT4 statt FP16), Flash Attention 3, Speculative Decoding mit Draft-Modellen, KV-Cache-Reuse, Continuous Batching (vLLM, TGI), Mixture-of-Experts und Hardware-Wechsel auf H200, MI300X, Groq LPUs oder Cerebras Wafer-Scale-Chips. Damit sind 2026 produktiv 1000+ Token pro Sekunde realistisch.

Was kostet KI-Inferenz 2026?

Cloud-Inferenz wird pro Token oder pro Sekunde Compute abgerechnet. Stand Juni 2026 kostet GPT-5 ca. 10/30 USD pro 1M Input/Output-Token, Claude Opus 4.7 bei 15/75 USD, Haiku 4.5 bei 0,80/4 USD. Self-Hosted Llama 4 70B liegt bei ca. 0,30-0,80 USD pro 1M Token, benötigt aber GPU-Investitionen ab 30k EUR oder Cloud-GPU-Mieten ab 2-4 USD pro Stunde.

Cloud-Inferenz oder Self-Hosted — was ist besser?

Cloud (OpenAI, Anthropic, Bedrock, Together, Fireworks) ist ideal für schnelles Time-to-Market und variable Last. Self-Hosted (vLLM, Ollama, LM Studio, TGI) lohnt sich ab 50-100M Tokens/Tag, bei DSGVO-/IP-Anforderungen oder wenn Spezial-Modelle wie Llama 4, Mistral oder eigene Fine-Tunes betrieben werden. Hybride Setups mit Edge-Inferenz für Latenz-kritische Anwendungen sind 2026 Best Practice.

Welche Hardware ist für Inferenz optimal?

Cloud: NVIDIA H200, B200, AMD MI300X, Groq LPU, Google TPU v6, AWS Trainium 2. On-Premise: NVIDIA RTX 6000 Ada, H200-Server, Mac Studio M4 Ultra für kleinere Modelle. Edge/Mobile: Apple Neural Engine, Qualcomm Hexagon NPU, Google Edge TPU. Die Wahl hängt von Modellgröße, Latenz-Anforderungen und Energie-Budget ab.

// Verwandte Einträge

Brauchst du Hilfe mit Inferenz?

Wir beraten dich gerne zu Einsatz, Integration und Strategie.

Kontakt aufnehmen