Inferenz
// Beschreibung
// Anwendungsbereiche
- API-Anfragen
- Echtzeit-Verarbeitung
- Batch-Processing
- Edge-Deployment
// Deep Dive
Definition und Kerncharakter
Inferenz (englisch Inference) ist der Vorgang, bei dem ein bereits trainiertes KI-Modell auf eine neue Eingabe angewendet wird, um eine Ausgabe zu erzeugen. Während im Training Gewichte des neuronalen Netzes über Milliarden Gradient-Updates angepasst werden, bleibt das Modell während der Inferenz unverändert — es wird nur ausgeführt. Bei einem LLM bedeutet Inferenz konkret: Aus einer Sequenz von Tokens wird Token für Token die wahrscheinlichste Fortsetzung generiert.
Inferenz ist der ökonomische Hebel jeder KI-Anwendung. Während Training für ein Foundation Model wie GPT-5 oder Claude Opus 4.7 einmalig Milliarden USD kostet, summieren sich die Inferenz-Kosten über Milliarden täglicher Anfragen schnell auf zweistellige Millionenbeträge — pro Monat, pro Anbieter. Wer Inferenz versteht und optimiert, drückt seine KI-OPEX um 50-80 Prozent. Genau deshalb steht Inferenz-Optimierung 2026 im Zentrum jedes seriösen KI-Implementierungs-Projekts. Mehr dazu unter KI-Implementierung.
Wie funktioniert Inferenz technisch?
Ein LLM-Inferenz-Durchlauf besteht aus zwei Phasen. In der Prefill-Phase wird der gesamte Input-Prompt parallel verarbeitet: Tokenizer wandelt Text in IDs um, das Modell rechnet alle Self-Attention-Layer durch und baut den KV-Cache auf — eine Zwischenspeicherung der Key- und Value-Tensoren pro Layer. Diese Phase ist compute-bound (rechenintensiv, GPU-Auslastung 90 Prozent+).
In der Decode-Phase wird Token für Token generiert. Jeder neue Token nutzt den KV-Cache und produziert über den Sampling-Schritt (mit Temperature, Top-K, Top-P) das nächste Token. Diese Phase ist memory-bound: Die GPU wartet hauptsächlich auf Speicherzugriffe. Genau hier liegen die meisten Optimierungspotenziale.
Zentrale Inferenz-Optimierungen 2026: Quantization reduziert Gewichte von FP16 auf INT8, INT4 oder gar FP4 — bis zu 4x kleiner und schneller bei minimalem Qualitätsverlust. Flash Attention 3 rechnet Self-Attention IO-optimal. Speculative Decoding nutzt ein kleines Draft-Modell, das mehrere Tokens vorschlägt, die das große Modell parallel verifiziert — 2-4x Speedup. Continuous Batching (vLLM, TensorRT-LLM, TGI) packt unterschiedliche Requests dynamisch in einen GPU-Batch. Mixture-of-Experts aktiviert pro Token nur einen Bruchteil der Parameter. Kombiniert erreichen H200- oder Groq-LPU-Cluster heute 1000+ Tokens/Sekunde pro Stream.
Latenz vs. Durchsatz
Zwei KPIs dominieren die Inferenz-Diskussion. Latenz: Wie schnell kommt das erste Token (TTFT, Time-To-First-Token) und wie viele Token pro Sekunde danach (TPS)? Für Chat-Interfaces zählen TTFT < 500ms und TPS > 50. Durchsatz: Wie viele parallele Requests schafft die GPU? Hier spielen Batch-Size, KV-Cache-Größe und Memory-Bandbreite die Hauptrolle. Real-Time-Use-Cases (Voice-Agents) brauchen niedrige Latenz, Batch-Workflows (Klassifikation von Millionen Dokumenten) maximalen Durchsatz. Inference-Optimierung ist immer ein Trade-off zwischen beidem.
Hardware: GPU, TPU, NPU, LPU, CPU
GPU (NVIDIA H100, H200, B200, AMD MI300X): Der Industriestandard. CUDA-Ökosystem, Top-Performance, hohe Verfügbarkeit, aber teuer (H200 ab 30k USD). TPU (Google v5/v6): Optimiert für Google-Workloads, exzellente Energieeffizienz, aber nur in GCP nutzbar. NPU (Apple Neural Engine, Qualcomm Hexagon, Intel AI Boost): Ideal für On-Device-Inferenz auf Smartphones, Laptops, Embedded — perfekt für Privacy-First-Anwendungen. LPU (Groq, Cerebras): Spezialhardware mit deterministischem Memory-Layout — Groq erreicht über 1500 TPS auf Llama 4 70B. CPU: Mit GGUF/Llama.cpp lassen sich kleine Modelle (3-13B) auf Modern CPUs (M4 Ultra, AMD EPYC) sinnvoll betreiben.
Cloud-Inferenz vs. Self-Hosted
Cloud-Inferenz bietet maximale Convenience: OpenAI, Anthropic, Google Vertex AI, AWS Bedrock, Azure OpenAI, Together AI, Fireworks, Replicate und Hugging Face Inference Endpoints sind in Minuten integriert. Vorteil: Keine Hardware-Investitionen, automatische Skalierung, neueste Modelle. Nachteil: Daten verlassen die eigene Infrastruktur, Vendor Lock-in, Token-basierte Kosten skalieren linear mit Last.
Self-Hosted Inferenz via vLLM, TGI (HuggingFace Text Generation Inference), TensorRT-LLM, Ollama oder LM Studio lohnt sich ab 50-100M Tokens/Tag oder bei strikten DSGVO-/IP-Anforderungen. Llama 4, Mistral, Qwen 3 und DeepSeek V3 sind die Open-Source-Champions 2026. Hybride Setups (sensible Daten on-prem, Standard-Tasks in der Cloud) sind heute Best Practice — wir bauen sie regelmäßig in unserer KI-Beratung.
Kostenmodelle und Pricing 2026
Cloud-Provider rechnen pro Token oder pro Sekunde Compute ab. Stand Juni 2026: GPT-5 ca. 10 USD pro 1M Input-Tokens und 30 USD pro 1M Output-Tokens. Claude Opus 4.7 bei 15/75 USD, Sonnet 4.5 bei 3/15 USD, Haiku 4.5 bei 0,80/4 USD. Gemini 2.5 Pro bei 1,25/5 USD. Llama 4 70B über Together oder Fireworks zwischen 0,30 und 0,80 USD pro 1M Token. Wer Anthropic Batch oder OpenAI Batch nutzt, spart 50 Prozent — ideal für nicht-zeitkritische Workloads. Prompt Caching halbiert Input-Kosten bei wiederkehrendem System-Prompt nochmals.
Anwendungsfälle in der Praxis
Real-Time-Chat: Customer-Support-Bots, Coding-Assistenten wie Claude Code oder Cursor — Latenz unter 500ms TTFT ist Pflicht. Batch-Processing: Klassifikation von Verträgen, Sentiment-Analyse auf Social-Media-Posts, Übersetzung großer Dokumentenmengen — hier zählt Throughput, nicht TTFT. Streaming RAG: Antworten auf Basis interner Wissensdatenbanken — RAG-Pipelines kombinieren Retrieval-Latenz mit LLM-Inferenz. Edge-Inferenz: Apple Intelligence, Pixel AI und Microsoft Phi auf NPUs für Privacy-First-Szenarien. Agentic Workflows: Multi-Turn-Agenten wie Claude Code triggern Dutzende Inferenz-Calls pro Task — Optimierung hat hier den größten Hebel.
Vor- und Nachteile
Vorteile: Inferenz ist günstig im Vergleich zum Training, skaliert linear, lässt sich gut messen und optimieren. Mit Caching, Quantization und Batching erreicht man 5-10x Effizienzgewinne. Nachteile: Inferenz-Kosten skalieren mit Nutzung — virale Apps können binnen Stunden vierstellige USD-Rechnungen produzieren. Latenz ist je nach Modell-Größe und Kontextfenster schwer planbar. GPU-Verfügbarkeit ist 2026 weiterhin angespannt, besonders bei H200 und B200.
Tipps für Inferenz at Scale: Wähle das kleinste Modell, das die Qualität liefert (Haiku statt Opus, wo möglich). Nutze Prompt Caching aggressiv. Komprimiere Prompts (System-Prompt-Trimming). Cache identische Anfragen via Semantic Cache (z. B. GPTCache, Redis Vector). Setze pro Use-Case ein Routing-Layer ein, der einfache Anfragen zu billigen Modellen routet und komplexe zu Premium-Modellen. Beobachte TPM/RPM-Limits und plane Fallback-Provider ein.
Vergleich und Abgrenzung
Inferenz ist die Gegenoperation zum Training: Training verändert Gewichte, Inferenz nicht. Fine-Tuning ist eine kurze, fokussierte Training-Phase und keine Inferenz. Ein häufiges Missverständnis: "Das Modell lernt aus meinen Inputs" — das stimmt bei klassischer API-Inferenz NICHT, außer wenn der Anbieter Daten explizit für künftiges Training nutzt (bei OpenAI standardmäßig opt-out, bei Anthropic API generell nicht). Inferenz ist auch zu unterscheiden von Reasoning-Time-Compute: Modelle wie GPT-5 mit erweitertem Thinking oder Claude Opus 4.7 mit extended Thinking nutzen während der Inferenz mehr Compute, indem sie interne Chain-of-Thought-Steps generieren — der Output bleibt aber das Resultat eines (sehr viel teureren) Inferenz-Calls.
// Häufige Fragen
Was ist Inferenz?
Was ist der Unterschied zwischen Training und Inferenz?
Wie kann man Inferenz beschleunigen?
Was kostet KI-Inferenz 2026?
Cloud-Inferenz oder Self-Hosted — was ist besser?
Welche Hardware ist für Inferenz optimal?
// Verwandte Einträge
Brauchst du Hilfe mit Inferenz?
Wir beraten dich gerne zu Einsatz, Integration und Strategie.
Kontakt aufnehmen