Stable Diffusion
// Beschreibung
// Anwendungsbereiche
- Lokale Bildgenerierung
- Custom-Modelle
- Batch-Processing
- Inpainting
Die Basis für maßgeschneiderte Bild-Pipelines. Mit ComfyUI und eigenen LoRAs lassen sich Workflows bauen, die kein SaaS-Tool bieten kann.
// Deep Dive
Was ist Stable Diffusion und welche Stärken hat es 2026?
Stable Diffusion ist die wichtigste Open-Source-Familie von Text-to-Image-Modellen, entwickelt ab 2022 von Stability AI gemeinsam mit der CompVis Group der LMU München und Runway. Anders als Midjourney oder DALL-E sind die Modell-Weights frei verfügbar. Das heißt: Du kannst die Modelle lokal auf deinem eigenen Rechner laufen lassen, sie fine-tunen, eigene LoRAs trainieren, in Custom-Pipelines einbauen und ohne Cloud-Abhängigkeit produzieren.
Die Kern-Stärken Stand Juni 2026: maximale Flexibilität (Open Source heißt Custom-Workflows, kein Vendor-Lock-in), riesiges Ecosystem (zehntausende LoRAs, Checkpoints und Embeddings auf Civitai), volle Kontrolle über Privatsphäre (lokale Generation lässt keine Daten an OpenAI/Stability fließen), keine harten Soft-Limits (du kannst tausende Bilder pro Tag erzeugen, solange die GPU mitmacht) und die Fähigkeit, hochspezialisierte Modelle auf eigene Marken, Charaktere oder Produkte zu trainieren.
Wichtig 2026: Das ursprüngliche SD-Team bei Stability AI hat das Unternehmen verlassen und 2024 Black Forest Labs gegründet. Deren Flux-Modelle (Flux.1 [dev], Flux.1 [pro], Flux.1.1 [pro]) gelten 2026 als die besten Open-Weights-Bildmodelle und werden in ComfyUI/A1111 typischerweise austauschbar mit SD-Modellen verwendet. Im Folgenden meint "Stable Diffusion" das gesamte Open-Source-Ökosystem inklusive Flux.
SD 1.5, SDXL, SD3, Flux — welche Version wofür?
SD 1.5 (2022): Das alte Workhorse-Modell. Klein (4 GB), läuft auch auf alten GPUs, hat die größte LoRA-Bibliothek auf Civitai. Heute vor allem für Anime, NSFW und Volume-Produktion mit alten Workflows relevant.
SDXL (2023): Der Standard für Profi-Workflows 2024-2025. 1024x1024 Native, deutlich bessere Anatomie und Komposition als SD 1.5, riesiges LoRA-Ecosystem. Auch 2026 in vielen Produktions-Pipelines die erste Wahl, weil das Tooling so ausgereift ist.
SD 3 / SD 3.5 (2024-2025): Stability AIs Antwort auf DALL-E 3 mit besserer Text-Wiedergabe und verbesserter Komposition. Lizenz: Community-Lizenz mit Umsatz-Cap, was die Adoption gegenüber SDXL gebremst hat.
Flux.1 (2024-2026): Das aktuelle Spitzenmodell aus dem Hause Black Forest Labs. Flux.1 [dev] ist Open-Weights und non-commercial, Flux.1 [pro] und Flux.1.1 [pro] sind kommerziell über API verfügbar. Qualität auf Augenhöhe mit Midjourney V7 bei Fotorealismus, oft sogar besser bei Hände und Text-Rendering.
Wie nutzt man Stable Diffusion? Einstieg & Workflow
Drei Hauptwege Stand 2026: Lokal mit GUI (AUTOMATIC1111, Forge, ComfyUI, Draw Things auf Mac, Diffusion Bee), Cloud-Hosting (Runpod, Replicate, Stability AI API, fal.ai) oder SaaS-Wrapper (Krea, Leonardo, Magnific, Civitai Generator).
Lokaler Einstieg: Auf NVIDIA-GPU mit ≥8 GB VRAM ist Forge oder ComfyUI die beste Wahl. Auf Apple Silicon (M1/M2/M3/M4) läuft Draw Things am einfachsten — kostenlose App im Mac App Store, Modelle werden in der App geladen. Erstes Bild in 10-30 Sekunden.
Cloud-Einstieg: Wer keine eigene GPU hat, mietet auf Runpod oder Vast.ai für 0,20-0,80 USD/Stunde eine A4000/A5000/4090. Replicate und fal.ai bieten Pay-per-Image (typisch 0,003-0,03 USD pro Bild) ohne Setup. Stability AIs eigene API kostet ab 20 USD/Monat (Membership) oder Pay-per-Call.
Civitai-Ecosystem & LoRA-Training
Civitai.com ist das GitHub für Stable-Diffusion-Modelle: zehntausende Checkpoints, LoRAs, Textual Inversions, ControlNet-Modelle und Workflows zum kostenlosen Download. LoRAs (Low-Rank Adaptation, siehe LoRA) sind kleine Fine-Tuning-Files (50-300 MB) für Stile, Personen, Produkte oder Looks. Für Brand-Konsistenz trainieren wir typischerweise eine LoRA auf 20-50 Marken-Assets in 15-30 Minuten auf Cloud-GPU — danach generiert das Modell beliebige Motive im Marken-Look.
Für die Praxis: SDXL- und Flux-LoRAs sind nicht austauschbar — Modell-Generation muss passen. Bei kommerzieller Nutzung immer die Lizenz des konkreten Checkpoints/LoRAs prüfen (manche sind 'non-commercial' oder erfordern Attribution).
Anwendungsfälle & Use-Cases
Brand-konsistente Bildproduktion: Eine LoRA pro Marke/Kampagne, dann hunderte konsistente Visuals — ideal für Performance Marketing, Social, E-Commerce.
Charakter-Konsistenz: Maskottchen, Founder-Storys, Comic-Serien — eine Character-LoRA erzeugt dieselbe Figur in beliebigen Szenen, Outfits, Stilen.
Custom-Pipelines: ControlNet für Pose-/Edge-/Depth-Conditioning, IP-Adapter für Style-Transfer, Img2Img für Variationen, Inpainting für gezielte Bildbereiche.
Volume-Produktion: Tausende Produktvarianten, A/B-Asset-Pools, Game-Asset-Pipelines — alles ohne Soft-Limits oder Pay-per-Image-Kosten.
Privacy-First Workflows: Bilder werden lokal generiert, keine Cloud, keine Logs — relevant für Pharma, Finance, Defense, Behörden.
Mehr zu Bildtools auf der Übersicht KI-Bilder erstellen.
Pricing & Verfügbarkeit (Stand Juni 2026)
Stable Diffusion (SDXL): kostenlos, Open Source, kommerzielle Nutzung erlaubt (CreativeML Open RAIL-M). SD3 / SD 3.5: Community-Lizenz mit Umsatz-Cap (1 Mio. USD/Jahr), kommerzielle Lizenz on top. Flux.1 [dev]: non-commercial frei verfügbar. Flux.1 [pro] / Flux.1.1 [pro]: nur kommerziell über API, ca. 0,025-0,055 USD pro Bild. Stability AI API: ab 20 USD/Monat (Membership) für SD3.5/SDXL. Cloud-GPU: Runpod ab 0,20 USD/h (A4000) bis 0,80 USD/h (RTX 4090). Lokale Hardware: RTX 3060 12GB ab 280 EUR, RTX 4070 Ti Super 16GB ab 800 EUR, MacBook M4 Pro ab 2000 EUR.
Stable Diffusion vs. Midjourney vs. DALL-E
Stable Diffusion / Flux: Open Source, lokal, volle Kontrolle, Custom-LoRAs, kein Soft-Limit, NSFW möglich, Privacy-first. Schwächen: Setup-Aufwand, Hardware-Anforderungen, längere Lernkurve. Midjourney V7: Closed Source, Cloud-only, sofort einsatzbereit, beste Ästhetik out-of-the-box. Schwächen: keine Custom-Modelle, fester Look ohne sref. DALL-E: beste Prompt-Treue und Text im Bild, in ChatGPT integriert. Schwächen: Soft-Limits, weniger Kontrolle, kein Open Weights.
Profi-Setup 2026: SD/Flux für Volume und Brand-Konsistenz, Midjourney für ästhetische Hero-Visuals, DALL-E für Ideation und Mockups in ChatGPT.
Tipps für Profis
1. ComfyUI lernen. Die Node-basierte Oberfläche von ComfyUI ist die mit Abstand mächtigste Profi-Lösung. Workflow-JSONs lassen sich teilen, versionieren und automatisieren.
2. ControlNet beherrschen. Pose-, Edge-, Depth- und Inpaint-Conditioning ist der Game-Changer für präzise Kontrolle — Pflicht für Brand- und Produktworkflows.
3. Eine Brand-LoRA trainieren. 20-50 hochwertige Marken-Assets, 15-30 Minuten Training auf Runpod, danach unbegrenzte Brand-konsistente Generierung.
4. Flux statt SD für Final-Quality. Flux.1 [pro] liegt 2026 bei Fotorealismus, Text-Rendering und Anatomie vor SDXL und oft auch vor Midjourney.
5. Civitai diszipliniert nutzen. Top-LoRAs sind in fünf Minuten gefunden, schlechte LoRAs verschwenden Stunden. Sortiere nach Downloads + Rating und teste vor Produktion.
Für strategische Begleitung beim Aufbau von SD/Flux-Pipelines unterstützen wir in der KI-Beratung.
// FAQ
Was kostet Stable Diffusion?
Stable Diffusion ist Open Source und kostenlos. Du zahlst nur für Hardware (lokale GPU oder Cloud-GPU). Stability AI bietet API-Pläne ab 20 USD/Monat, Cloud-GPU auf Runpod ab 0,20 USD/h. Lokal genügt eine RTX 3060 12GB (ab 280 EUR) oder ein Apple Silicon Mac.
Was ist der Unterschied zwischen SD 1.5, SDXL, SD3 und Flux?
SD 1.5 ist alt aber mit größtem LoRA-Ecosystem. SDXL (2023) ist der Profi-Standard. SD3/3.5 verbessert Text-Rendering. Flux (Black Forest Labs) ist das 2026 führende Open-Weights-Modell und schlägt SD3 in vielen Benchmarks.
Darf ich Stable-Diffusion-Bilder kommerziell nutzen?
SD 1.5 und SDXL: ja, ohne Einschränkungen. SD3+ und Flux: Community-Lizenz mit Umsatz-Cap (1 Mio. USD), darüber kommerzielle Lizenz nötig. Bei Civitai-LoRAs unbedingt die jeweilige Lizenz prüfen.
Was ist eine LoRA?
Low-Rank Adaptation — ein leichtgewichtiges Fine-Tuning-File (50-300 MB) für Stable Diffusion. Lehrt das Modell einen Stil, eine Person oder ein Produkt. Standard für Brand-Konsistenz und Charakter-Wiederholung.
Brauche ich eine starke GPU?
Für SDXL/Flux mindestens 8-12 GB VRAM (RTX 3060 12GB oder besser). Apple Silicon (M1-M4) funktioniert gut mit Draw Things oder ComfyUI. Ohne eigene Hardware: Runpod, Replicate oder fal.ai.
Wie unterscheidet sich Stable Diffusion von Midjourney?
Midjourney ist Closed Source und Cloud-only, dafür sofort einsatzbereit mit top-tier Ästhetik. Stable Diffusion ist Open Source, lokal lauffähig, voll anpassbar, ideal für Volume-Produktion und Brand-Konsistenz via LoRA-Training.
// Verwandte Einträge
Brauchst du Hilfe mit Stable Diffusion?
Wir beraten dich gerne zu Einsatz, Integration und Strategie.
Kontakt aufnehmen