Fine-Tuning

// Beschreibung

Fine-Tuning ist der Prozess, ein vortrainiertes KI-Modell mit eigenen Daten weiterzutrainieren. Dadurch kann das Modell spezialisierte Aufgaben besser lösen, ohne von Grund auf neu trainiert werden zu müssen.

// Anwendungsbereiche

Modell-Spezialisierung
Domänenanpassung
Qualitätsverbesserung

// Deep Dive

Definition und Praxis-Bezug

Fine-Tuning bezeichnet das Weiter-Trainieren eines bereits vortrainierten KI-Modells mit eigenen, domänenspezifischen Daten. Statt ein LLM von Grund auf zu bauen — was Millionen Euro und Wochen GPU-Zeit kostet — wird ein bestehendes Foundation-Modell (Llama 3, Mistral, GPT-4o-mini, Qwen) so angepasst, dass es eine spezifische Aufgabe besser löst.

In der Praxis nutzen wir Fine-Tuning, um Modelle in firmeneigener Tonalität sprechen zu lassen, juristische Klauseln korrekt zu klassifizieren, strukturierte JSON-Ausgaben zuverlässig zu erzeugen oder branchenspezifische Begriffe (Pharma, Maschinenbau, Recht) korrekt zu verstehen. Wichtig: Fine-Tuning lehrt dem Modell Verhalten und Stil, nicht primär neues Faktenwissen — dafür ist RAG besser geeignet.

Wie funktioniert Fine-Tuning technisch?

Beim Fine-Tuning werden die Gewichte eines vortrainierten Modells anhand neuer Daten weiter angepasst. Klassisches Full Fine-Tuning verändert alle Modell-Parameter — bei einem 70B-Modell sind das 70 Milliarden Gewichte, was massive GPU-Cluster (mehrere H100) erfordert.

2026 ist Parameter-Efficient Fine-Tuning (PEFT) der Standard. Die wichtigste Methode: LoRA (Low-Rank Adaptation). Statt alle Gewichte zu trainieren, lernt LoRA kleine "Adapter"-Matrizen, die parallel zu den Original-Gewichten arbeiten. Bei einem 70B-Modell trainiert LoRA nur 0,1–1 Prozent der Parameter — 100x schneller, 100x billiger, oft 95–99 Prozent der Full-Fine-Tuning-Qualität.

QLoRA kombiniert LoRA mit 4-Bit-Quantisierung des Base-Modells. Damit lassen sich 70B-Modelle auf einer einzigen RTX 4090 oder einem A6000 fine-tunen — Demokratisierung von Foundation-Modell-Anpassung. DoRA (Weight-Decomposed LoRA) und GaLore sind 2025/2026 weiterentwickelte Verfahren mit noch besserer Qualität.

Auf Daten-Ebene unterscheidet man Supervised Fine-Tuning (SFT) mit Input-Output-Paaren, DPO (Direct Preference Optimization) mit Präferenz-Paaren (gut/schlecht) und das klassische RLHF mit Reward-Modell. DPO hat sich 2024/2025 als deutlich einfacher und stabiler etabliert als RLHF.

Anwendungsfälle KMU und Enterprise

KMU-Anwendungsfälle: Im Mittelstand sinnvoll bei E-Mail-Klassifikation (10.000 historische Mails → Modell sortiert automatisch), strukturierter Datenextraktion aus Rechnungen, Markenstimmen-Anpassung für Content-Generierung und domain-spezifischer Sprache (medizinische Praxen, Steuerberater, Handwerk). Ein typischer Use-Case: Eine Kanzlei fine-tuned ein 8B-Modell auf 4.000 anonymisierte Anwaltsschreiben — das Modell schreibt anschließend Entwürfe im Kanzlei-Stil, 60 Prozent Zeitersparnis bei Standardschreiben.

Enterprise-Anwendungsfälle: Banken fine-tunen für Compliance-Prüfung, Pharma für Studien-Annotation, Versicherer für Schadensformulare, Automotive für Lasten-Heft-Generierung. Konzerne setzen oft auf Multi-Stage-Fine-Tuning: Base-Modell → Domain-Tuning auf 50M Token Branchen-Korpus → Task-Tuning auf 5.000 Beispielen. Mehr in unserer KI-Beratung und KI-Implementierung.

Best Practices

1. Daten-Qualität geht über Quantität. 500 perfekt kuratierte Beispiele sind oft besser als 10.000 verrauschte. Manuelles Review der ersten 100 Beispiele ist Pflicht.

2. Hyperparameter konservativ wählen. Learning Rate typischerweise 1e-5 bis 5e-5 für Full-FT, 1e-4 bis 3e-4 für LoRA. 2–4 Epochen reichen meist — mehr führt zu Overfitting.

3. Evaluation-Set strikt trennen. 10–15 Prozent der Daten als Holdout. Performance ohne Holdout-Check ist wertlos.

4. Mit Prompting starten, dann Fine-Tuning. Erst gute Prompts und RAG ausschöpfen — Fine-Tuning ist die letzte Stufe, nicht die erste.

5. Catastrophic Forgetting vermeiden. Modelle "vergessen" oft allgemeine Fähigkeiten beim Fine-Tuning. Mischung aus Task-Daten und allgemeinem Instruction-Datenset (Alpaca, Dolly) hilft.

Vergleich Fine-Tuning vs. RAG vs. Prompting

Prompting (System-Prompt + Few-Shot): Schnellste Methode, keine Kosten, sofort iterierbar. Aber: begrenzt durch Kontextfenster, weniger konsistent, höhere Token-Kosten pro Call. Erste Wahl für Prototypen und einfache Aufgaben.

RAG: Ideal für Wissensbasen, aktuelle Daten und Quellenangaben. Setup-Aufwand mittel, laufende Kosten moderat. Erste Wahl für Q&A über Dokumente und Wissensmanagement.

Fine-Tuning: Beste Lösung für stabile Stil-, Format- und Verhaltensanpassungen. Höchster Setup-Aufwand, niedrigste laufende Kosten pro Call (weil kürzere Prompts möglich sind). Erste Wahl für hochvolumige, gut definierte Aufgaben.

Faustregel: Beginne immer mit Prompting → bei Wissensbedarf RAG ergänzen → erst wenn Prompting und RAG ausgereizt sind, Fine-Tuning erwägen. In 80 Prozent der Cases reicht Prompting plus RAG.

OpenAI Fine-Tuning API vs. Open Source

OpenAI Fine-Tuning API: Modelle GPT-4o, GPT-4o-mini, GPT-3.5-turbo. Vorteile: kein Infrastruktur-Aufwand, schnell, integrierte Evaluation. Kosten: 3,75 USD pro 1M Trainings-Token (4o-mini), 25 USD pro 1M (4o). Inference auf Fine-tuned Modellen ist 2x teurer als auf Base-Modellen. Nachteil: Die Trainingsdaten verlassen das eigene Unternehmen und liegen bei OpenAI.

Open-Source (Unsloth, Axolotl, TRL): Volle Kontrolle über Daten und Modell, EU-Hosting möglich (DSGVO), keine API-Lock-in. Unsloth ist 2026 der Geheimtipp: 2x schnelleres Training, 60 Prozent weniger VRAM. Axolotl bietet maximale Flexibilität, LLaMA-Factory ist nutzerfreundlich. Für Production-Hosting: Together AI, Modal, RunPod, Fireworks. Modelle wie Llama 3.3, Mistral, Qwen 2.5 und Gemma 2 sind 2026 sehr starke Open-Source-Basen — die Lücke zu GPT-4o ist auf wenige Prozent geschrumpft.

Kosten und ROI

Für ein typisches KMU-Fine-Tuning (8B-Modell, 5.000 Beispiele, LoRA): Training-Compute ca. 5–15 USD (1–3 A100-Stunden). Datenkuration meist der größte Posten: 1–5 Personentage. Inference-Hosting 50–300 USD/Monat über vLLM, Together AI oder Modal. Im Vergleich zu reinen API-Calls auf Flagship-Modellen lohnt sich Fine-Tuning meist ab etwa 100.000 Anfragen pro Monat. Mehr dazu unter Hugging Face für Modell-Hosting und Open-Source-Auswahl.

// Haeufige Fragen

Was ist Fine-Tuning von LLMs?

Fine-Tuning ist der Prozess, ein vortrainiertes KI-Modell mit eigenen Daten weiterzutrainieren. Dadurch kann das Modell spezialisierte Aufgaben, Tonalitäten oder Formate besser umsetzen, ohne von Grund auf neu trainiert werden zu müssen.

Wann ist Fine-Tuning sinnvoll und wann RAG?

Fine-Tuning ist sinnvoll für stabile Stil-, Format- und Verhaltensanpassungen. RAG ist die richtige Wahl, wenn sich Wissen häufig ändert oder Quellen nachvollziehbar sein müssen. Oft kombiniert man beides.

Was ist LoRA und QLoRA?

LoRA (Low-Rank Adaptation) ist eine Parameter-Efficient-Fine-Tuning-Methode, die nur kleine Adapter-Matrizen trainiert statt das gesamte Modell. QLoRA kombiniert LoRA mit 4-Bit-Quantisierung — damit lassen sich 70B-Modelle auf einer einzigen Consumer-GPU fine-tunen.

Wie viele Trainingsdaten brauche ich?

Für einfache Stil-Anpassungen reichen oft 50–500 hochwertige Beispiele. Komplexe Aufgaben brauchen typischerweise 2.000–20.000 Beispiele. Qualität schlägt Quantität — saubere, repräsentative Daten sind entscheidend.

Was kostet Fine-Tuning?

OpenAI Fine-Tuning eines GPT-4o-mini-Modells kostet ca. 3 USD pro Million Trainings-Token. Open-Source Fine-Tuning mit Unsloth auf einer A100-Stunde kostet ca. 2–4 USD, plus Engineering-Aufwand.

Welche Tools nutzt man für Fine-Tuning?

Closed-Source: OpenAI Fine-Tuning API, Azure OpenAI, Google Vertex AI. Open Source: Unsloth, Axolotl, Hugging Face TRL, LLaMA-Factory. Für Production-Setups Together AI, Modal Labs oder RunPod als Trainings-Infrastruktur.

// Verwandte Einträge

// Häufige Fragen

Was ist Fine-Tuning von LLMs?

Fine-Tuning ist der Prozess, ein vortrainiertes KI-Modell mit eigenen Daten weiterzutrainieren. Dadurch kann das Modell spezialisierte Aufgaben, Tonalitäten oder Formate besser umsetzen, ohne von Grund auf neu trainiert werden zu müssen.

Wann ist Fine-Tuning sinnvoll und wann RAG?

Fine-Tuning ist sinnvoll für stabile Stil-, Format- und Verhaltensanpassungen (z. B. Markenstimme, JSON-Output, spezifische Antwortmuster). RAG ist die richtige Wahl, wenn sich Wissen häufig ändert oder Quellen nachvollziehbar sein müssen. Oft kombiniert man beides.

Was ist LoRA und QLoRA?

LoRA (Low-Rank Adaptation) ist eine Parameter-Efficient-Fine-Tuning-Methode, die nur kleine Adapter-Matrizen trainiert statt das gesamte Modell. QLoRA kombiniert LoRA mit 4-Bit-Quantisierung — damit lassen sich 70B-Modelle auf einer einzigen Consumer-GPU fine-tunen.

Wie viele Trainingsdaten brauche ich für Fine-Tuning?

Für einfache Stil-Anpassungen reichen oft 50–500 hochwertige Beispiele. Komplexe Aufgaben (z. B. domain-spezifische Klassifikation) brauchen typischerweise 2.000–20.000 Beispiele. Qualität schlägt Quantität — saubere, repräsentative Daten sind entscheidend.

Was kostet Fine-Tuning?

OpenAI Fine-Tuning eines GPT-4o-mini-Modells kostet ca. 3 USD pro Million Trainings-Token. Für 5.000 Beispiele mit je 500 Token = 2,5M Token = 7,50 USD. Open-Source Fine-Tuning mit Unsloth auf einer A100-Stunde kostet ca. 2–4 USD, plus Engineering-Aufwand.

Welche Tools nutzt man für Fine-Tuning?

Closed-Source: OpenAI Fine-Tuning API, Azure OpenAI, Google Vertex AI. Open Source: Unsloth (schnell, einfach), Axolotl (flexibel), Hugging Face TRL, LLaMA-Factory. Für Production-Setups Together AI, Modal Labs oder RunPod als Trainings-Infrastruktur.

// Beschreibung

// Anwendungsbereiche

// Deep Dive

Definition und Praxis-Bezug

Wie funktioniert Fine-Tuning technisch?

Anwendungsfälle KMU und Enterprise

Best Practices

Vergleich Fine-Tuning vs. RAG vs. Prompting

OpenAI Fine-Tuning API vs. Open Source

Kosten und ROI

// Haeufige Fragen

// Verwandte Einträge

// Häufige Fragen

// Verwandte Einträge

Brauchst du Hilfe mit Fine-Tuning?