Trainingsdaten
// Beschreibung
// Anwendungsbereiche
- Modelltraining
- Bias-Erkennung
- Datenaufbereitung
- Qualitätssicherung
// Deep Dive
Definition und Kerncharakter
Trainingsdaten sind die Eingangsgrößen, mit denen ein KI-Modell aus rohem Code zu einer nutzbaren Intelligenz wird. Sie bestimmen, was ein Modell weiß, wie es spricht, welche Vorurteile es hat und welche Aufgaben es lösen kann. Bei einem modernen LLM wie GPT-5, Claude Opus 4.7 oder Llama 4 sind das mehrere Billionen Tokens — eine Datenmenge, die ein Mensch in tausend Leben nicht lesen könnte.
Der Kerncharakter von Trainingsdaten lässt sich auf einen Satz reduzieren: Garbage in, garbage out. Die Qualität der Daten ist der wichtigste Hebel für die Qualität des Modells — wichtiger als Architektur und oft wichtiger als reine Datenmenge. Seit den Chinchilla-Skalierungsgesetzen (2022) und dem Erfolg von Modellen wie Phi-4 wissen wir: Sorgfältig kuratierte 5 Billionen Tokens schlagen ungefilterte 15 Billionen Tokens. Datenarbeit ist 2026 das, was Modellarchitektur 2020 war — das Hauptdifferenzierungsmerkmal.
Datentypen für ML- und LLM-Training
Beim Training unterscheidet man mehrere Phasen mit unterschiedlichen Datentypen. Im Pre-Training dominieren unstrukturierte Texte: Web-Crawls, Bücher, Code, wissenschaftliche Paper, mehrsprachige Korpora. Im Supervised Fine-Tuning (SFT) kommen Instruction-Pairs zum Einsatz — also strukturierte (Prompt, ideale Antwort)-Paare. Im RLHF und DPO arbeitet man mit Präferenz-Tripeln: Prompt + zwei Antworten + menschliche Bewertung. Constitutional AI (Anthropic) und RLAIF verwenden statt menschlicher zusätzlich KI-generierte Bewertungen.
Für multimodale Modelle wie Gemini 2.5, Claude Opus 4.7 oder GPT-5 kommen Bild-Text-Paare (LAION, COYO, DataComp), Video-Caption-Daten, Audio-Transkripte und 3D-Daten hinzu. Bei Code-Modellen dominieren Code-Repositories wie The Stack v2 mit über 6 Billionen Code-Tokens. Vision-Language-Modelle nutzen interleaved Datasets, in denen Text und Bilder in natürlicher Reihenfolge erscheinen.
Bekannte öffentliche Datasets
Common Crawl: Monatlicher Web-Crawl, hunderte Petabytes ungefilterter HTML-Daten — Rohmaterial fast aller LLMs. RefinedWeb, RedPajama V2, FineWeb: Stark gefilterte Common-Crawl-Derivate (15 Billionen Tokens). The Pile: 825 GB hochwertiger Mixed-Domain-Text. The Stack v2: 6,4 TB Code aus GitHub. Wikipedia: Mehrsprachiges Faktenwissen. arXiv, S2ORC: Wissenschaftliche Paper. OpenAssistant Conversations, UltraChat, Dolphin: Instruction- und Chat-Datasets. HH-RLHF (Anthropic), UltraFeedback: Präferenzdaten. Für deutschsprachige Modelle sind OSCAR-DE, GC4 und German MQA relevant.
Data Pipelines und Curation
Eine moderne Trainingsdaten-Pipeline besteht aus mehreren Stages. Acquisition: Web-Crawl, API-Pulls, Lizenz-Käufe (Reddit deal mit Google 2024, Shutterstock-Lizenz an OpenAI). Extraction: HTML zu Text via Trafilatura, Resiliparse, Boilerplate-Removal. Quality-Filtering: Heuristiken (Wortlänge, Stopword-Ratio), Classifier-basierte Filter (FastText, Quality-Classifier), Domain-Reputation-Scoring. Deduplication: Exact-Match, MinHash, SimHash, semantic Dedup via Embeddings. Toxicity-Filtering: Detoxify, Perspective API, Hate-Speech-Classifier. PII-Removal: Presidio, regex-basierte Email-/Telefon-/Adress-Filter. Decontamination: Entfernung von Benchmark-Test-Sets (MMLU, HumanEval) aus Trainingsdaten — entscheidend für ehrliche Evaluation.
Synthetic Data und RLHF-Curation
Synthetic Data ist 2026 der heißeste Trend im Data-Bereich. Statt mühsam Webdaten zu sammeln, generiert ein starkes Lehrer-Modell (Claude Opus, GPT-5) Trainingsbeispiele für ein kleineres Schüler-Modell. Phi-4 und Orca-3 sind prominente Beispiele für Synthetic-Data-Champions. Anthropic, OpenAI und Google nutzen Synthetic Data massiv für Reasoning, Coding und Tool-Use-Training. Risiko: Model Collapse bei reinem Synthetic-Loop. Best Practice: Mix aus 50-70 Prozent real und 30-50 Prozent synthetic.
Für RLHF werden Annotatoren-Teams (Scale AI, Surge, Invisible, Outlier) eingesetzt, die pro Prompt zwei Modell-Antworten ranken. Pro großes LLM kommen so 1-10 Millionen Präferenz-Paare zusammen, jeder Annotator wird auf Konsistenz geprüft. Constitutional AI ersetzt einen Teil dieser Annotation durch KI-basierte Self-Critique anhand einer schriftlich festgelegten Verfassung.
DSGVO, Copyright und Rechtslage 2026
Die Rechtslage rund um Trainingsdaten hat sich 2025/2026 dramatisch verändert. EU AI Act (in Kraft seit August 2025): GPAI-Anbieter müssen eine "Sufficiently Detailed Summary" ihrer Trainingsdaten veröffentlichen, Copyright-Holder müssen Opt-out-Mechanismen (TDM-Reservation) respektieren. NYT vs OpenAI: Settlement Anfang 2026 nach jahrelangem Verfahren — Details vertraulich, aber millionenschwere Lizenzzahlungen und neue Crawl-Restrictions. Bartz v Anthropic (US, 2025 Juni): Richter Alsup entschied, dass Training selbst Fair Use sein kann, der illegale Bezug der Trainings-Bücher (Library Genesis, Z-Library) hingegen klar nicht — Anthropic-Settlement folgte. GEMA vs OpenAI (DE): Urteil Q4 2025 zu Liedtext-Training zugunsten GEMA, mit Auswirkungen auf Lizenzpflicht.
Praktisch heißt das 2026: Wer ein KI-Modell trainiert oder fine-tuned, dokumentiert Quellen lückenlos, respektiert robots.txt und ai.txt, holt Lizenzen für strittige Daten ein und implementiert Opt-out-Mechanismen für Rechteinhaber. Fine-Tuning auf Kundendaten erfordert AVV, klare Zweckbindung und idealerweise on-prem-Training. Wir begleiten solche Projekte in unserer KI-Beratung regelmäßig.
Tools für Daten-Engineering
Datatrove (HuggingFace): End-to-End Web-Crawl-Pipeline für FineWeb. NeMo Curator (NVIDIA): GPU-beschleunigte Curation, Dedup, Quality-Filter. Argilla: Open-Source-Plattform für RLHF/SFT-Annotation. Label Studio: Universelles Labeling-Tool. Cleanlab: Label-Error-Detection. Lilac: Visual Data Exploration für unstrukturierte Datasets. DuckDB, Polars: Schneller analytischer Layer über Datasets. Apache Beam, Ray: Distributed Processing. Distilabel (Argilla): Synthetic-Data-Pipelines. Presidio (Microsoft): PII-Detection.
Vor- und Nachteile, Best Practices
Vorteile großer, vielfältiger Trainingsdaten: bessere Sprachabdeckung, breiteres Weltwissen, robusteres Reasoning. Nachteile: Bias und Toxicity aus dem Web werden mitgelernt; Copyright-Risiken; Datenschutz-Albträume bei Personendaten; Halluzinationen durch widersprüchliche Quellen.
Best Practices für Unternehmen, die Modelle fine-tunen: Minimaldaten-Prinzip — nur das nötigste sammeln. Klare Zweckbindung. AVV mit Annotation-Anbietern. Decontamination der eigenen Test-Sets. Versionierung der Datasets (DVC, Weights & Biases, Comet). Dokumentation via Datasheets for Datasets (Gebru et al.) und Model Cards. Bias-Audits vor jedem Production-Release. Auditierbare Lösch-Logs für Personendaten.
Abgrenzung und verwandte Konzepte
Trainingsdaten sind nicht zu verwechseln mit Test-Daten und Validation-Daten: Test-Sets dürfen NIE im Training auftauchen, sonst sind Benchmarks wertlos. RAG ist die Alternative zu Fine-Tuning für viele Wissensanwendungen — statt Daten ins Modell zu trainieren, werden sie zur Inferenzzeit aus einer Datenbank geholt. Embeddings-Modelle haben eigene Trainingsdaten (Triplets, Sentence Pairs). Transformer-Architekturen sind unabhängig von Daten, brauchen aber genau diese Daten, um nützlich zu werden.
// Häufige Fragen
Was sind Trainingsdaten?
Welche Daten werden für LLM-Training verwendet?
Was ist Synthetic Data?
Wie ist die DSGVO- und Copyright-Lage bei Trainingsdaten?
Welche Tools gibt es für Daten-Curation?
Wie verhindert man Bias in Trainingsdaten?
// Verwandte Einträge
Brauchst du Hilfe mit Trainingsdaten?
Wir beraten dich gerne zu Einsatz, Integration und Strategie.
Kontakt aufnehmen