concept

Trainingsdaten

KI-Grundlagen

// Beschreibung

// Anwendungsbereiche

Modelltraining
Bias-Erkennung
Datenaufbereitung
Qualitätssicherung

// Deep Dive

Definition und Kerncharakter

Trainingsdaten sind die Eingangsgrößen, mit denen ein KI-Modell aus rohem Code zu einer nutzbaren Intelligenz wird. Sie bestimmen, was ein Modell weiß, wie es spricht, welche Vorurteile es hat und welche Aufgaben es lösen kann. Bei einem modernen LLM wie GPT-5, Claude Opus 4.7 oder Llama 4 sind das mehrere Billionen Tokens — eine Datenmenge, die ein Mensch in tausend Leben nicht lesen könnte.

Der Kerncharakter von Trainingsdaten lässt sich auf einen Satz reduzieren: Garbage in, garbage out. Die Qualität der Daten ist der wichtigste Hebel für die Qualität des Modells — wichtiger als Architektur und oft wichtiger als reine Datenmenge. Seit den Chinchilla-Skalierungsgesetzen (2022) und dem Erfolg von Modellen wie Phi-4 wissen wir: Sorgfältig kuratierte 5 Billionen Tokens schlagen ungefilterte 15 Billionen Tokens. Datenarbeit ist 2026 das, was Modellarchitektur 2020 war — das Hauptdifferenzierungsmerkmal.

Datentypen für ML- und LLM-Training

Beim Training unterscheidet man mehrere Phasen mit unterschiedlichen Datentypen. Im Pre-Training dominieren unstrukturierte Texte: Web-Crawls, Bücher, Code, wissenschaftliche Paper, mehrsprachige Korpora. Im Supervised Fine-Tuning (SFT) kommen Instruction-Pairs zum Einsatz — also strukturierte (Prompt, ideale Antwort)-Paare. Im RLHF und DPO arbeitet man mit Präferenz-Tripeln: Prompt + zwei Antworten + menschliche Bewertung. Constitutional AI (Anthropic) und RLAIF verwenden statt menschlicher zusätzlich KI-generierte Bewertungen.

Für multimodale Modelle wie Gemini 2.5, Claude Opus 4.7 oder GPT-5 kommen Bild-Text-Paare (LAION, COYO, DataComp), Video-Caption-Daten, Audio-Transkripte und 3D-Daten hinzu. Bei Code-Modellen dominieren Code-Repositories wie The Stack v2 mit über 6 Billionen Code-Tokens. Vision-Language-Modelle nutzen interleaved Datasets, in denen Text und Bilder in natürlicher Reihenfolge erscheinen.

Bekannte öffentliche Datasets

Common Crawl: Monatlicher Web-Crawl, hunderte Petabytes ungefilterter HTML-Daten — Rohmaterial fast aller LLMs. RefinedWeb, RedPajama V2, FineWeb: Stark gefilterte Common-Crawl-Derivate (15 Billionen Tokens). The Pile: 825 GB hochwertiger Mixed-Domain-Text. The Stack v2: 6,4 TB Code aus GitHub. Wikipedia: Mehrsprachiges Faktenwissen. arXiv, S2ORC: Wissenschaftliche Paper. OpenAssistant Conversations, UltraChat, Dolphin: Instruction- und Chat-Datasets. HH-RLHF (Anthropic), UltraFeedback: Präferenzdaten. Für deutschsprachige Modelle sind OSCAR-DE, GC4 und German MQA relevant.

Data Pipelines und Curation

Eine moderne Trainingsdaten-Pipeline besteht aus mehreren Stages. Acquisition: Web-Crawl, API-Pulls, Lizenz-Käufe (Reddit deal mit Google 2024, Shutterstock-Lizenz an OpenAI). Extraction: HTML zu Text via Trafilatura, Resiliparse, Boilerplate-Removal. Quality-Filtering: Heuristiken (Wortlänge, Stopword-Ratio), Classifier-basierte Filter (FastText, Quality-Classifier), Domain-Reputation-Scoring. Deduplication: Exact-Match, MinHash, SimHash, semantic Dedup via Embeddings. Toxicity-Filtering: Detoxify, Perspective API, Hate-Speech-Classifier. PII-Removal: Presidio, regex-basierte Email-/Telefon-/Adress-Filter. Decontamination: Entfernung von Benchmark-Test-Sets (MMLU, HumanEval) aus Trainingsdaten — entscheidend für ehrliche Evaluation.

Synthetic Data und RLHF-Curation

Synthetic Data ist 2026 der heißeste Trend im Data-Bereich. Statt mühsam Webdaten zu sammeln, generiert ein starkes Lehrer-Modell (Claude Opus, GPT-5) Trainingsbeispiele für ein kleineres Schüler-Modell. Phi-4 und Orca-3 sind prominente Beispiele für Synthetic-Data-Champions. Anthropic, OpenAI und Google nutzen Synthetic Data massiv für Reasoning, Coding und Tool-Use-Training. Risiko: Model Collapse bei reinem Synthetic-Loop. Best Practice: Mix aus 50-70 Prozent real und 30-50 Prozent synthetic.

Für RLHF werden Annotatoren-Teams (Scale AI, Surge, Invisible, Outlier) eingesetzt, die pro Prompt zwei Modell-Antworten ranken. Pro großes LLM kommen so 1-10 Millionen Präferenz-Paare zusammen, jeder Annotator wird auf Konsistenz geprüft. Constitutional AI ersetzt einen Teil dieser Annotation durch KI-basierte Self-Critique anhand einer schriftlich festgelegten Verfassung.

DSGVO, Copyright und Rechtslage 2026

Die Rechtslage rund um Trainingsdaten hat sich 2025/2026 dramatisch verändert. EU AI Act (in Kraft seit August 2025): GPAI-Anbieter müssen eine "Sufficiently Detailed Summary" ihrer Trainingsdaten veröffentlichen, Copyright-Holder müssen Opt-out-Mechanismen (TDM-Reservation) respektieren. NYT vs OpenAI: Settlement Anfang 2026 nach jahrelangem Verfahren — Details vertraulich, aber millionenschwere Lizenzzahlungen und neue Crawl-Restrictions. Bartz v Anthropic (US, 2025 Juni): Richter Alsup entschied, dass Training selbst Fair Use sein kann, der illegale Bezug der Trainings-Bücher (Library Genesis, Z-Library) hingegen klar nicht — Anthropic-Settlement folgte. GEMA vs OpenAI (DE): Urteil Q4 2025 zu Liedtext-Training zugunsten GEMA, mit Auswirkungen auf Lizenzpflicht.

Praktisch heißt das 2026: Wer ein KI-Modell trainiert oder fine-tuned, dokumentiert Quellen lückenlos, respektiert robots.txt und ai.txt, holt Lizenzen für strittige Daten ein und implementiert Opt-out-Mechanismen für Rechteinhaber. Fine-Tuning auf Kundendaten erfordert AVV, klare Zweckbindung und idealerweise on-prem-Training. Wir begleiten solche Projekte in unserer KI-Beratung regelmäßig.

Tools für Daten-Engineering

Datatrove (HuggingFace): End-to-End Web-Crawl-Pipeline für FineWeb. NeMo Curator (NVIDIA): GPU-beschleunigte Curation, Dedup, Quality-Filter. Argilla: Open-Source-Plattform für RLHF/SFT-Annotation. Label Studio: Universelles Labeling-Tool. Cleanlab: Label-Error-Detection. Lilac: Visual Data Exploration für unstrukturierte Datasets. DuckDB, Polars: Schneller analytischer Layer über Datasets. Apache Beam, Ray: Distributed Processing. Distilabel (Argilla): Synthetic-Data-Pipelines. Presidio (Microsoft): PII-Detection.

Vor- und Nachteile, Best Practices

Vorteile großer, vielfältiger Trainingsdaten: bessere Sprachabdeckung, breiteres Weltwissen, robusteres Reasoning. Nachteile: Bias und Toxicity aus dem Web werden mitgelernt; Copyright-Risiken; Datenschutz-Albträume bei Personendaten; Halluzinationen durch widersprüchliche Quellen.

Best Practices für Unternehmen, die Modelle fine-tunen: Minimaldaten-Prinzip — nur das nötigste sammeln. Klare Zweckbindung. AVV mit Annotation-Anbietern. Decontamination der eigenen Test-Sets. Versionierung der Datasets (DVC, Weights & Biases, Comet). Dokumentation via Datasheets for Datasets (Gebru et al.) und Model Cards. Bias-Audits vor jedem Production-Release. Auditierbare Lösch-Logs für Personendaten.

Abgrenzung und verwandte Konzepte

Trainingsdaten sind nicht zu verwechseln mit Test-Daten und Validation-Daten: Test-Sets dürfen NIE im Training auftauchen, sonst sind Benchmarks wertlos. RAG ist die Alternative zu Fine-Tuning für viele Wissensanwendungen — statt Daten ins Modell zu trainieren, werden sie zur Inferenzzeit aus einer Datenbank geholt. Embeddings-Modelle haben eigene Trainingsdaten (Triplets, Sentence Pairs). Transformer-Architekturen sind unabhängig von Daten, brauchen aber genau diese Daten, um nützlich zu werden.

// Häufige Fragen

Was sind Trainingsdaten?

Trainingsdaten sind die Daten, mit denen KI-Modelle trainiert werden. Qualität, Umfang und Vielfalt der Trainingsdaten bestimmen maßgeblich die Leistung und mögliche Verzerrungen (Bias) des fertigen Modells. Moderne LLMs wie GPT-5 oder Claude Opus 4.7 wurden auf mehreren Billionen Tokens trainiert.

Welche Daten werden für LLM-Training verwendet?

Typische Quellen sind Common Crawl (Web), RedPajama, RefinedWeb, The Pile, Wikipedia, Bücher (LibGen, Anna's Archive), Code-Repositories (GitHub, The Stack v2), wissenschaftliche Paper (arXiv), Foren (Reddit, StackExchange) sowie kuratierte Multilingual-Datasets. Hinzu kommen RLHF-Daten von Annotatoren und synthetische Daten von stärkeren Modellen.

Was ist Synthetic Data?

Synthetic Data sind künstlich erzeugte Trainingsbeispiele — meist generiert von einem stärkeren LLM (Claude Opus, GPT-5) für ein kleineres Modell. 2026 stammen geschätzt 30-50 Prozent der Trainingsdaten neuer Open-Source-Modelle aus synthetischer Generierung. Vorteil: gezielte Aufgabenabdeckung, weniger Copyright-Risiko. Nachteil: Modell-Kollaps bei reinem Synthetic-Loop.

Wie ist die DSGVO- und Copyright-Lage bei Trainingsdaten?

Stand Juni 2026 sind mehrere Verfahren laufend oder entschieden: NYT vs OpenAI (Settlement Anfang 2026), Anthropic vs Authors-Class-Action (US Bartz Ruling, Fair Use für Training bestätigt, aber illegale Buch-Beschaffung sanktioniert), GEMA vs OpenAI in Deutschland. Der EU AI Act fordert seit August 2025 Transparenz über Trainingsdaten-Quellen via Public Summary für GPAI-Modelle.

Welche Tools gibt es für Daten-Curation?

Datatrove (HuggingFace) für Web-Crawling und Filtering, Argilla für RLHF-Annotation, NeMo Curator (NVIDIA) für GPU-beschleunigte Dedup und Quality-Filter, fastText für Sprachfilter, MinHash und SimHash für Near-Duplicate-Detection, LM-eval-harness für Test-Set-Decontamination. Cleanlab hilft bei Label-Fehlern in Supervised-Datasets.

Wie verhindert man Bias in Trainingsdaten?

Wichtige Hebel sind ausgewogene Sampling-Strategien über Sprachen, Demografien und Themen, gezielte Source-Auswahl (raus aus Toxic-Subreddits), Toxicity-Klassifikatoren wie Detoxify oder Perspective API, RLHF und Constitutional AI gegen unerwünschte Outputs sowie Red-Teaming. Vollständige Bias-Freiheit ist unmöglich, aber systematische Curation reduziert Schäden deutlich.

// Verwandte Einträge

Brauchst du Hilfe mit Trainingsdaten?

Wir beraten dich gerne zu Einsatz, Integration und Strategie.

Kontakt aufnehmen