concept

GPT (Generative Pre-trained Transformer)

KI-Grundlagen

// Beschreibung

GPT steht für Generative Pre-trained Transformer und ist die Modellreihe von OpenAI, die ChatGPT antreibt. Die Architektur kombiniert vortrainiertes Sprachverständnis mit der Fähigkeit, kohärenten und kontextuellen Text zu generieren.

// Anwendungsbereiche

Textgenerierung
Sprachverständnis
Konversation
Aufgabenlösung

// Deep Dive

Definition und Kerncharakter

GPT steht für Generative Pre-trained Transformer und bezeichnet eine Familie großer Sprachmodelle von OpenAI, die seit 2018 die Entwicklung der modernen KI maßgeblich geprägt hat. Der Name beschreibt drei zentrale Eigenschaften: Generative — das Modell generiert Text, statt ihn nur zu klassifizieren. Pre-trained — es wird zuerst auf riesigen Textmengen vortrainiert und kann danach für viele Aufgaben angepasst werden. Transformer — die zugrundeliegende neuronale Architektur, vorgestellt 2017 von Google-Forschern.

GPT ist eine Decoder-Only-Architektur: Das Modell verarbeitet Tokens autoregressiv, also Schritt für Schritt von links nach rechts, und sagt jeweils das nächste Token voraus. Diese Architektur prägt heute fast alle führenden LLMs — auch Claude, Gemini und Llama folgen demselben Grundprinzip. GPT-Modelle treiben ChatGPT, die OpenAI-API und unzählige Drittanwendungen an. Mit der GPT-5-Generation (2025) hat OpenAI das Modell zu einem multimodalen Reasoning-System weiterentwickelt, das Text, Bilder, Audio und Video verarbeitet.

Wie funktioniert GPT technisch?

Technisch ist GPT ein neuronales Netz, das aus mehreren Dutzend bis Hunderten Transformer-Decoder-Blöcken besteht. Jeder Block kombiniert Masked Self-Attention (das Modell darf nur auf vorherige Tokens schauen, nie auf zukünftige) mit einem Feed-Forward-Netz. Diese Maskierung ist der Schlüssel zur autoregressiven Textgenerierung.

Der Input-Text wird zunächst in Tokens zerlegt (Byte-Pair Encoding, BPE) und in hochdimensionale Embeddings umgewandelt. Positionale Embeddings (RoPE, ALiBi in modernen Varianten) liefern die Reihenfolgeinformation. Durch die Self-Attention-Schichten lernt jedes Token, welche anderen Tokens für seine Bedeutung relevant sind.

Das Training erfolgt in mehreren Phasen: Pre-Training auf Billionen Tokens aus Internet-, Code- und Buchdaten, Supervised Fine-Tuning (SFT) mit kuratierten Instruktionen, und RLHF (Reinforcement Learning from Human Feedback), das Hilfsbereitschaft und Sicherheit kalibriert. Bei GPT-5 kam zusätzlich Reasoning-Training hinzu, das dem Modell beibringt, vor der Antwort einen expliziten Denkprozess (Chain-of-Thought) zu durchlaufen.

Geschichte und Evolution

GPT-1 (2018): 117 Mio. Parameter, Proof-of-Concept, dass Pre-Training auf unstrukturiertem Text funktioniert. GPT-2 (2019): 1,5 Mrd. Parameter — OpenAI hielt die Veröffentlichung zunächst zurück aus Angst vor Missbrauch. GPT-3 (2020): 175 Mrd. Parameter, das erste Modell mit echtem Few-Shot-Learning. Es löste die KI-Welle aus und führte zur Gründung zahlreicher KI-Startups.

GPT-3.5 (2022): Basis von ChatGPT, mit RLHF deutlich nutzerfreundlicher. GPT-4 (2023): Multimodal (Text + Bild), deutlich besseres Reasoning, Mixture-of-Experts (vermutet). GPT-4o (2024): Nativ multimodal mit Audio und Echtzeit-Sprache, deutlich günstiger. GPT-5 (2025): Unified Reasoning Model — kombiniert schnelle Antworten mit tiefem Reasoning, 1M Token Kontext, GPT Agent für autonome Aufgaben. Im Juni 2026 ist GPT-5 das Flaggschiff, ergänzt durch GPT-5-mini und GPT-5-nano für unterschiedliche Preispunkte.

Anwendungsfälle in der Praxis

GPT-Modelle werden in unzähligen Bereichen produktiv eingesetzt. Kundenservice: Chatbots für 24/7-Support in jeder Sprache. Unternehmen wie Klarna, Lufthansa und Telekom haben GPT-basierte Assistenten in der Hotline. Content-Marketing: Texte, Headlines, Newsletter, SEO-Optimierung — ein typischer Einstieg in der KI-Implementierung.

Softwareentwicklung: GitHub Copilot, Cursor und Codex laufen auf GPT-Modellen. Die GitHub-Copilot-Studie von 2023 maß bis zu 55 Prozent schnellere Entwicklungszeiten. Wissensmanagement: Interne Q&A-Systeme mit RAG beantworten Mitarbeiterfragen auf Basis firmeninterner Dokumente. Datenextraktion: Verträge, Rechnungen, E-Mails strukturiert auslesen — ein Quick-Win mit messbarem ROI.

Bildung: Personalisierte Tutoren wie Khan Academys Khanmigo nutzen GPT-4. Healthcare: Klinische Notizen, Anamnese-Vorbereitung und Patientenkommunikation — meist mit zusätzlicher Compliance-Schicht. KI-Agenten: Mit dem GPT Agent Mode und Funktions-Calling können GPT-Modelle Tools nutzen, Browser steuern und mehrstufige Aufgaben autonom lösen. Mehr dazu auf unserer KI-Agenten-Seite.

Vor- und Nachteile

Vorteile: GPT hat das mit Abstand größte Ökosystem — Plugins, GPT Store, Assistants API, Funktions-Calling, multimodale Verarbeitung. Die API ist ausgereift, Dokumentation und Community sind exzellent. GPT-5 ist multimodal mit Text, Bild, Audio und Video, was viele Spezialmodelle überflüssig macht. Hohe Verfügbarkeit, robuste SLAs und Enterprise-Optionen (Azure OpenAI Service) machen GPT für Unternehmen attraktiv.

Nachteile: GPT ist Closed Source — kein On-Premise-Hosting, kein Einblick in Trainingsdaten. Die Kosten skalieren stark mit Token-Volumen, was bei Hochvolumen-Anwendungen schmerzhaft sein kann. Halluzinationen treten weiterhin auf, vor allem bei wenig dokumentierten Themen. Datenschutz ist heikel — Daten gehen an OpenAI (oder Microsoft via Azure). Für DSGVO-kritische Use-Cases sind Open-Source-Alternativen wie Llama 4 oder Mistral oft besser geeignet. Knowledge-Cutoffs (typisch April 2025 für GPT-5) erfordern RAG für aktuelle Informationen.

OpenAI-Modellfamilie und Preise (Stand 2026)

Die Modellfamilie 2026: GPT-5 (Flaggschiff, 1M Token, ca. 10/30 USD pro 1M In/Out), GPT-5-mini (schneller, günstiger, 0,30/1,20 USD), GPT-5-nano (Ultra-Speed für Klassifikation, 0,05/0,40 USD). Daneben: o3 und o4 (Reasoning-Modelle mit explizitem Chain-of-Thought), DALL-E 4 für Bildgenerierung, Sora 2 für Video und Whisper v3 für Speech-to-Text. Über die KI-Beratung empfehlen wir typisch GPT-5 für komplexe Aufgaben, GPT-5-mini als Workhorse und GPT-5-nano für Routing und Klassifikation.

// Häufige Fragen

Was ist GPT (Generative Pre-trained Transformer)?

Welche GPT-Versionen gibt es?

Die GPT-Reihe umfasst GPT-1 (2018), GPT-2 (2019), GPT-3 (2020), GPT-3.5 (Basis von ChatGPT, 2022), GPT-4 (2023), GPT-4o (multimodal, 2024) und GPT-5 (2025, aktuelles Flaggschiff).

Was ist der Unterschied zwischen GPT und ChatGPT?

GPT bezeichnet die Modellarchitektur und die zugrundeliegende KI. ChatGPT ist das Produkt von OpenAI, das auf GPT-Modellen aufbaut und um ein Chat-Interface, RLHF-Training und Sicherheits-Features ergänzt wurde.

Was kostet die GPT-API 2026?

GPT-5 kostet ca. 10 USD pro 1M Input-Token und 30 USD pro 1M Output-Token. GPT-4o liegt bei 2,50/10 USD, GPT-4o-mini bei 0,15/0,60 USD. Prompt Caching kann die Input-Kosten um 50–90 Prozent senken.

Wie unterscheidet sich GPT von BERT?

GPT ist eine Decoder-Only-Architektur und auf Textgenerierung optimiert. BERT (Google, 2018) ist Encoder-Only und auf Sprachverständnis (Klassifikation, Q&A) ausgelegt. GPT generiert Token autoregressiv von links nach rechts, BERT verarbeitet bidirektional.

Gibt es Open-Source-Alternativen zu GPT?

Ja, viele GPT-ähnliche Modelle sind Open Source: Llama 4 (Meta), Mistral, Falcon, Qwen, DeepSeek V3 und Gemma (Google). Sie nutzen die gleiche Decoder-Only-Transformer-Architektur und sind kommerziell nutzbar.

// Verwandte Einträge

Brauchst du Hilfe mit GPT (Generative Pre-trained Transformer)?

Wir beraten dich gerne zu Einsatz, Integration und Strategie.

Kontakt aufnehmen