Question 1

Was ist Mixture-of-Experts?

Accepted Answer

Mixture-of-Experts (MoE) ist ein Architekturprinzip für neuronale Netzwerke, bei dem ein Modell aus vielen spezialisierten Experten-Modulen besteht, aber pro Anfrage nur einen kleinen Teil davon aktiviert. Ein Router-Netzwerk entscheidet, welche Experten für die jeweilige Aufgabe am besten geeignet sind. So erreicht ein MoE-Modell die Qualität eines sehr großen Modells bei deutlich geringeren Inferenzkosten.

Question 2

Welche Modelle nutzen MoE?

Accepted Answer

Die bekanntesten MoE-Modelle (Stand März 2026) sind DeepSeek V3 mit 671 Milliarden Gesamtparametern (37B aktiv), Qwen3-235B mit 235 Milliarden Parametern (22B aktiv) und Llama 4 Maverick mit 400 Milliarden Parametern. Auch Googles Gemini-Architektur nutzt MoE-Prinzipien. Diese Modelle konkurrieren mit deutlich teureren Dense Models wie GPT-5.2 und Claude Opus.

Question 3

Was ist der Vorteil von MoE gegenüber Dense Models?

Accepted Answer

Dense Models wie Claude Opus oder GPT-5.2 aktivieren bei jeder Anfrage alle Parameter — das liefert maximale Qualität, ist aber teuer. MoE-Modelle aktivieren nur 5-15% ihrer Parameter pro Anfrage und sparen so 60-80% der Inferenzkosten. Der Trade-off: MoE-Modelle brauchen mehr Speicher (alle Parameter müssen geladen sein) und sind komplexer beim Training, bieten aber ein deutlich besseres Preis-Leistungs-Verhältnis.

Mixture-of-Experts (MoE)

// Beschreibung

// Anwendungsbereiche

// Verwandte Einträge

Brauchst du Hilfe mit Mixture-of-Experts (MoE)?