Question 1

What is Mixture-of-Experts?

Accepted Answer

Mixture-of-Experts (MoE) is an architecture principle for neural networks where a model consists of many specialized expert modules but only activates a small portion of them per request. A router network decides which experts are best suited for the respective task. This way, an MoE model achieves the quality of a very large model at significantly lower inference costs.

Question 2

Which models use MoE?

Accepted Answer

The best-known MoE models (as of March 2026) are DeepSeek V3 with 671 billion total parameters (37B active), Qwen3-235B with 235 billion parameters (22B active) and Llama 4 Maverick with 400 billion parameters. Google's Gemini architecture also uses MoE principles. These models compete with significantly more expensive dense models like GPT-5.2 and Claude Opus.

Question 3

What is the advantage of MoE over dense models?

Accepted Answer

Dense models like Claude Opus or GPT-5.2 activate all parameters for every request — this delivers maximum quality but is expensive. MoE models activate only 5-15% of their parameters per request, saving 60-80% of inference costs. The trade-off: MoE models require more memory (all parameters must be loaded) and are more complex to train, but offer a significantly better price-performance ratio.

Mixture-of-Experts (MoE)

// Description

// Use Cases

// Related Entries

Need help with Mixture-of-Experts (MoE)?