Qwen3-Next震撼发布：性能与效率的双重飞跃

主机测评网
科技资讯
2026-04-29
675

Qwen下一代模型架构，即将来袭！

Qwen3-Next正式发布，Qwen团队负责人林俊旸表示，这不仅是Qwen3.5的抢先预览版。

Qwen3-Next震撼发布：性能与效率的双重飞跃 Qwen3-Next 模型架构性能优化效率提升第1张

基于Qwen3-Next，团队率先开源了Qwen3-Next-80B-A3B-Base。

模型参数为80B，但训练成本却不到Qwen3-32B的十分之一，在32k以上的上下文推理吞吐更是能达到后者的十倍以上。

Qwen3-Next震撼发布：性能与效率的双重飞跃 Qwen3-Next 模型架构性能优化效率提升第2张

基于此模型，团队相继推出并发布了两个新模型：

Qwen3-Next-80B-A3B-Instruct：在256K超长上下文处理任务中表现卓越。

Qwen3-Next-80B-A3B-Thinking：在多项基准测试中超越闭源模型Gemini-2.5-Flash-Thinking。

网友纷纷表示，这更新频率实在令人惊叹。

Qwen3-Next震撼发布：性能与效率的双重飞跃 Qwen3-Next 模型架构性能优化效率提升第3张

话不多说，让我们来看看新模型究竟有哪些改进吧。

四大核心改进

Qwen3-Next的改进主要集中在以下四个方面：

混合注意力机制
高稀疏度MoE结构
稳定性优化
多token预测机制

混合注意力机制

线性注意力在处理长上下文时效率很高，但召回能力有限；而标准注意力计算开销大、推理效率低。单独使用均有局限。为此，Qwen团队引入了Gated DeltaNet，其在上下文学习能力上优于常用的滑动窗口注意力和Mamba2。采用3:1的混合策略（75%层使用Gated DeltaNet，25%层保留标准注意力）时，兼顾了性能与效率。同时，在保留的标准注意力层中，他们还引入多项优化设计，包括延续先前工作的输出门控机制、将单个注意力头的维度从128扩展至256、仅对注意力头前25%的维度加入旋转位置编码等。

高稀疏度MoE结构

Qwen3-Next采用高稀疏度的MoE架构，总参数量达800亿，但每次推理仅激活约30亿参数。相比Qwen3-MoE的128个总专家和8个路由专家，Qwen3-Next扩展到512个总专家，并采用10路由专家加1共享专家的组合设计，在保证性能的前提下最大化资源利用率。

训练稳定性优化

为进一步提高模型稳定性，Qwen3-Next采用了Zero-Centered RMSNorm，并在基础上对norm weight施加weight decay，以避免权重无界增长。此外，他们还在初始化时归一化了MoE router的参数，确保每个expert在训练早期都能被无偏地选中，减小初始化对实验结果的扰动。

多token预测机制

Qwen3-Next引入了原生Multi-Token Prediction（MTP）机制，不仅获得了Speculative Decoding接受率较高的MTP模块，还提升了模型主干的整体性能。此外，还对MTP的多步推理进行了专项优化，通过训练推理一致的多步策略，进一步提高在实际应用场景下Speculative Decoding的接受率。