当前位置:首页 > 科技资讯 > 正文

Qwen3-Next震撼发布:性能与效率的双重飞跃

Qwen下一代模型架构,即将来袭!

Qwen3-Next正式发布,Qwen团队负责人林俊旸表示,这不仅是Qwen3.5的抢先预览版

Qwen3-Next震撼发布:性能与效率的双重飞跃 Qwen3-Next 模型架构 性能优化 效率提升 第1张

基于Qwen3-Next,团队率先开源了Qwen3-Next-80B-A3B-Base。

模型参数为80B,但训练成本却不到Qwen3-32B的十分之一,在32k以上的上下文推理吞吐更是能达到后者的十倍以上

Qwen3-Next震撼发布:性能与效率的双重飞跃 Qwen3-Next 模型架构 性能优化 效率提升 第2张

基于此模型,团队相继推出并发布了两个新模型:

Qwen3-Next-80B-A3B-Instruct:在256K超长上下文处理任务中表现卓越。

Qwen3-Next-80B-A3B-Thinking:在多项基准测试中超越闭源模型Gemini-2.5-Flash-Thinking。

网友纷纷表示,这更新频率实在令人惊叹。

Qwen3-Next震撼发布:性能与效率的双重飞跃 Qwen3-Next 模型架构 性能优化 效率提升 第3张

话不多说,让我们来看看新模型究竟有哪些改进吧。

四大核心改进

Qwen3-Next的改进主要集中在以下四个方面:

  • 混合注意力机制
  • 高稀疏度MoE结构
  • 稳定性优化
  • 多token预测机制

混合注意力机制

线性注意力在处理长上下文时效率很高,但召回能力有限;而标准注意力计算开销大、推理效率低。单独使用均有局限。为此,Qwen团队引入了Gated DeltaNet,其在上下文学习能力上优于常用的滑动窗口注意力和Mamba2。采用3:1的混合策略(75%层使用Gated DeltaNet,25%层保留标准注意力)时,兼顾了性能与效率。同时,在保留的标准注意力层中,他们还引入多项优化设计,包括延续先前工作的输出门控机制、将单个注意力头的维度从128扩展至256、仅对注意力头前25%的维度加入旋转位置编码等。

高稀疏度MoE结构

Qwen3-Next采用高稀疏度的MoE架构,总参数量达800亿,但每次推理仅激活约30亿参数。相比Qwen3-MoE的128个总专家和8个路由专家,Qwen3-Next扩展到512个总专家,并采用10路由专家加1共享专家的组合设计,在保证性能的前提下最大化资源利用率。

训练稳定性优化

为进一步提高模型稳定性,Qwen3-Next采用了Zero-Centered RMSNorm,并在基础上对norm weight施加weight decay,以避免权重无界增长。此外,他们还在初始化时归一化了MoE router的参数,确保每个expert在训练早期都能被无偏地选中,减小初始化对实验结果的扰动。

多token预测机制

Qwen3-Next引入了原生Multi-Token Prediction(MTP)机制,不仅获得了Speculative Decoding接受率较高的MTP模块,还提升了模型主干的整体性能。此外,还对MTP的多步推理进行了专项优化,通过训练推理一致的多步策略,进一步提高在实际应用场景下Speculative Decoding的接受率。

快10倍,但成本却降低10倍

接下来,我们一起来看看新模型的表现如何。

首先,Qwen3-Next使用了Qwen3 36T预训练语料的均匀采样子集,仅包含15T tokens。

Qwen3-Next震撼发布:性能与效率的双重飞跃 Qwen3-Next 模型架构 性能优化 效率提升 第4张

其训练所需的GPU Hours不到Qwen3-30A-3B的80%,相比Qwen3-32B,仅需9.3%的GPU计算资源就能取得更优性能。

不仅如此,得益于创新的混合模型架构,Qwen3-Next在推理效率上也表现突出。与Qwen3-32B相比,Qwen3-Next-80B-A3B在预填充阶段就展现出卓越的吞吐能力:在4k tokens的上下文长度下,吞吐量接近前者的7倍;当上下文长度超过32k时,吞吐提升更是达到10倍以上。

优异表现令人瞩目

基于Qwen3-Next的优异表现,团队进一步开发并发布了Qwen3-Next-80B-A3B-InstructQwen3-Next-80B-A3B-Thinking.

... (中间部分省略)...

实测效果惊艳

接下来让我们实测一下Qwen3-Next的推理能力。

... (中间部分省略)...