当前位置：首页 > 科技资讯 > 正文

Qwen3-Next模型架构革新发布：训练成本降90%，推理吞吐增十倍！

主机测评网
科技资讯
2025-12-31
471

通义千问下一代模型架构，现已抢先震撼发布！

Qwen3-Next正式亮相，团队负责人林俊旸透露，这正是Qwen3.5的抢先预览版本。

Qwen3-Next模型架构革新发布：训练成本降90%，推理吞吐增十倍！ Qwen3-Next 混合注意力机制 MoE架构多token预测第1张

基于Qwen3-Next架构，团队率先开源了Qwen3-Next-80B-A3B-Base模型。

该模型参数达800亿，但训练成本不足Qwen3-32B的十分之一，且在32k以上上下文推理吞吐能力可达后者的十倍以上。

Qwen3-Next模型架构革新发布：训练成本降90%，推理吞吐增十倍！ Qwen3-Next 混合注意力机制 MoE架构多token预测第2张

依托这一基础模型，团队迅速行动，同步开发并推出了两大新模型：

Qwen3-Next-80B-A3B-Instruct：在256K超长上下文处理任务中表现卓越。

Qwen3-Next-80B-A3B-Thinking：在多项基准测试中超越了闭源模型Gemini-2.5-Flash-Thinking。

网友惊叹，这更新速度令人目不暇接。

Qwen3-Next模型架构革新发布：训练成本降90%，推理吞吐增十倍！ Qwen3-Next 混合注意力机制 MoE架构多token预测第3张

话不多说，让我们立即探究新模型的核心改进。

四大关键升级

Qwen3-Next的核心升级涵盖四个方面：

混合注意力机制
高稀疏度MoE结构
稳定性优化
多token预测机制

混合注意力机制

线性注意力在长上下文处理中效率高，但召回能力有限；标准注意力计算开销大、推理效率低，两者单独使用均有局限。

为此，Qwen团队引入Gated DeltaNet，其在上下文学习能力上优于常用的滑动窗口注意力和Mamba2。采用3:1的混合策略（75%层使用Gated DeltaNet，25%层保留标准注意力），实现了性能与效率的平衡。

同时，在保留的标准注意力层中，团队进一步整合了多项优化设计：

1、延续输出门控机制，以缓解注意力中的低秩问题；

2、将单个注意力头的维度从128扩展至256；

3、仅对注意力头前25%的维度加入旋转位置编码，增强长序列外推能力。

Qwen3-Next模型架构革新发布：训练成本降90%，推理吞吐增十倍！ Qwen3-Next 混合注意力机制 MoE架构多token预测第4张

高稀疏度MoE结构

Qwen3-Next采用高稀疏度MoE架构，总参数量800亿，但每次推理仅激活约30亿参数。

相比Qwen3-MoE的128个总专家和8个路由专家，Qwen3-Next扩展到512个总专家，采用10路由专家加1共享专家的组合设计，在保证性能的同时最大化资源利用率。

训练稳定性优化

在Qwen3-Next中，团队通过Zero-Centered RMSNorm提升模型稳定性，并对norm weight施加weight decay，避免权重无界增长。

此外，初始化时归一化了MoE router的参数，确保每个expert在训练早期都能被无偏选中，减少初始化对实验结果的扰动。

多token预测机制

Qwen3-Next引入了原生Multi-Token Prediction（MTP）机制，不仅获得了Speculative Decoding接受率较高的MTP模块，还提升了模型主干的整体性能。

同时，对MTP的多步推理进行了专项优化，通过训练推理一致的多步策略，进一步提高实际应用场景下Speculative Decoding的接受率。

速度提升十倍，成本降低十倍

接下来，让我们审视新模型的实际表现。

首先，Qwen3-Next使用了Qwen3 36T预训练语料的均匀采样子集，仅包含15T tokens。

Qwen3-Next模型架构革新发布：训练成本降90%，推理吞吐增十倍！ Qwen3-Next 混合注意力机制 MoE架构多token预测第5张

其训练所需的GPU Hours不到Qwen3-30A-3B的80%，相比Qwen3-32B，仅需9.3%的GPU计算资源就能获得更优性能。

不仅如此，得益于创新的混合模型架构，Qwen3-Next在推理效率上同样出色。

与Qwen3-32B相比，Qwen3-Next-80B-A3B在预填充（prefill）阶段就展现出卓越的吞吐能力：

在4k tokens上下文长度下，吞吐量接近前者的7倍；当上下文长度超过32k时，吞吐提升达到10倍以上。

Qwen3-Next模型架构革新发布：训练成本降90%，推理吞吐增十倍！ Qwen3-Next 混合注意力机制 MoE架构多token预测第6张

在解码（decode）阶段，该模型同样高效。4k上下文吞吐量提升约4倍，长上下文（32k+）场景中仍可保持超过10倍的吞吐优势。

Qwen3-Next模型架构革新发布：训练成本降90%，推理吞吐增十倍！ Qwen3-Next 混合注意力机制 MoE架构多token预测第7张

基于Qwen3-Next，团队首先训练了Qwen3-Next-80B-A3B-Base模型。

该模型仅使用十分之一的Non-Embedding激活参数，已在大多数基准测试中超越Qwen3-32B-Base，并显著优于Qwen3-30B-A3B，展现出卓越的效率与性能优势。

Qwen3-Next模型架构革新发布：训练成本降90%，推理吞吐增十倍！ Qwen3-Next 混合注意力机制 MoE架构多token预测第8张

基于Qwen3-Next-80B-A3B-Base的优异表现，团队进一步开发并发布了Qwen3-Next-80B-A3B-Instruct与Qwen3-Next-80B-A3B-Thinking。

Qwen3-Next-80B-A3B-Instruct

首先，Qwen3-Next-80B-A3B-Instruct的表现显著优于Qwen3-30B-A3B-Instruct-2507和Qwen3-32B-Non-thinking，并在多数指标上接近Qwen3-235B-A22B-Instruct-2507。

Qwen3-Next模型架构革新发布：训练成本降90%，推理吞吐增十倍！ Qwen3-Next 混合注意力机制 MoE架构多token预测第9张

此外，在RULER测试中，无论上下文长度如何，Qwen3-Next-80B-A3B-Instruct的表现均超过了层数相同但注意力层更多的Qwen3-30B-A3B-Instruct-2507。

Qwen3-Next模型架构革新发布：训练成本降90%，推理吞吐增十倍！ Qwen3-Next 混合注意力机制 MoE架构多token预测第10张

甚至在256k范围内也优于层数更多的Qwen3-235B-A22B-Instruct-2507，充分体现了Gated DeltaNet与Gated Attention混合模型在长文本处理场景下的优势。

Qwen3-Next-80B-A3B-Thinking

再来看Qwen3-Next-80B-A3B-Thinking，其表现同样亮眼。

在多项基准测试中都超越了闭源模型Gemini-2.5-Flash-Thinking，并在部分指标上接近Qwen最新的旗舰模型Qwen3-235B-A22B-Thinking-2507。

Qwen3-Next模型架构革新发布：训练成本降90%，推理吞吐增十倍！ Qwen3-Next 混合注意力机制 MoE架构多token预测第11张

推理能力令人惊艳

接下来让我们实测Qwen3-Next-80B-A3B的推理能力。

使用Qwen Chat网页，直接抛出一道AIME数学竞赛题挑战：

Qwen3-Next模型架构革新发布：训练成本降90%，推理吞吐增十倍！ Qwen3-Next 混合注意力机制 MoE架构多token预测第12张

由于Qwen3-Next-80B-A3B支持多模态，我们可以直接上传图片。

Qwen3-Next模型架构革新发布：训练成本降90%，推理吞吐增十倍！ Qwen3-Next 混合注意力机制 MoE架构多token预测第13张

几乎瞬间，模型开始飞速列出详细解题思路和计算过程，最终得到答案“588”，与AIME标准答案完全一致。

Qwen3-Next模型架构革新发布：训练成本降90%，推理吞吐增十倍！ Qwen3-Next 混合注意力机制 MoE架构多token预测第14张

小试牛刀后，进入编程环节。

用p5js创建一个可直接玩的扫雷游戏。

代码成功运行后，简单试玩，流畅度尚可（doge）。

只是谁能解释为何游戏背景是大红色，且没有网格线？？？

Qwen3-Next模型架构革新发布：训练成本降90%，推理吞吐增十倍！ Qwen3-Next 混合注意力机制 MoE架构多token预测第15张

还有网友奇思妙想，用它生成了天气卡片。

Qwen3-Next模型架构革新发布：训练成本降90%，推理吞吐增十倍！ Qwen3-Next 混合注意力机制 MoE架构多token预测第16张

不过，看到更新时，网友在欣喜之余仍忍不住吐槽：

名字实在太复杂了。

Qwen3-Next模型架构革新发布：训练成本降90%，推理吞吐增十倍！ Qwen3-Next 混合注意力机制 MoE架构多token预测第17张

参考链接：

[1]https://x.com/Alibaba_Qwen/status/1966197643904000262

[2]https://x.com/JustinLin610/status/1966199996728156167

[3]https://mp.weixin.qq.com/s/STsWFuEkaoUa8J8v_uDhag?scene=1

阿里云服务器性价比服务器服务器教程

本文由主机测评网于2025-12-31发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20251214056.html

Qwen3-Next模型架构革新发布：训练成本降90%，推理吞吐增十倍！