英伟达在开源模型领域的探索可谓激进:
最新发布的“最高效开放模型家族”Nemotron 3,集成了Mamba-Transformer和MoE架构,并全面应用了NVFP4低精度训练技术。
其开源策略也极为彻底:
Nemotron 3不仅公开了模型权重,还将超过10万亿token的训练数据、预训练及后训练软件、训练配方等全部对外开放。
相较于其他开源模型,Nemotron 3在性能上极具竞争力,速度快了1.5至3.3倍。
Nemotron 3在架构设计上追求推理效率的最大化。
传统Transformer的自注意力机制对不断增长的KV Cache进行线性扫描,序列越长,计算开销越大。
英伟达通过大量使用Mamba-2层替代自注意力层,解决了这一问题——Mamba层在生成时仅需存储固定大小的状态,不受序列长度影响。
以Nano型号为例,整个模型由交替堆叠的Mamba-2层和MoE层构成,自注意力层仅保留少数几个。
论文中给出的层排布模式为:5个Mamba-2+MoE的重复单元,接3个同样结构的单元,再添上1个包含注意力层的单元,最后是4个Mamba-2+MoE单元。
在8k输入、16k输出的典型推理场景下,Nemotron 3 Nano 30B-A3B的吞吐量是Qwen3-30B-A3B的3.3倍。序列越长,优势越明显。
尽管追求高效推理,Nemotron 3在长上下文任务上的表现并未打折扣。
论文展示了一组RULER基准测试的结果:在100万token输入长度下,Nemotron 3 Nano基座模型得分68.2,而同样条件下训练的Nemotron 2 Nano 12B仅得23.43分,表现断崖式下跌。MoE混合架构在长度外推上的鲁棒性明显更强。
针对Super和Ultra这两个更大的模型,英伟达提出了LatentMoE架构,在潜在空间中进行专家计算。
MoE层在实际部署时面临两类瓶颈:
低延迟场景下,每次仅处理几十到几百个token,此时从显存读取专家权重成为主要开销。
高吞吐场景下,一次处理数千token,此时专家间的all-to-all通信成为瓶颈。两种情况下,开销均与隐藏维度d线性相关。
LatentMoE的做法是:先将token从原始隐藏维度d投影到更小的潜在维度ℓ(通常是d的四分之一),在低维空间完成专家路由和计算,再投影回原始维度。
这样每个专家的权重加载量和通信量均降低了d/ℓ倍。节省的计算预算用于增加专家数量和每个token激活的专家数。
标准MoE用128个专家、激活6个;LatentMoE用512个专家、激活22个。
两者总参数量和激活参数量几乎相同(均为8B激活、73B总参),但LatentMoE在所有下游任务上表现更佳——MMLU-Pro从48.3提升到52.87,代码任务从51.95提升到55.14,数学任务从78.32提升到80.19。
Super和Ultra还采用NVFP4格式进行训练,这是英伟达在低精度训练上的新探索。
NVFP4是一种4位浮点格式,采用E2M1的元素格式(2位指数、1位尾数),配合16元素的微块缩放和E4M3格式的块缩放因子。在GB300上,FP4的峰值吞吐量是FP8的3倍。
论文显示,团队已用NVFP4格式稳定训练高达25万亿token。与BF16训练相比,Nano模型的损失差距控制在1%以内,8B激活参数的更大模型差距进一步缩小至0.6%以内。
Nemotron 3的后训练采用多环境强化学习,覆盖数学推理、竞赛编程、指令遵循、软件工程、搜索、对话、通用工具使用、长上下文等多种任务。
与之前分阶段训练不同能力的做法不同,英伟达选择同时训练所有任务。
论文指出,这种同步训练方式更稳定,更不易出现reward hacking,也避免了分阶段训练常见的能力退化问题。
本文由主机测评网于2026-06-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260647075.html