当前位置：首页 > 科技资讯 > 正文

英伟达Nemotron 3：开源模型中的性能革命

主机测评网
科技资讯
2026-06-02
565

英伟达在开源模型领域的探索可谓激进：

最新发布的“最高效开放模型家族”Nemotron 3，集成了Mamba-Transformer和MoE架构，并全面应用了NVFP4低精度训练技术。

英伟达Nemotron 3：开源模型中的性能革命 Nemotron 3 开源模型 Mamba-Transformer 低精度训练第1张

其开源策略也极为彻底：

Nemotron 3不仅公开了模型权重，还将超过10万亿token的训练数据、预训练及后训练软件、训练配方等全部对外开放。

英伟达Nemotron 3：开源模型中的性能革命 Nemotron 3 开源模型 Mamba-Transformer 低精度训练第2张

相较于其他开源模型，Nemotron 3在性能上极具竞争力，速度快了1.5至3.3倍。

英伟达Nemotron 3：开源模型中的性能革命 Nemotron 3 开源模型 Mamba-Transformer 低精度训练第3张

Mamba与Transformer的混合创新

Nemotron 3在架构设计上追求推理效率的最大化。

传统Transformer的自注意力机制对不断增长的KV Cache进行线性扫描，序列越长，计算开销越大。

英伟达通过大量使用Mamba-2层替代自注意力层，解决了这一问题——Mamba层在生成时仅需存储固定大小的状态，不受序列长度影响。

以Nano型号为例，整个模型由交替堆叠的Mamba-2层和MoE层构成，自注意力层仅保留少数几个。

论文中给出的层排布模式为：5个Mamba-2+MoE的重复单元，接3个同样结构的单元，再添上1个包含注意力层的单元，最后是4个Mamba-2+MoE单元。

英伟达Nemotron 3：开源模型中的性能革命 Nemotron 3 开源模型 Mamba-Transformer 低精度训练第4张

在8k输入、16k输出的典型推理场景下，Nemotron 3 Nano 30B-A3B的吞吐量是Qwen3-30B-A3B的3.3倍。序列越长，优势越明显。

英伟达Nemotron 3：开源模型中的性能革命 Nemotron 3 开源模型 Mamba-Transformer 低精度训练第5张

尽管追求高效推理，Nemotron 3在长上下文任务上的表现并未打折扣。

论文展示了一组RULER基准测试的结果：在100万token输入长度下，Nemotron 3 Nano基座模型得分68.2，而同样条件下训练的Nemotron 2 Nano 12B仅得23.43分，表现断崖式下跌。MoE混合架构在长度外推上的鲁棒性明显更强。

LatentMoE：潜空间中的专家路由

针对Super和Ultra这两个更大的模型，英伟达提出了LatentMoE架构，在潜在空间中进行专家计算。

MoE层在实际部署时面临两类瓶颈：

低延迟场景下，每次仅处理几十到几百个token，此时从显存读取专家权重成为主要开销。

高吞吐场景下，一次处理数千token，此时专家间的all-to-all通信成为瓶颈。两种情况下，开销均与隐藏维度d线性相关。

LatentMoE的做法是：先将token从原始隐藏维度d投影到更小的潜在维度ℓ（通常是d的四分之一），在低维空间完成专家路由和计算，再投影回原始维度。

这样每个专家的权重加载量和通信量均降低了d/ℓ倍。节省的计算预算用于增加专家数量和每个token激活的专家数。

英伟达Nemotron 3：开源模型中的性能革命 Nemotron 3 开源模型 Mamba-Transformer 低精度训练第6张

标准MoE用128个专家、激活6个；LatentMoE用512个专家、激活22个。

两者总参数量和激活参数量几乎相同（均为8B激活、73B总参），但LatentMoE在所有下游任务上表现更佳——MMLU-Pro从48.3提升到52.87，代码任务从51.95提升到55.14，数学任务从78.32提升到80.19。

英伟达Nemotron 3：开源模型中的性能革命 Nemotron 3 开源模型 Mamba-Transformer 低精度训练第7张

用NVFP4训练海量数据

Super和Ultra还采用NVFP4格式进行训练，这是英伟达在低精度训练上的新探索。

NVFP4是一种4位浮点格式，采用E2M1的元素格式（2位指数、1位尾数），配合16元素的微块缩放和E4M3格式的块缩放因子。在GB300上，FP4的峰值吞吐量是FP8的3倍。

论文显示，团队已用NVFP4格式稳定训练高达25万亿token。与BF16训练相比，Nano模型的损失差距控制在1%以内，8B激活参数的更大模型差距进一步缩小至0.6%以内。

英伟达Nemotron 3：开源模型中的性能革命 Nemotron 3 开源模型 Mamba-Transformer 低精度训练第8张

多环境强化学习：全面训练

Nemotron 3的后训练采用多环境强化学习，覆盖数学推理、竞赛编程、指令遵循、软件工程、搜索、对话、通用工具使用、长上下文等多种任务。

与之前分阶段训练不同能力的做法不同，英伟达选择同时训练所有任务。

论文指出，这种同步训练方式更稳定，更不易出现reward hacking，也避免了分阶段训练常见的能力退化问题。

英伟达Nemotron 3：开源模型中的性能革命 Nemotron 3 开源模型 Mamba-Transformer 低精度训练第9张

性价比服务器高防服务器性价比vps

本文由主机测评网于2026-06-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260647075.html

英伟达Nemotron 3：开源模型中的性能革命

Mamba与Transformer的混合创新

LatentMoE：潜空间中的专家路由

用NVFP4训练海量数据

多环境强化学习：全面训练

2025科技前沿：量子飞跃与材料革新重塑世界

AI实习高薪时代：顶尖实习生薪资直追全职研究员

英伟达Nemotron 3：开源模型中的性能革命

Mamba与Transformer的混合创新

LatentMoE：潜空间中的专家路由

用NVFP4训练海量数据

多环境强化学习：全面训练

2025科技前沿：量子飞跃与材料革新重塑世界

AI实习高薪时代：顶尖实习生薪资直追全职研究员

相关文章