当前位置：首页 > 科技资讯 > 正文

英伟达Nemotron 3：混合架构与低精度训练引领开源模型新纪元

主机测评网
科技资讯
2026-03-11
497

英伟达在开源模型领域的布局愈发激进：

全新推出的Nemotron 3系列被誉为“最高效的开放模型家族”，其创新性地融合了Mamba-Transformer混合架构与MoE设计，并率先采用NVFP4低精度训练技术，全面提升了模型性能与推理效率。

英伟达Nemotron 3：混合架构与低精度训练引领开源模型新纪元 Nemotron 3 Mamba-Transformer MoE NVFP4 第1张

此次开源力度空前：

不仅开放了模型权重，还计划将超过10万亿token的训练数据、完整的预训练与后训练软件栈以及训练配方全部公之于众。

英伟达Nemotron 3：混合架构与低精度训练引领开源模型新纪元 Nemotron 3 Mamba-Transformer MoE NVFP4 第2张

与其他开源模型相比，Nemotron 3在保持性能竞争力的同时，推理速度提升了1.5至3.3倍。

英伟达Nemotron 3：混合架构与低精度训练引领开源模型新纪元 Nemotron 3 Mamba-Transformer MoE NVFP4 第3张

Mamba与Transformer的深度融合

Nemotron 3在架构设计上极致追求推理效率。

传统Transformer的自注意力机制需要对不断膨胀的KV Cache进行线性扫描，序列长度越长，计算开销越大。

英伟达的解决方案是大规模采用Mamba-2层替代自注意力层——Mamba层在生成时仅需存储固定大小的状态，不受序列长度影响。

以Nano型号为例，整个模型主要由交替堆叠的Mamba-2层和MoE层构成，仅保留了少数几个自注意力层。

论文披露的层排布模式为：5个Mamba-2+MoE重复单元，接3个相同结构的单元，再接入1个包含注意力层的单元，最后以4个Mamba-2+MoE单元收尾。

英伟达Nemotron 3：混合架构与低精度训练引领开源模型新纪元 Nemotron 3 Mamba-Transformer MoE NVFP4 第4张

在8k输入、16k输出的典型推理场景下，Nemotron 3 Nano 30B-A3B的吞吐量达到Qwen3-30B-A3B的3.3倍，且序列越长优势越显著。

英伟达Nemotron 3：混合架构与低精度训练引领开源模型新纪元 Nemotron 3 Mamba-Transformer MoE NVFP4 第5张

与此同时，模型在长上下文任务上的表现并未妥协。

论文展示了RULER基准测试的结果：在100万token输入长度下，Nemotron 3 Nano基座模型取得68.2分，而同样条件下训练的Nemotron 2 Nano 12B仅获23.43分，出现断崖式下跌。MoE混合架构在长度外推上的鲁棒性显著更优。

LatentMoE：在潜空间优化专家路由

针对Super和Ultra这两个更大体量的模型，英伟达提出了LatentMoE架构，在潜在空间中进行专家计算。

MoE层在实际部署中常面临两类瓶颈：

低延迟场景下，每次仅处理几十到几百个token，此时从显存读取专家权重成为主要开销。

高吞吐场景下，一次处理数千token，专家间的all-to-all通信则成为瓶颈。两种情况下，开销都与隐藏维度d线性相关。

LatentMoE的核心思路是：先将token从原始隐藏维度d投影到更小的潜在维度ℓ（通常为d的四分之一），在此低维空间完成专家路由和计算，最后再投影回原始维度。

如此一来，每个专家的权重加载量和通信量均降低d/ℓ倍。节省的计算预算被用于增加专家数量和每个token激活的专家数。

英伟达Nemotron 3：混合架构与低精度训练引领开源模型新纪元 Nemotron 3 Mamba-Transformer MoE NVFP4 第6张

标准MoE采用128个专家、激活6个；LatentMoE则使用512个专家、激活22个。

两者的总参数量和激活参数量基本相同（均为8B激活、73B总参），但LatentMoE在所有下游任务上均取得更优成绩——MMLU-Pro从48.30提升至52.87，代码任务从51.95提升至55.14，数学任务从78.32提升至80.19。

英伟达Nemotron 3：混合架构与低精度训练引领开源模型新纪元 Nemotron 3 Mamba-Transformer MoE NVFP4 第7张

需要指出的是，路由门控网络、共享专家计算以及非专家层仍保留在原始维度，因为这些部分对瓶颈的贡献微乎其微。

NVFP4助力250亿token高效训练

Super和Ultra还采用了NVFP4格式进行训练，这是英伟达在低精度训练领域的又一次突破。

NVFP4是一种4位浮点格式，采用E2M1的元素格式（2位指数、1位尾数），配合16元素的微块缩放和E4M3格式的块缩放因子。在GB300上，FP4的峰值吞吐量是FP8的3倍。

论文显示，团队已利用NVFP4格式稳定训练了高达25万亿token。与BF16训练相比，Nano模型的损失差距控制在1%以内，8B激活参数的更大模型差距进一步缩至0.6%以内。

英伟达Nemotron 3：混合架构与低精度训练引领开源模型新纪元 Nemotron 3 Mamba-Transformer MoE NVFP4 第8张

在MMLU、GSM8K、HumanEval等下游任务上，NVFP4训练的模型与BF16版本的准确率曲线几乎完全重合。

英伟达Nemotron 3：混合架构与低精度训练引领开源模型新纪元 Nemotron 3 Mamba-Transformer MoE NVFP4 第9张

不过并非所有层都适合量化至NVFP4。团队发现Mamba输出投影层在量化后会出现高达40%的flush-to-zero现象，因此保留在MXFP8精度；QKV投影和注意力投影保留在BF16以维持少数注意力层的保真度；网络最后15%的层也保持高精度以确保稳定性。MTP层和潜在投影由于对推理时间影响较小，同样保留在BF16。