当前位置:首页 > 科技资讯 > 正文

英伟达9B模型革新:Mamba-Transformer混合架构,性能飙升6倍

英伟达发布全新架构9B模型,采用Mamba-Transformer混合架构,实现推理吞吐量最高提升6倍,与Qwen3-8B相当或在数学、代码、推理与长上下文任务中表现更优。

科技界的新星——英伟达,再次引领开源模型潮流。

近日,英伟达发布了一款仅9B大小的NVIDIA Nemotron Nano 2模型,让人眼前一亮。

这款模型以业界标杆Qwen3-8B为对手,但采用了全新的混合架构,带来了革命性的变化。

据英伟达介绍,这是一款Mamba-Transformer混合架构的语言模型,在复杂推理基准测试中实现了与Qwen3-8B相当或更优的准确率,且吞吐量最高可达其6倍

英伟达9B模型革新:Mamba-Transformer混合架构,性能飙升6倍 英伟达 9B模型 Mamba-Transformer 性能提升 第1张

它的目标是在复杂的推理任务中实现无与伦比的吞吐量,同时保持顶尖精度。

在官网的简单测试中,该模型能准确回答一些经典问题

英伟达9B模型革新:Mamba-Transformer混合架构,性能飙升6倍 英伟达 9B模型 Mamba-Transformer 性能提升 第2张

此外,英伟达还推出了3个小工具,可实时查天气、描述哈利波特角色和提供颜色建议。

英伟达9B模型革新:Mamba-Transformer混合架构,性能飙升6倍 英伟达 9B模型 Mamba-Transformer 性能提升 第3张

尽管9B模型规模较小,但在回答如「SamAltman、马斯克和黄仁勋谁更值得信任」时,会犯些小错误,如将马斯克翻译为麻克,不过它认为黄仁勋最值得信任。

英伟达9B模型革新:Mamba-Transformer混合架构,性能飙升6倍 英伟达 9B模型 Mamba-Transformer 性能提升 第4张

英伟达9B模型革新:Mamba-Transformer混合架构,性能飙升6倍 英伟达 9B模型 Mamba-Transformer 性能提升 第5张

速度的奥秘

Mamba-2架构加持!

Nemotron Nano 9B v2的强大性能源于其创新的Nemotron H架构。

该架构用闪电般的Mamba 2层替换了传统Transformer架构中大部分自注意力层。

英伟达9B模型革新:Mamba-Transformer混合架构,性能飙升6倍 英伟达 9B模型 Mamba-Transformer 性能提升 第6张

这使得模型在长篇大论的思考和复杂思维链生成时,推理速度得到显著提升。

简单介绍下Mamba架构

尽管Transformer架构已广为人知,但近年来也出现了新架构。

例如Meta的JEPA(联合嵌入预测架构)、大概念模型(LCMs)、状态空间模型(即Mamba)、记忆模型或扩散语言模型等。

英伟达9B模型革新:Mamba-Transformer混合架构,性能飙升6倍 英伟达 9B模型 Mamba-Transformer 性能提升 第7张

谷歌DeepMind在多个方向投入了约5%的研究力量,而OpenAI也在储备新架构。

为什么要混合Mamba与Transformer?

虽然Transformer效果显著,但在处理长序列时存在计算和内存瓶颈。而Mamba擅长长上下文建模,但在某些任务上可能不足。

从12到9的极限淬炼

Nemotron Nano v2的训练过程如下:

  • “暴力”预训练
  • “极限压缩与蒸馏”
  • “最终目标”

性能碾压,精度与速度全都要!

在各大推理基准测试中,Nemotron Nano 9B v2与Qwen3 8B等强手相比,精度持平甚至更优。

全面开源

英伟达宣布在HuggingFace平台上全面开放以下资源:

NVIDIA Nemotron Nano 9B v2等三个模型均支持12K的上下文长度。 NVIDIA还开源了用于预训练的大部分数据。 Nemotron Pre Training Dataset v1数据集包含6.6万亿个高质量网页爬取、数学、代码等数据的token。 感兴趣可以在以下网址体验: https://build.nvidia.com/nvidia/nvidia-nemotron-nano-9b-v2 更多信息请访问: https://research.nvidia.com/labs/adlr/NVIDIA-Nemotron-Nano-2/