英伟达发布全新架构9B模型,采用Mamba-Transformer混合架构,实现推理吞吐量最高提升6倍,与Qwen3-8B相当或在数学、代码、推理与长上下文任务中表现更优。
科技界的新星——英伟达,再次引领开源模型潮流。
近日,英伟达发布了一款仅9B大小的NVIDIA Nemotron Nano 2模型,让人眼前一亮。
这款模型以业界标杆Qwen3-8B为对手,但采用了全新的混合架构,带来了革命性的变化。
据英伟达介绍,这是一款Mamba-Transformer混合架构的语言模型,在复杂推理基准测试中实现了与Qwen3-8B相当或更优的准确率,且吞吐量最高可达其6倍。
它的目标是在复杂的推理任务中实现无与伦比的吞吐量,同时保持顶尖精度。
在官网的简单测试中,该模型能准确回答一些经典问题。
此外,英伟达还推出了3个小工具,可实时查天气、描述哈利波特角色和提供颜色建议。
尽管9B模型规模较小,但在回答如「SamAltman、马斯克和黄仁勋谁更值得信任」时,会犯些小错误,如将马斯克翻译为麻克,不过它认为黄仁勋最值得信任。
Nemotron Nano 9B v2的强大性能源于其创新的Nemotron H架构。
该架构用闪电般的Mamba 2层替换了传统Transformer架构中大部分自注意力层。
这使得模型在长篇大论的思考和复杂思维链生成时,推理速度得到显著提升。
尽管Transformer架构已广为人知,但近年来也出现了新架构。
例如Meta的JEPA(联合嵌入预测架构)、大概念模型(LCMs)、状态空间模型(即Mamba)、记忆模型或扩散语言模型等。
谷歌DeepMind在多个方向投入了约5%的研究力量,而OpenAI也在储备新架构。
虽然Transformer效果显著,但在处理长序列时存在计算和内存瓶颈。而Mamba擅长长上下文建模,但在某些任务上可能不足。
Nemotron Nano v2的训练过程如下:
在各大推理基准测试中,Nemotron Nano 9B v2与Qwen3 8B等强手相比,精度持平甚至更优。
英伟达宣布在HuggingFace平台上全面开放以下资源:
NVIDIA Nemotron Nano 9B v2等三个模型均支持12K的上下文长度。 NVIDIA还开源了用于预训练的大部分数据。 Nemotron Pre Training Dataset v1数据集包含6.6万亿个高质量网页爬取、数学、代码等数据的token。 感兴趣可以在以下网址体验: https://build.nvidia.com/nvidia/nvidia-nemotron-nano-9b-v2 更多信息请访问: https://research.nvidia.com/labs/adlr/NVIDIA-Nemotron-Nano-2/本文由主机测评网于2026-04-23发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260439734.html