当前位置:首页 > 科技资讯 > 正文

英伟达Llama Nemotron Super v1.5:创新架构引领智能体AI新纪元

众所周知,英伟达不仅提供GPU硬件支持,还亲自投身AI研究,推出了一系列前沿模型。

最近,英伟达发布了Llama Nemotron Super v1.5这一开源模型,专为复杂推理和智能体任务设计,展现了其在AI领域的深厚积累。

该模型在科学、数学、编程及智能体任务中表现出色,将吞吐量提升至前代的3倍,且能在单卡上高效运行,实现了性能与效率的完美平衡。

英伟达Llama Nemotron Super v1.5:创新架构引领智能体AI新纪元 Llama v1.5  人工智能 智能体任务 神经架构搜索 第1张

那么,这一模型是如何实现如此卓越的性能的呢?

模型详解

Llama Nemotron Super v1.5,简称Llama-3.3-Nemotron-Super-49B-V1.5,是Llama-3.3-70B-Instruct的升级版,专为复杂推理和智能体任务而设计。

架构创新

该模型采用神经架构搜索(Neural Architecture Search, NAS)技术,实现了准确率和效率之间的完美平衡,将吞吐量的提升转化为更低的运行成本。

具体而言,NAS通过搜索算法从众多可能架构中找出最优的神经网络结构,从而自动化设计神经网络架构,提升模型性能。

英伟达Llama Nemotron Super v1.5:创新架构引领智能体AI新纪元 Llama v1.5  人工智能 智能体任务 神经架构搜索 第2张

在Llama Nemotron Super v1.5中,NAS算法生成了非标准、非重复的网络模块。相较于传统Transformer,它有以下创新:

  • 跳过注意力机制(Skip attention):在某些模块中,直接跳过了注意力层,或用线性层代替。
  • 可变前馈网络(Variable FFN):前馈网络中,不同模块采用不同扩展/压缩比。

这些创新使得模型在资源受限时也能高效运行,同时保持高准确性。

训练与数据集

该模型首先在FineWeb、Buzz-V1.2和Dolma三个数据集共400亿个token的训练数据上进行知识蒸馏,重点关注英语单轮和多轮聊天。

在后训练阶段,结合监督微调(SFT)和强化学习(RL),进一步提升模型在代码、数学、推理和指令遵循等任务上的表现。

这些数据包括公开语料库的题目和人工合成的问答样本,旨在增强模型对推理模式的辨别能力。

英伟达表示数据集将在未来几周内发布。

部署与生态

Llama Nemotron Super V1.5是专为NVIDIA GPU加速系统设计的优化模型。通过利用NVIDIA的硬件和软件框架,相比仅依赖CPU的方案,该模型在训练和推理阶段实现了显著的速度提升。

该模型现已开源。开发者可以在build.nvidia.com体验Llama Nemotron Super v1.5或直接从Hugging Face下载。

Nemotron生态概览

作为英伟达最新发布的开源大语言模型,Llama Nemotron Super v1.5隶属于Nemotron生态。该生态集成了大语言模型、训练与推理框架、优化工具和企业级部署方案,旨在实现高性能、可控性强、易于扩展的生成式AI应用开发。

英伟达Llama Nemotron Super v1.5:创新架构引领智能体AI新纪元 Llama v1.5  人工智能 智能体任务 神经架构搜索 第3张

为满足不同场景需求与用户定位,英伟达在此生态基础上推出了三个不同定位的大语言模型系列——Nano、Super和Ultra。

英伟达Llama Nemotron Super v1.5:创新架构引领智能体AI新纪元 Llama v1.5  人工智能 智能体任务 神经架构搜索 第4张

其中,Nano系列针对成本效益和边缘部署;Super系列针对单个GPU上平衡的精度和计算效率;而Ultra系列则致力于数据中心的最大精度。

目前,Nemotron已获得多家企业支持或集成使用,用于构建企业级AI智能体平台。此外,在Amazon Bedrock Marketplace中也能通过NVIDIA NIM微服务调用Nemotron模型。