NVIDIA Rubin CPX GPU重磅发布：引领AI进入百万Token推理新时代

主机测评网
科技资讯
2025-12-30
836

在9日的发布会上，英伟达隆重推出了专为海量上下文人工智能设计的CUDA GPU——Rubin CPX，这将大模型单次推理能力推向“百万Token时代”。NVIDIA创始人兼首席执行官黄仁勋表示，Vera Rubin平台将再次突破AI计算前沿，不仅带来下一代Rubin GPU，更开创了CPX这一全新处理器类别。

“百万Token巨兽”横空出世！

昨日（9日），NVIDIA突然发布了Rubin CPX，这是一款专为大规模上下文推理定制的新型GPU。

NVIDIA Rubin CPX GPU重磅发布：引领AI进入百万Token推理新时代 AI推理百万Token 第1张

其性能表现卓越，是Vera Rubin NVL144平台的两倍以上，更是基于Blackwell Ultra的GB300 NVL72机架式系统的7.5倍！

它具备单机架8 EFLOPS的NVFP4计算力、100TB高速内存与1.7 PB/s的内存带宽，并配备128GB高性价比GDDR7显存。

与NVIDIA GB300 NVL72系统相比，Rubin CPX带来了3倍的注意力机制处理能力。

这款性能怪兽在商业变现方面同样惊人。

每投入1亿美元，最高可产生50亿美元的Token收入！

Rubin CPX开创CPX全新处理器类别

Rubin CPX基于Rubin架构构建，是首款专为海量上下文AI打造的CUDA GPU，能够同时推理跨越数百万知识标记的模型。

可以说，Rubin CPX是为破解AI“长上下文”瓶颈而生的“特制武器”。

它的出现，为AI在百万Token级推理场景下的性能与效率带来了新突破。

依托全新的NVIDIA Vera Rubin NVL144 CPX平台，Rubin CPX与NVIDIA Vera CPU和Rubin GPU紧密协同，支持多步推理、持久化记忆与长时程上下文处理，使其在应对软件开发、视频生成、深度研究等复杂任务时更加游刃有余。

这意味着在Rubin CPX的加持下，AI编码将从简单代码生成工具升级为能理解并优化大规模软件项目的复杂系统。

同样，它还能满足长视频与研究类应用在数百万Token级别上保持持续一致性与记忆的需求。

这些需求正不断逼近当前基础设施的极限。

NVIDIA创始人兼CEO黄仁勋强调，Vera Rubin平台将再次推动AI计算前沿，并开创CPX全新处理器类别。

“正如RTX颠覆了图形与物理AI一样，Rubin CPX是首个专为海量上下文AI打造的CUDA GPU，模型能够一次性跨越数百万个Token的知识进行推理。”

目前，Cursor、Runway和Magic等AI先锋企业，正在积极探索Rubin CPX在应用加速上的新潜力。

30-50倍ROI，重塑推理经济

Rubin CPX通过解耦式推理创新，为企业带来30-50倍投资回报率，重塑推理经济格局。

大模型的推理主要分为上下文和生成两个阶段。

它们对基础设施的要求存在本质差异。

上下文阶段以计算受限为主，需要高吞吐处理来摄入并分析海量输入数据，以产出第一个Token的输出结果。

而生成阶段则以内存带宽受限为主，依赖快速内存传输与高速互联（如NVLink）来维持逐Token的输出性能。

解耦式推理允许这两个阶段独立处理，从而更针对性地优化算力与内存资源，提升吞吐量，降低延迟，增强整体资源利用率。

NVIDIA Rubin CPX GPU重磅发布：引领AI进入百万Token推理新时代 AI推理百万Token 第2张

但解耦式推理也带来了新的复杂性，需要在低延迟KV缓存传输、面向大模型感知的路由以及高效内存管理之间进行精确协调。

这离不开NVIDIA Dynamo，它作为以上组件的编排层，发挥着关键作用。

NVIDIA Rubin CPX GPU重磅发布：引领AI进入百万Token推理新时代 AI推理百万Token 第3张

Rubin CPX是专为大语言模型（尤其是百万Token上下文）推理设计的“专用加速器”。

Rubin CPX与NVIDIA Vera CPU，以及用于生成阶段处理的Rubin GPU协同工作，共同形成了应对长上下文场景的完整高性能解耦式服务方案。

CPX的推出标志着解耦式推理基础设施的最新进化，也树立了推理经济的新标杆。

在规模化场景下，NVIDIA Vera Rubin NVL144 CPX平台可带来30–50倍的投资回报（ROI）。

这意味着1亿美元的资本性支出（CAPEX），最高可转化为50亿美元的收入。

百万Token巨兽，重新定义下一代AI应用

Vera Rubin NVL144 CPX平台重新定义了企业构建下一代生成式AI应用的可能性。

NVIDIA Rubin CPX GPU重磅发布：引领AI进入百万Token推理新时代 AI推理百万Token 第4张

NVIDIA Vera Rubin NVL144 CPX机架与托盘，配备Rubin上下文GPU（Rubin CPX）、Rubin GPU与 Vera CPU

Rubin CPX与NVIDIA Vera CPU、Rubin GPU，共同集成在全新的NVIDIA Vera Rubin NVL144 CPX平台内。

NVIDIA Vera Rubin NVL144 CPX平台采用最新GPU架构，具备极高算力与能效比，可以基于MGX架构实现机架级部署。

1.算力跃升

NVIDIA MGX机架式系统单机架集成144块Rubin CPX GPU、144块Rubin GPU与36颗Vera CPU，提供8 EFLOPS的NVFP4计算力，并在单机架内配备100TB高速内存与1.7 PB/s的内存带宽。

2.长序列的高效处理优化

Rubin CPX针对长序列高效处理进行了优化，是软件应用开发与高清（HD）视频生成等高价值推理用例的关键。

3.显存升级

单个Rubin CPX GPU可提供高达30 petaflops的NVFP4计算能力，配备128GB高性价比GDDR7显存，以加速最苛刻的上下文类工作负载。

4.注意力机制加速

相比NVIDIA GB300 NVL72系统，Rubin CPX带来3倍的注意力机制处理能力，显著提高模型处理更长上下文序列的能力且不降速。

5.多种形态配置

Rubin CPX提供多种形态配置，包括Vera Rubin NVL144 CPX，并可与NVIDIA Quantum-X800 InfiniBand横向扩展计算网络连接。

也可搭配采用NVIDIA Spectrum-XGS以太网技术与NVIDIA ConnectX®-9 SuperNICs™的NVIDIA Spectrum-X™以太网网络平台结合使用，以实现大规模部署。

Rubin CPX，融入NVIDIA全栈AI生态

在生态上，Rubin CPX将获得完整的NVIDIA AI堆栈支持，包括：

软件平台：NVIDIA AI Enterprise，包含NVIDIA NIM™微服务以及可在NVIDIA加速的云、数据中心和工作站上部署的AI框架、库与工具。
编排与模型：NVIDIA Dynamo平台负责高效扩展AI推理，同时处理器将能够运行NVIDIA Nemotron™多模态模型家族中的最新模型。
开发者生态：基于数十年的创新，Rubin平台扩展了NVIDIA庞大的开发者生态，包括NVIDIA CUDA-X™库、超过600万开发者的社区以及近6,000个CUDA应用。

NVIDIA Rubin CPX预计将于2026年底上市。

它的推出将为全球开发者与创作者解锁更强大能力，重新定义企业构建下一代生成式AI应用的可能性。