当前位置：首页 > 科技资讯 > 正文

AI推理新纪元：每美元智能输出成决胜关键，英伟达GB200 NVL72优势高达28倍

主机测评网
科技资讯
2026-03-13
164

AI推理的竞争规则正在发生深刻变革。最新研究报告揭示了一个关键转折点：如今决定胜负的不再是单纯的芯片性能或GPU数量，而是“每一美元投入能换取多少智能产出”。

AI推理的经济学，已经超越了传统的算力硬指标！

Signal65最新发布的一份深度报告显示，英伟达GB200 NVL72在特定工作负载下的吞吐量最高可达AMD MI350X的28倍。

更令人瞩目的是，在高交互场景中，以DeepSeek R1为例，其每Token成本甚至可以低至竞争对手的1/15。

AI推理新纪元：每美元智能输出成决胜关键，英伟达GB200 NVL72优势高达28倍 AI推理英伟达GB200 MoE模型 Token经济学第1张

尽管GB200 NVL72的每小时单价大约是前代产品的两倍，但这并未成为阻碍。因为其机柜级NVLink互联技术加上强大的软件调度能力，彻底重塑了成本结构。

顶级投资人Ben Pouladian强调，“当前的核心指标不再是算力或GPU数量，而是每一美元能够购买到多少智能输出”。

AI推理新纪元：每美元智能输出成决胜关键，英伟达GB200 NVL72优势高达28倍 AI推理英伟达GB200 MoE模型 Token经济学第2张

如今，英伟达依旧稳坐王者宝座。其他竞争对手难以企及其交互性能，这正是其护城河所在。

AI推理新纪元：每美元智能输出成决胜关键，英伟达GB200 NVL72优势高达28倍 AI推理英伟达GB200 MoE模型 Token经济学第3张

最关键的是，这还没有计入英伟达斥资200亿美金收购Groq所带来的推理能力加持。

这里，再次引用黄仁勋的金句——The more you buy, the more you save！（买得越多，省得越多！）

AI推理新纪元：每美元智能输出成决胜关键，英伟达GB200 NVL72优势高达28倍 AI推理英伟达GB200 MoE模型 Token经济学第4张

AI推理的核心指标：一美元能买到多少智能？

这篇长达万字的报告，深入剖析了从稠密模型（Dense）到混合专家模型（MoE）推理背后的一系列本质现象。

AI推理新纪元：每美元智能输出成决胜关键，英伟达GB200 NVL72优势高达28倍 AI推理英伟达GB200 MoE模型 Token经济学第5张

传统的“稠密模型”架构要求：在生成每个Token时都必须激活模型内的全部参数。

这意味着：模型规模越大，运行速度越慢、成本越高，同时还会带来内存需求激增等一系列问题。

AI推理新纪元：每美元智能输出成决胜关键，英伟达GB200 NVL72优势高达28倍 AI推理英伟达GB200 MoE模型 Token经济学第6张

MoE架构的诞生，正是为了释放更高水平的智能——在每个Token上仅激活最相关的“专家”模型。

扫一眼Artificial Analysis排行榜便能发现，全球TOP 10开源大语言模型，无一例外全部采用了MoE推理架构。

这些模型会在推理阶段额外“增加算力开销”以提高准确性：

LLM不会直接吐出答案，而是先生成中间的推理Token，再输出最终结果，相当于先把问题和解法在内部“思考一遍”。

AI推理新纪元：每美元智能输出成决胜关键，英伟达GB200 NVL72优势高达28倍 AI推理英伟达GB200 MoE模型 Token经济学第7张

前16名中有12个是MoE模型

这些中间推理Token的数量往往远超最终回复，而且可能完全不会展示给用户。因此，能否既快速又低成本地生成Token，对推理部署来说变得至关重要。

那么，MoE方法的主要瓶颈在哪里？

一个核心限制在于“通信瓶颈”。

当不同的专家分布在多块GPU上时，任何GPU之间的通信延迟都会导致GPU空闲等待数据，造成算力浪费。

AI推理新纪元：每美元智能输出成决胜关键，英伟达GB200 NVL72优势高达28倍 AI推理英伟达GB200 MoE模型 Token经济学第8张

OpenRouter近期报告显示，超过50%的Token会被路由到推理模型上

这些“空转时间”（idle time）代表着被浪费的、低效的算力，并会直接转化为服务提供商的成本负担。

在评估AI基础设施的“经济性”时，通常聚焦于三个方面：

性能（吞吐量与交互性）

能效（在既定功耗预算下，可生成的Token数量）

总体拥有成本（通常以每百万Token的成本衡量）

基于公开可用的基准测试数据，Signal65对不同LLM架构下的AI基础设施方案进行了对比分析。

分析中，团队采用第三方基准测试所提供的性能数据，来估算相对的Token经济性。

具体来说，他们选取了B200、GB200 NVL72，以及AMD MI355X的部分结果，用以对比它们在不同模型场景下的真实性能表现及相应的TCO估算。

AI推理新纪元：每美元智能输出成决胜关键，英伟达GB200 NVL72优势高达28倍 AI推理英伟达GB200 MoE模型 Token经济学第9张

结果显示，在稠密架构以及较小规模的MoE中，B200性能优于AMD MI355X。

当模型扩展到像DeepSeek-R1这样需要跨越单节点的前沿规模时，GB200 NVL72的性能最高可达MI355X的28倍。

AI推理新纪元：每美元智能输出成决胜关键，英伟达GB200 NVL72优势高达28倍 AI推理英伟达GB200 MoE模型 Token经济学第10张

在高交互性的推理工作负载中，NVL72的单位Token成本最低，可降至其他方案的约1/15。

尽管GB200 NVL72的单GPU小时价格几乎是这些竞争平台的2倍，但其机架级能力——从NVLink高速互连，到覆盖72块GPU的软件编排——共同推动了这种显著更优的单位经济性。

价值评估的重心，正在从单纯的原始FLOPs，转向“每一美元所获得的总体智能”。

这一结论非常明确：

随着MoE模型和推理工作负载带来的复杂性与规模持续上升，行业已无法仅依赖芯片层面的性能提升。

能够在系统层面实现峰值性能的端到端平台设计，已经成为实现低成本、高响应AI服务的关键杠杆。

“稠密模型”推理，英伟达领先

Signal65选择了Llama 3.3 70B作为稠密模型的性能基准，结果如下所示：

帕累托曲线清晰显示出，HGX B200-TRT方案在整个吞吐量与交互性区间内，都具备持续的性能优势。

具体到基线交互性水平，B200的性能大约是MI355X的1.8倍，这为交互式应用部署，以及更高的单GPU并发密度提供了显著余量。

AI推理新纪元：每美元智能输出成决胜关键，英伟达GB200 NVL72优势高达28倍 AI推理英伟达GB200 MoE模型 Token经济学第11张

再来看，当交互性提升至110 tokens/sec/user时，这一优势进一步被放大：B200吞吐量超过MI355X的6倍。

整体上，在Llama 3.3 70B测试中，AMD MI355X在单位成本性能方面确实具备一定吸引力。

但这种优势并不能代表更现代的推理技术栈，尤其是以MoE架构和高强度推理工作负载构建的系统。

AI推理新纪元：每美元智能输出成决胜关键，英伟达GB200 NVL72优势高达28倍 AI推理英伟达GB200 MoE模型 Token经济学第12张

AI推理新纪元：每美元智能输出成决胜关键，英伟达GB200 NVL72优势高达28倍 AI推理英伟达GB200 MoE模型 Token经济学第13张

MoE推理，英伟达领先

那么，在MoE架构上，英伟达和AMD表现又如何？

中等规模推理：gpt-oss-120B

Signal65认为，OpenAI gpt-oss-120B是理解MoE部署特性的一个理想“桥梁案例”。

它足够大，可以把MoE的复杂性暴露出来；

但规模又没有大到离谱，仍然是很多团队能现实部署并调优的范围。

它处在一个很有用的中间地带：介于稠密的70B级模型，与市场正在快速转向的、更前沿的推理型MoE架构之间。

AI推理新纪元：每美元智能输出成决胜关键，英伟达GB200 NVL72优势高达28倍 AI推理英伟达GB200 MoE模型 Token经济学第14张

在10月下旬的数据里，当目标是100 tokens/sec/user时，B200大约比MI355X快1.4倍；

但当目标提高到250 tokens/sec/user时，差距会扩大到约3.5倍，说明越追求“更快的交互”，平台差异越容易被放大。

不过，12月上旬的数据则呈现出不同局面。

得益于软件优化，两边平台的绝对性能都明显提升：英伟达单GPU峰值吞吐从大约7,000 tokens/sec提升到超过14,000；AMD也从约6,000提升到大约8,500。

AI推理新纪元：每美元智能输出成决胜关键，英伟达GB200 NVL72优势高达28倍 AI推理英伟达GB200 MoE模型 Token经济学第15张

AI推理新纪元：每美元智能输出成决胜关键，英伟达GB200 NVL72优势高达28倍 AI推理英伟达GB200 MoE模型 Token经济学第16张

前沿推理：DeepSeek-R1

在DeepSeek-R1推理上，测试结果正如开篇所介绍那样，英伟达GB200 NVL72大幅领先。

更多数据如下图所示：

AI推理新纪元：每美元智能输出成决胜关键，英伟达GB200 NVL72优势高达28倍 AI推理英伟达GB200 MoE模型 Token经济学第17张

基准测试数据展示了一个被重塑的格局：

GB200 NVL72让“超过8块GPU的张量并行配置”也能进入帕累托前沿，达到单节点平台根本无法匹敌的性能。

在25 tokens/sec/user交互性目标下，GB200 NVL72单GPU性能大约是H200的10倍，并且超过MI325X单GPU性能的16倍。

这类性能差距，正是能为AI服务提供商带来“断崖式”TCO改善的那种差距。

当交互性目标提高到60 tokens/sec/user时，GB200 NVL72相比H200带来了超24倍的代际提升，同时也接近MI355X的11.5倍性能。

在同样25 tokens/sec/user下，GB200 NVL72单GPU性能大约是B200的2倍、是MI355X的5.9倍；

而到60 tokens/sec/user时，这些优势进一步扩大：相对单节点B200达到5.3倍、相对MI355X达到11.5倍。

AI推理新纪元：每美元智能输出成决胜关键，英伟达GB200 NVL72优势高达28倍 AI推理英伟达GB200 MoE模型 Token经济学第18张

AI推理新纪元：每美元智能输出成决胜关键，英伟达GB200 NVL72优势高达28倍 AI推理英伟达GB200 MoE模型 Token经济学第19张

GPU越贵，token成本越低

英伟达从Hopper过渡到Blackwell，并推出GB200 NVL72时，不仅提升了每GPU算力、内存带宽以及NVLink互连带宽，还对底层系统架构做了重新设计。

从8-GPU风冷HGX服务器转向全液冷的机架级系统，并把72块GPU连接在同一个域内，系统成本和复杂度显然都上升了。

AI推理新纪元：每美元智能输出成决胜关键，英伟达GB200 NVL72优势高达28倍 AI推理英伟达GB200 MoE模型 Token经济学第20张

据CoreWeave公布的目录价，按单GPU口径，GB200 NVL72价格大约比H200贵1.7倍。

不过，每一代新技术的目标之一，就是压低“每Token成本”。

对推理而言，具体就是：实际交付的Token吞吐提升幅度，要超过底层基础设施成本的提升幅度。

而从公开的性能数据来看，这正是GB200 NVL72相比Hopper所呈现出的结果。

Signal65把本次的tokenomics（Token经济学）分析，锚定在前文建立的DeepSeek-R1性能差距上：

在25 tokens/sec/user时，GB200 NVL72单GPU性能大约是H200的10倍；

在更高的交互点位上，这个差距会更大（24倍）。

下表总结了成本归一化，以及由此得到的“每美元性能”计算：

这些结果一开始可能有点反直觉：更“贵”的GPU反而更省钱——因为它带来的性能提升远大于价格差异，使得它能以更低成本生成Token。

AI推理新纪元：每美元智能输出成决胜关键，英伟达GB200 NVL72优势高达28倍 AI推理英伟达GB200 MoE模型 Token经济学第21张

AI推理新纪元：每美元智能输出成决胜关键，英伟达GB200 NVL72优势高达28倍 AI推理英伟达GB200 MoE模型 Token经济学第22张

与AMD相比，英伟达系统在推理token成本上的一些数据对比：

AI推理新纪元：每美元智能输出成决胜关键，英伟达GB200 NVL72优势高达28倍 AI推理英伟达GB200 MoE模型 Token经济学第23张

按单GPU口径，MI355X价格大约只有GB200 NVL72配置的一半；

但由于GB200 NVL72单GPU性能优势从低端接近6倍，到高交互性时高达28倍不等，英伟达仍然能提供最高15倍的每美元性能优势。

换句话说，英伟达能实现相对每Token成本仅为竞争对手的1/15。

结论

前沿AI模型的未来，会是更大、更复杂的MoE。

随着模型更深地走向MoE与推理架构，最终效果将不再只取决于原始GPU性能或内存容量。

平台级设计会成为决定性因素——包括互连与通信效率、多节点扩展特性、软件栈成熟度、生态支持与编排能力，以及在并发与混合负载下维持高利用率的能力。

从当前趋势看，来自OpenAI、Meta、Anthropic等前沿公司的旗舰模型，很可能会继续沿着MoE与推理方向演进。

如果这一轨迹成立，英伟达将维持关键的性能与经济性优势。

谷歌TPU这类架构也提供机架级方案，但它们对非自家模型的适用性与性能表现仍不明确。

本文记录的性能差异，能够直接转化为可量化的商业结果：

在既定交互性阈值下，每部署一块GPU能服务更多用户，就能降低每个“有用Token”的生成成本，提高每机架的收入潜力（通过规模化交付更高价值的体验），最终AI企业和部署AI的企业获得更好的TCO。

一个具体例子足以说明量级：当一个平台在某个交互性目标下，能提供28倍的单GPU吞吐提升时，它可以在不需要线性扩大硬件规模的情况下，解锁新的产品档位以及更复杂的功能。

这就是AI推理“经济学”，而它会更偏向那些从底层就为MoE与推理时代而设计的平台。

参考资料：

https://x.com/kimmonismus/status/2005753458188771768

https://signal65.com/research/ai/from-dense-to-mixture-of-experts-the-new-economics-of-ai-inference/

免费服务器性价比vps 免费vps

本文由主机测评网于2026-03-13发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260331111.html

AI推理新纪元：每美元智能输出成决胜关键，英伟达GB200 NVL72优势高达28倍

AI推理的核心指标：一美元能买到多少智能？

“稠密模型”推理，英伟达领先

MoE推理，英伟达领先

中等规模推理：gpt-oss-120B

前沿推理：DeepSeek-R1

GPU越贵，token成本越低

结论

2026年新能源车购置税减半以旧换新政策加码车企促销迎开门红

2025年科技IPO冰火两重天：超级巨头盛宴与中小公司寒潮

AI推理新纪元：每美元智能输出成决胜关键，英伟达GB200 NVL72优势高达28倍

AI推理的核心指标：一美元能买到多少智能？

“稠密模型”推理，英伟达领先

MoE推理，英伟达领先

中等规模推理：gpt-oss-120B

前沿推理：DeepSeek-R1

GPU越贵，token成本越低

结论

2026年新能源车购置税减半 以旧换新政策加码 车企促销迎开门红

2025年科技IPO冰火两重天：超级巨头盛宴与中小公司寒潮

相关文章

2026年新能源车购置税减半以旧换新政策加码车企促销迎开门红