SRAM与HBM：AI推理存储的未来之争

主机测评网
科技资讯
2026-03-18
703

近日，英伟达对AI推理领域的新星Groq实施战略收购，这一消息如同深水炸弹般在科技圈激起千层浪。此次交易不仅将LPU（张量流处理器）背后的SRAM技术推至聚光灯下，更引爆了一场关于“SRAM是否会取代HBM”的行业性大讨论。

在CES 2026大会期间，有采访者就相关问题向黄仁勋提问，黄仁勋回应称：“倘若所有数据都能塞进SRAM，HBM确实可以靠边站，但问题是……”

SRAM与HBM：

电子世界的“随身口袋”与“巨型仓库”

要理解这句话的深层含义，我们首先需要厘清这两个缩写的本质区别。

在计算机存储体系中，有一个不变的法则：速度越快的存储介质，单位成本越高、物理占用越大；而容量越大的介质，访问速度则越慢。

SRAM（静态随机存取存储器）是当今速度最快的存储类型之一，它被直接集成在CPU或GPU内核附近。与DRAM不同，它无需周期性“刷新”来维持数据，只要有电力供应，信息便能稳固保存。形象地说，SRAM就像是你的“衬衫口袋”——伸手可及，存取速度极快（纳秒级），但容量有限，仅能容纳少量“名片”（通常为几百MB）。

HBM（高带宽存储器）本质上属于DRAM（动态随机存取存储器）范畴，类似于我们电脑或服务器中常见的内存条，具备大容量和低成本的优势。它通过3D堆叠技术和超宽接口“紧贴”GPU或加速器封装，旨在提升带宽，而非将单次访问延迟降至SRAM水准。可以将其比喻为楼下的“大型仓库”：容量巨大（可达数十GB），货物进出通道（带宽）非常宽阔，但每次存取都需要往返路程，存在不可避免的物理延迟。

为何HBM的地位受到挑战？

过去十年，AI芯片的发展焦点几乎全部集中在训练环节。模型参数动辄百亿甚至千亿，计算强度极高，数据复用率与批量处理能力成为关键。在此模式下，存储容量的优先级最高，带宽次之，延迟反而相对不敏感——这正是HBM的优势领域。其大容量、堆叠封装和超高顺序带宽与GPU的大规模并行计算架构天然契合，使得HBM几乎成为“AI芯片=GPU”这一默认配置的前提。

然而，当AI进入推理阶段（即实际应用场景）时，游戏规则发生剧变。尤其在实时交互和控制场景中，延迟成为决定性的性能指标。

根据Groq发布的技术文献，传统GPU架构（如NVIDIA A100/H100）高度依赖HBM。尽管HBM带宽惊人，但其本质是DRAM的垂直堆叠，在存取权重时仍会引入数百纳秒的延迟。在Batch Size=1（即单次请求、零等待处理）的实时推理场景下，GPU不得不频繁重新加载权重，导致执行流水线停滞，性能大幅下滑。

更深层的问题源于架构设计：如下图所示，在传统GPU内存层级中，当处理单元引用本地缓存时，会触发繁琐的缓存填充与回写流程。这些处理单元属于流式多处理器（SM）核心，所有核心动态竞争共享的DRAM控制器。具体而言，80个核心执行线程，共实现32组单指令多线程（SIMT），意味着多达2560个线程同时争夺DRAM控制器中的16个HBM2e伪通道。这不仅造成漫长的等待时间，更因共享资源的动态竞争引发重排序、延迟波动和性能不可预测，最终导致系统层面的不确定性。

SRAM与HBM：AI推理存储的未来之争 SRAM HBM AI推理英伟达Groq 第1张

传统GPU内存层级结构（图源：Groq技术白皮书）

为了掩盖这种延迟，传统架构被迫增大“批大小”（Batch Size），例如攒够256个请求再统一处理。这在训练中行之有效，但在推理阶段却导致明显延迟：正如我们在ChatGPT或Gemini中体验到的，文字往往是一段段“蹦”出来的，而非像真人对话般流畅瞬时。

为何SRAM作为“主存”突然变得合理？

那么，SRAM从传统的缓存角色跃升为主内存，为何在推理场景中具备合理性？

SRAM并非因AI而诞生，它长期以缓存形式存在。在CPU中，L1/L2/L3 Cache全部由SRAM构成；GPU的寄存器文件、本地缓存同样基于SRAM；NPU和DSP中也一直有小规模SRAM的身影。

过去，业界从未敢也无需将SRAM作为主内存使用，原因非常现实：面积过大、成本过高，且工艺缩放速度落后于逻辑电路。近年来，甚至弥漫着一种悲观情绪——SRAM的缩放已撞上壁垒。以台积电从5nm向3nm演进为例，逻辑晶体管（计算单元）尺寸缩小约1.6倍，但SRAM单元几乎未见缩减（仅约5%）。这意味着在单枚芯片（Die）上，SRAM占据的面积比重持续扩大，成本急剧攀升。

然而，Groq采用了“逆向思维”：既然SRAM缩放缓慢，索性不再将其视为“昂贵的缓存”，而是充分利用其在先进制程下的超高开关速度和确定性优势。目前Groq芯片主要基于台积电14nm/7nm工艺，在这些节点上SRAM技术已相当成熟。根据Groq官方路线图，未来将迈向4nm乃至更先进的GAA（全环绕栅极）架构。届时，尽管SRAM单元面积缩小依然有限，但由于静噪边际改善，大规模SRAM的读写稳定性反而会进一步提升。

从技术本质来看，SRAM相较DRAM的访问延迟并非“稍快一点”，而是“快出一个数量级”。HBM/DRAM的典型访问延迟约为100ns，而SRAM仅需1ns。当模型权重直接常驻于SRAM中时，无需缓存猜测、预取或等待——这已不是优化，而是物理层级的根本改变。

Groq LPU的核心杀手锏，正是彻底摒弃HBM作为主存储，改用数百MB的片上SRAM来存放模型权重。Groq芯片将SRAM集成在处理器内部，访问延迟仅为HBM的几分之一。据Groq官方数据，其片上带宽高达80TB/s。

下图展示了GroqChip如何利用异构线程或“直线”线程——即线程不分支，而是对应不同执行功能单元。数据路径在两个方向上实现完全流水线化：指令垂直流水线化，数据则沿东西方向流动，在功能单元处交叉执行运算，充分挖掘局部性。开发者可从内存读取数值，在向量单元上运算，再将结果存回内存。此外，GroqChip将计算与内存访问解耦，这对实现更高内存级并行性（MLP）至关重要，使得大量读写操作可同时处于在途状态。这意味着GroqChip能在单步内完成高效计算与通信，提供低延迟、高性能及可预测的准确性。

SRAM与HBM：AI推理存储的未来之争 SRAM HBM AI推理英伟达Groq 第2张

GroqChip处理器内存架构（图源：Groq技术白皮书）

进一步地，下图展示了GroqChip如何高效呈现指令级并行（ILP）、内存级并行（MLP）和数据级并行（DLP），其独特之处在于同步计算与通信的方法。开发完成后，控制权移交软件端，通过大规模并行编译器利用所有这些并发形式。这使得Groq在Batch 1下仍能提供高性能。在其他架构中，训练通常采用256批次，意味着在处理第一张图像前，必须完成所有256张图像的学习；而Groq在Batch 1下运行，图像一经接收即行处理（无需等待凑齐256张），不仅减少等待，还提升了准确性。此外，Groq架构允许开发者无需像在GPU或其他传统架构中那样平摊长延迟成本。

SRAM与HBM：AI推理存储的未来之争 SRAM HBM AI推理英伟达Groq 第3张

GroqChip处理器内存架构（图源：Groq技术白皮书）

因此，SRAM真正的隐性优势在于其确定性。“快”与“每次都一样快”是两件截然不同的事。为何“不确定延迟”如此可怕？看视频卡顿或许仅令人不悦，但自动驾驶若出现卡顿，则可能酿成事故。

对于工业控制、自动驾驶、金融风控、核聚变、能源调度等场景而言，“确定性”比“平均性能”更为关键。这正是Groq在阿贡实验室、金融行业基准测试中特别强调“deterministic ML”的原因。在阿贡国家实验室的托卡马克核聚变反应堆预测任务中，Groq的确定性架构在0.6ms内实现了19.3万次推理（IPS），较Nvidia A100高出600多倍——这是GPU体系结构先天难以企及的维度。

SRAM与HBM：AI推理存储的未来之争 SRAM HBM AI推理英伟达Groq 第4张

阿贡国家实验室延迟关键型控制系统的性能对比

黄仁勋的观点

在CES 2026大会期间，有采访者向黄仁勋提问：英伟达已拥有CPX技术，并通过收购Groq获得了推理所需的SRAM访问能力。英伟达团队一个月前发表论文，探讨利用CPX减少HBM使用，甚至建议用GDDR7替代HBM。展望未来，Groq（SRAM）加内部CPX的组合能否将HBM用量控制在更“可控”水平？这会对利润率产生积极影响吗？

CPX（计算与存储解耦/压缩技术）可结合GDDR7或HBM使用。根据英伟达近期论文，利用CPX能减少对昂贵HBM的依赖，某些场景下甚至可用GDDR7替代HBM。

对于上述提问，黄仁勋回应道：“先解释各自的优势，再说明为何没那么简单。CPX在单位成本的预填充（Prefill）性能上更优。如果一切都能装进SRAM，HBM确实没必要。然而，问题在于这会使模型尺寸缩小约100倍。”这正是SRAM的致命短板：过于占用面积、成本过高。若要让一个千亿参数的大模型（如Llama 3）完全运行在SRAM上，可能需要成百上千颗Groq芯片，其成本与电力消耗将是一个天文数字。

黄仁勋强调，“灵活性使我们成为了通用答案。”面对不断演进的MoE（混合专家模型）、多模态乃至SSM（状态空间模型），能够灵活切换压力点（NVLink、HBM或计算单元）的架构才是数据中心TCO的最优解。

英伟达收购Groq，并不意味着全面倒向SRAM，而是在补齐“极致低延迟推理”这一块拼图。黄仁勋指出，数据中心的本质是“有限的电力资源”，而非无限的空间。针对单一工作负载（如特定的极速推理）进行极致优化固然可能，但若这种优化仅能覆盖10%的任务，剩余电力便会被浪费。有限的电力必须在整个数据中心内得到高效利用，因此灵活性越高越好。

集成度更高的架构同样更具优势——例如，更新DeepSeek模型可瞬间提升数据中心所有GPU的表现。更新模型库能改善整个数据中心。试想，若拥有17种零散架构，各自适用于不同场景，整体TCO的提升将微乎其微。“总之，CPX确实有优势，但也会降低数据中心的灵活性。”黄仁勋表示。

结论

SRAM并非突然崛起的新技术，而是在AI推理时代被赋予了前所未有的角色。它的优势不在于容量或性价比，而在于确定性、能效和极低延迟；其限制也同样清晰：面积、成本以及对模型规模的天然约束。

因此，“SRAM取代HBM”是一个伪命题，真正的命题是“AI推理如何实现TCO最优解”。推理不是“算力终点”，而是“用量起点”。一个常被忽略的事实是：训练仅发生一次，推理却会发生数十亿次。训练好比“造发动机”，推理则是“上路开车”——发动机只造一次，但上路行驶却频繁发生。

推理体验的提升（更低延迟、更自然响应）带来的结果，往往并非“HBM用得更少”，而是在追求极致速度的边缘侧（如AI眼镜、工业实时控制）和特定高性能推理场景，SRAM正通过ASIC架构蚕食HBM的份额；但在大规模数据中心，HBM依然是承载海量参数的基石；此外，SSD/NAND则负责模型分发、冷数据与长上下文存储扩展。

对于投资者和行业从业者而言，不应押注单一技术的胜负，而应关注存储层级化带来的全面机遇。在这个时代，快有快的代价（SRAM的高昂成本与低密度），慢有慢的平衡（HBM的高带宽与通用性），两者将在AI推理的星辰大海中并肩前行。