当前位置:首页 > 科技资讯 > 正文

SRAM与HBM:AI推理存储的未来之争

近日,英伟达对AI推理领域的新星Groq实施战略收购,这一消息如同深水炸弹般在科技圈激起千层浪。此次交易不仅将LPU(张量流处理器)背后的SRAM技术推至聚光灯下,更引爆了一场关于“SRAM是否会取代HBM”的行业性大讨论。

在CES 2026大会期间,有采访者就相关问题向黄仁勋提问,黄仁勋回应称:“倘若所有数据都能塞进SRAM,HBM确实可以靠边站,但问题是……”

SRAM与HBM:

电子世界的“随身口袋”与“巨型仓库”

要理解这句话的深层含义,我们首先需要厘清这两个缩写的本质区别。

在计算机存储体系中,有一个不变的法则:速度越快的存储介质,单位成本越高、物理占用越大;而容量越大的介质,访问速度则越慢。

SRAM(静态随机存取存储器)是当今速度最快的存储类型之一,它被直接集成在CPU或GPU内核附近。与DRAM不同,它无需周期性“刷新”来维持数据,只要有电力供应,信息便能稳固保存。形象地说,SRAM就像是你的“衬衫口袋”——伸手可及,存取速度极快(纳秒级),但容量有限,仅能容纳少量“名片”(通常为几百MB)。

HBM(高带宽存储器)本质上属于DRAM(动态随机存取存储器)范畴,类似于我们电脑或服务器中常见的内存条,具备大容量和低成本的优势。它通过3D堆叠技术和超宽接口“紧贴”GPU或加速器封装,旨在提升带宽,而非将单次访问延迟降至SRAM水准。可以将其比喻为楼下的“大型仓库”:容量巨大(可达数十GB),货物进出通道(带宽)非常宽阔,但每次存取都需要往返路程,存在不可避免的物理延迟。

为何HBM的地位受到挑战?

过去十年,AI芯片的发展焦点几乎全部集中在训练环节。模型参数动辄百亿甚至千亿,计算强度极高,数据复用率与批量处理能力成为关键。在此模式下,存储容量的优先级最高,带宽次之,延迟反而相对不敏感——这正是HBM的优势领域。其大容量、堆叠封装和超高顺序带宽与GPU的大规模并行计算架构天然契合,使得HBM几乎成为“AI芯片=GPU”这一默认配置的前提。

然而,当AI进入推理阶段(即实际应用场景)时,游戏规则发生剧变。尤其在实时交互和控制场景中,延迟成为决定性的性能指标。

根据Groq发布的技术文献,传统GPU架构(如NVIDIA A100/H100)高度依赖HBM。尽管HBM带宽惊人,但其本质是DRAM的垂直堆叠,在存取权重时仍会引入数百纳秒的延迟。在Batch Size=1(即单次请求、零等待处理)的实时推理场景下,GPU不得不频繁重新加载权重,导致执行流水线停滞,性能大幅下滑。

更深层的问题源于架构设计:如下图所示,在传统GPU内存层级中,当处理单元引用本地缓存时,会触发繁琐的缓存填充与回写流程。这些处理单元属于流式多处理器(SM)核心,所有核心动态竞争共享的DRAM控制器。具体而言,80个核心执行线程,共实现32组单指令多线程(SIMT),意味着多达2560个线程同时争夺DRAM控制器中的16个HBM2e伪通道。这不仅造成漫长的等待时间,更因共享资源的动态竞争引发重排序、延迟波动和性能不可预测,最终导致系统层面的不确定性

SRAM与HBM:AI推理存储的未来之争 SRAM  HBM AI推理 英伟达Groq 第1张

传统GPU内存层级结构(图源:Groq技术白皮书)

为了掩盖这种延迟,传统架构被迫增大“批大小”(Batch Size),例如攒够256个请求再统一处理。这在训练中行之有效,但在推理阶段却导致明显延迟:正如我们在ChatGPT或Gemini中体验到的,文字往往是一段段“蹦”出来的,而非像真人对话般流畅瞬时。

为何SRAM作为“主存”突然变得合理?

那么,SRAM从传统的缓存角色跃升为主内存,为何在推理场景中具备合理性?

SRAM并非因AI而诞生,它长期以缓存形式存在。在CPU中,L1/L2/L3 Cache全部由SRAM构成;GPU的寄存器文件、本地缓存同样基于SRAM;NPU和DSP中也一直有小规模SRAM的身影。

过去,业界从未敢也无需将SRAM作为主内存使用,原因非常现实:面积过大、成本过高,且工艺缩放速度落后于逻辑电路。近年来,甚至弥漫着一种悲观情绪——SRAM的缩放已撞上壁垒。以台积电从5nm向3nm演进为例,逻辑晶体管(计算单元)尺寸缩小约1.6倍,但SRAM单元几乎未见缩减(仅约5%)。这意味着在单枚芯片(Die)上,SRAM占据的面积比重持续扩大,成本急剧攀升。

然而,Groq采用了“逆向思维”:既然SRAM缩放缓慢,索性不再将其视为“昂贵的缓存”,而是充分利用其在先进制程下的超高开关速度和确定性优势。目前Groq芯片主要基于台积电14nm/7nm工艺,在这些节点上SRAM技术已相当成熟。根据Groq官方路线图,未来将迈向4nm乃至更先进的GAA(全环绕栅极)架构。届时,尽管SRAM单元面积缩小依然有限,但由于静噪边际改善,大规模SRAM的读写稳定性反而会进一步提升。

从技术本质来看,SRAM相较DRAM的访问延迟并非“稍快一点”,而是“快出一个数量级”。HBM/DRAM的典型访问延迟约为100ns,而SRAM仅需1ns。当模型权重直接常驻于SRAM中时,无需缓存猜测、预取或等待——这已不是优化,而是物理层级的根本改变。

Groq LPU的核心杀手锏,正是彻底摒弃HBM作为主存储,改用数百MB的片上SRAM来存放模型权重。Groq芯片将SRAM集成在处理器内部,访问延迟仅为HBM的几分之一。据Groq官方数据,其片上带宽高达80TB/s。

下图展示了GroqChip如何利用异构线程或“直线”线程——即线程不分支,而是对应不同执行功能单元。数据路径在两个方向上实现完全流水线化:指令垂直流水线化,数据则沿东西方向流动,在功能单元处交叉执行运算,充分挖掘局部性。开发者可从内存读取数值,在向量单元上运算,再将结果存回内存。此外,GroqChip将计算与内存访问解耦,这对实现更高内存级并行性(MLP)至关重要,使得大量读写操作可同时处于在途状态。这意味着GroqChip能在单步内完成高效计算与通信,提供低延迟、高性能及可预测的准确性。

SRAM与HBM:AI推理存储的未来之争 SRAM  HBM AI推理 英伟达Groq 第2张

GroqChip处理器内存架构(图源:Groq技术白皮书)

进一步地,下图展示了GroqChip如何高效呈现指令级并行(ILP)、内存级并行(MLP)和数据级并行(DLP),其独特之处在于同步计算与通信的方法。开发完成后,控制权移交软件端,通过大规模并行编译器利用所有这些并发形式。这使得Groq在Batch 1下仍能提供高性能。在其他架构中,训练通常采用256批次,意味着在处理第一张图像前,必须完成所有256张图像的学习;而Groq在Batch 1下运行,图像一经接收即行处理(无需等待凑齐256张),不仅减少等待,还提升了准确性。此外,Groq架构允许开发者无需像在GPU或其他传统架构中那样平摊长延迟成本。

SRAM与HBM:AI推理存储的未来之争 SRAM  HBM AI推理 英伟达Groq 第3张

GroqChip处理器内存架构(图源:Groq技术白皮书)

因此,SRAM真正的隐性优势在于其确定性。“快”与“每次都一样快”是两件截然不同的事。为何“不确定延迟”如此可怕?看视频卡顿或许仅令人不悦,但自动驾驶若出现卡顿,则可能酿成事故。

对于工业控制、自动驾驶、金融风控、核聚变、能源调度等场景而言,“确定性”比“平均性能”更为关键。这正是Groq在阿贡实验室、金融行业基准测试中特别强调“deterministic ML”的原因。在阿贡国家实验室的托卡马克核聚变反应堆预测任务中,Groq的确定性架构在0.6ms内实现了19.3万次推理(IPS),较Nvidia A100高出600多倍——这是GPU体系结构先天难以企及的维度。

SRAM与HBM:AI推理存储的未来之争 SRAM  HBM AI推理 英伟达Groq 第4张

阿贡国家实验室延迟关键型控制系统的性能对比

黄仁勋的观点

在CES 2026大会期间,有采访者向黄仁勋提问:英伟达已拥有CPX技术,并通过收购Groq获得了推理所需的SRAM访问能力。英伟达团队一个月前发表论文,探讨利用CPX减少HBM使用,甚至建议用GDDR7替代HBM。展望未来,Groq(SRAM)加内部CPX的组合能否将HBM用量控制在更“可控”水平?这会对利润率产生积极影响吗?

CPX(计算与存储解耦/压缩技术)可结合GDDR7或HBM使用。根据英伟达近期论文,利用CPX能减少对昂贵HBM的依赖,某些场景下甚至可用GDDR7替代HBM。

对于上述提问,黄仁勋回应道:“先解释各自的优势,再说明为何没那么简单。CPX在单位成本的预填充(Prefill)性能上更优。如果一切都能装进SRAM,HBM确实没必要。然而,问题在于这会使模型尺寸缩小约100倍。”这正是SRAM的致命短板:过于占用面积、成本过高。若要让一个千亿参数的大模型(如Llama 3)完全运行在SRAM上,可能需要成百上千颗Groq芯片,其成本与电力消耗将是一个天文数字。

黄仁勋强调,“灵活性使我们成为了通用答案。”面对不断演进的MoE(混合专家模型)、多模态乃至SSM(状态空间模型),能够灵活切换压力点(NVLink、HBM或计算单元)的架构才是数据中心TCO的最优解。

英伟达收购Groq,并不意味着全面倒向SRAM,而是在补齐“极致低延迟推理”这一块拼图。黄仁勋指出,数据中心的本质是“有限的电力资源”,而非无限的空间。针对单一工作负载(如特定的极速推理)进行极致优化固然可能,但若这种优化仅能覆盖10%的任务,剩余电力便会被浪费。有限的电力必须在整个数据中心内得到高效利用,因此灵活性越高越好。

集成度更高的架构同样更具优势——例如,更新DeepSeek模型可瞬间提升数据中心所有GPU的表现。更新模型库能改善整个数据中心。试想,若拥有17种零散架构,各自适用于不同场景,整体TCO的提升将微乎其微。“总之,CPX确实有优势,但也会降低数据中心的灵活性。”黄仁勋表示。

结论

SRAM并非突然崛起的新技术,而是在AI推理时代被赋予了前所未有的角色。它的优势不在于容量或性价比,而在于确定性、能效和极低延迟;其限制也同样清晰:面积、成本以及对模型规模的天然约束。

因此,“SRAM取代HBM”是一个伪命题,真正的命题是“AI推理如何实现TCO最优解”。推理不是“算力终点”,而是“用量起点”。一个常被忽略的事实是:训练仅发生一次,推理却会发生数十亿次。训练好比“造发动机”,推理则是“上路开车”——发动机只造一次,但上路行驶却频繁发生。

推理体验的提升(更低延迟、更自然响应)带来的结果,往往并非“HBM用得更少”,而是在追求极致速度的边缘侧(如AI眼镜、工业实时控制)和特定高性能推理场景,SRAM正通过ASIC架构蚕食HBM的份额;但在大规模数据中心,HBM依然是承载海量参数的基石;此外,SSD/NAND则负责模型分发、冷数据与长上下文存储扩展。

对于投资者和行业从业者而言,不应押注单一技术的胜负,而应关注存储层级化带来的全面机遇。在这个时代,快有快的代价(SRAM的高昂成本与低密度),慢有慢的平衡(HBM的高带宽与通用性),两者将在AI推理的星辰大海中并肩前行。