当前位置:首页 > 科技资讯 > 正文

超节点:AI时代的算力新宠与挑战

随着万亿参数多模态大模型的兴起,AI行业的竞争焦点已从单纯模型参数和硬件堆叠,转向更底层的计算架构,开启了一场“系统级对决”。

这不仅关乎模型参数和服务器堆叠,更深入到计算架构的底层优化,带来了一场前所未有的挑战。

在这一背景下,“超节点”成为了计算产业的新宠。

当前,国内已有十多家企业推出了“超节点”,然而其实现方式却五花八门:简单地将几十台服务器置于一个机柜内,通过光纤连接便自称为“超节点”,并宣称突破了摩尔定律的局限。

深入探究多款“超节点”的技术本质后,我们发现:若无法实现“内存统一编址”,所谓的“超节点”实质上仍停留在传统服务器堆叠的阶段。

01 为什么需要超节点?根源在于“通信墙”

让我们回溯到问题的起点:为何在互联网时代沿用二十多年的Scale Out集群架构,在大模型时代却显得力不从心?

中国信通院在报告中形象地将原因归结为“三堵墙”:

第一堵是通信墙。在大模型训练场景中,通信频次随模型层数和并行度呈指数级增长,微秒级的协议栈延迟在万亿次迭代中累积,导致计算单元长时间处于等待状态,直接限制算力利用率。

第二堵是功耗与散热墙。为了缓解延迟和等待问题,工程师们不得不提升算力密度,将更多计算单元置于一个机柜内,但这带来了巨大的散热和供电挑战。

第三堵是复杂度墙。硬件堆砌虽能提升集群规模,却也增加了运维复杂度。在大模型训练过程中,需要频繁处理故障。

大模型正由单模态向全模态融合发展,上下文长度达到兆级、训练数据高达100TB、金融风控等场景的时延要求小于20毫秒……传统计算架构已无法满足这些需求。

要满足新的算力需求,打破“通信墙”是必经之路。除了服务器堆叠,还有哪些可行路径呢?

首先,我们需要理解“通信墙”的技术原理。

超节点:AI时代的算力新宠与挑战 超节点 内存统一编址 大模型 通信墙 第1张

在传统集群架构中,遵循“存算分离”与“节点互联”原则,每块GPU都是独立存在的孤岛,拥有自己独立的显存,并且仅支持本地通信。当需要访问其他服务器的数据时,必须经历繁琐的通信步骤:

步骤一:数据从HBM拷贝到系统内存;

步骤二:数据切片并封装成TCP/IP或RoCE报文;

步骤三:数据包通过交换机路由至目标节点;

步骤四:接收端解析协议栈并剥离报文头;

步骤五:数据最终写入目标设备的内存地址。

这个过程存在几毫秒的延迟,在大模型训练中,这种延迟会极大影响计算效率。

业界提出了“超节点”的概念,并规定了三个核心指标——大带宽、低时延、内存统一编址。

超节点:AI时代的算力新宠与挑战 超节点 内存统一编址 大模型 通信墙 第2张

“内存统一编址”是最核心且最具挑战性的目标,旨在构建一个全局唯一的虚拟地址空间,将所有芯片的内存资源映射成一张巨大的地图,无论数据在本地显存还是远程内存,计算单元只需一个地址即可访问。

02 内存统一编址难在哪?通信语义“代差”

既然“内存统一编址”是正确路径,为何市场上某些“超节点”仍停留在服务器堆叠?

这不仅是工程能力的差距,更是通信语义的代际差异,涉及通信协议、数据所有权和访问方式。

目前存在两种主流的通信方式:

超节点:AI时代的算力新宠与挑战 超节点 内存统一编址 大模型 通信墙 第3张

一种是分布式协作的消息语义,通过发送和接收操作实现,类似于“寄快递”。

这种方式即便提高带宽和降低延迟,也无法避免打包、拆包和中间流转的时间消耗。

另一种是并行计算的内存语义,通过加载和存储指令实现,类似于“从书架上拿书”。

这种方式无需打包和填单子,效率更高。

“伪超节点”无法实现内存统一编址的原因在于通信语义的代差。尽管灵衢、NVLink等协议支持内存语义,但TCP/IP、InfiniBand等仍支持消息语义。

内存统一编址的实现需要满足两个条件:

  • 首先是通信协议和缓存一致性。
  • 其次是充当“翻译官”的交换芯片。

缺少这些条件的“伪超节点”,大多采用PCIe+RoCE协议互联方案。

这种方案本质上是“寄快递”的升级版,无法实现全局的内存池化和AI处理器之间的内存语义访问。

03 超节点有何价值?大模型的完美“搭子”

第一个场景:模型训练

  • 在训练超大模型时,显存往往是瓶颈。
  • “Swap to CPU”的传统做法因PCIe带宽低而效率低下。
  • “超节点”架构下,CPU内存和NPU显存在同一地址空间内,“以存代算”策略可提升NPU利用率10%以上。

第二个场景:模型推理

  • “超节点”可实现KV Cache的全局池化和Prefix Cache复用。
  • “一存多取”的方式可提升集群吞吐性能3倍。

第三个场景:推荐系统

  • “超节点”可优化推荐系统的效率。
  • “内存统一编址”配合硬件级内存传输引擎可降低通信延迟。

缺少‘内存统一编址’能力,终归只是在蹭‘超节点’的流量。