近期发布的超以太网(Ultra Ethernet,简称UE)1.0规范,为未来人工智能(AI)和高性能计算(HPC)系统定义了一套变革性的高性能以太网标准。本篇文章由规范编写者共同撰写,对超以太网的设计进行了高层级概述,并深入探讨了其创新点背后的科学背景和技术发展。
超以太网充分利用了以太网庞大的生态系统,并通过每传输1比特数据带来的千倍级计算效率提升,开启了高性能网络的新时代。与二十多年前最后一项重大标准化成果InfiniBand相比,超以太网不仅实现了技术突破,还引入了创新性的超以太网传输层(Ultra Ethernet Transport,简称UET)——一种可完全通过硬件加速的协议,专为超大规模系统中的可靠、高速、高效通信而设计。
超以太网通过标准化的新协议,实现了基于以太网的高性能人工智能与高性能计算网络支持。本文补充了完整规范中的核心内容,重点阐述了研发过程中的技术发展历程与创新性技术要点。文章面向广大读者群体,因此对诸多细节进行了简化处理,并采用通俗易懂的表述与解释方式。
2022年,全球迅速迈入满足人工智能系统需求的大规模计算新时代,此时各大数据中心服务商均意识到,InfiniBand及其配套协议——基于融合以太网的远程直接内存访问(Remote Direct Memory Access over Converged Ethernet,简称RoCE)——存在明显的局限性。与此同时,以太网作为通用互联技术的成功地位毋庸置疑。
超以太网联盟(Ultra Ethernet Consortium,简称UEC)由AMD、博通(Broadcom)、HPE、英特尔(Intel)和微软(Microsoft)等公司联合正式宣布成立,旨在定义一套开放的下一代HPC与AI网络标准,该标准需与现有以太网部署兼容,且支持不同厂商设备间的互操作。
超以太网(UE)可在现有以太网网络上无缝运行,其关键特性包括:
下文将详细阐述这些特性及其他功能。在此之前,首先介绍基于ECMP的数据包喷洒技术——这是超以太网中负载均衡的基础概念。
等价多路径(ECMP:Equal-Cost Multi-Pathing)是一种用于网络流量负载均衡的方案。超以太网对其中一个字段进行重新定义,用于承载所谓的熵值(Entropy Value,简称EV)。例如,若采用标准UDP/IP协议,该字段为UDP源端口。
由于设计简洁,传统ECMP方案存在一定局限性:节点无法直接选择路径。UE的数据包喷洒技术通过为每个数据包分配不同EV,可避免此类极化现象,从而在统计意义上实现数据包在所有交换机间的均匀分布。
UE规范提供了三个配置文件(HPC、AIFul和AlBase),以支撑不同的功能集。HPC配置文件提供了最丰富的功能集,包括通配符标记匹配;AIFul配置文件是AlBase配置文件的超集;两者都针对集合通信库(*CCLs)而设计。两个AI配置文件都提供了可延迟的发送功能。
下文将详细拆解UE架构的组成部分,按照TCP/IP标准分层模型展开。我们从图的最左下角开始,即以太网中的最低层——物理(PHY)层。该层基本上未因UE而改变,以保持与任何以太网部署的兼容性。
传输层是迄今为止最显著的改变。它被设计用于在标准IP/UDP上运行或者原生在IP上运行。它可以被细分为四个子层:语义层(SES)、包交付层(PDS)、拥塞管理层(CMS)以及传输安全层(TSS)。
libfabric接口利用超以太网传输(UET)层的SES,来提供用户标记的发送/接收和RMA操作。超以太网的SES定义了一种受Portals 4规范启发的有线协议和语义。
当超以太网数据包丢失时,需从源端重新传输。目前,超时机制是重传丢失数据包的常用标准方法,但超时机制并非可靠的丢包检测手段。因此,超以太网定义了多种更快速的丢包检测机制作为替代方案。
在数据包喷洒网络中,由于数据包到达顺序与发送顺序不一致,可靠传输和消息语义机制面临独特挑战。目标端维护位图用于消息完成状态跟踪和可靠性管理。
超以太网传输层的拥塞管理子系统设计仅要求交换机基础设施提供最低限度的支持。该子系统既包含用于限制网络中字节数量的拥塞控制功能,也包含用于选择优质路径的负载均衡功能。
超以太网在设计之初就充分考虑了安全性。传输层安全子系统(TSS)采用“零信任”安全模型,为一组结构端点(FEP)之间提供端到端的机密性和认证服务。
本文由主机测评网于2026-04-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260440469.html