在2024年10月退出隐身模式之际,以色列芯片初创公司NextSilicon宣布,其即将推出的Maverick-2不仅是全球首款智能计算加速器(ICA),更是为高性能计算人工智能(HPC-AI)应用量身打造的创新产品。这款“新颖且原创的计算架构”在提升性能的同时,还显著降低了功耗和成本。
经过八年研发与累计3.03亿美元种子资金及三轮风险投资的NextSilicon,终于推出了其64位数据流引擎的多个版本。同时,公司还推出了一款自主研发的RISC-V处理器Arbel,该芯片或将与Maverick-2配合使用,共同打造如英伟达“Superchip”般强大的产品。
NextSilicon成立于2017年,远早于GenAI热潮。当时,公司便意识到HPC和AI计算引擎架构即将变革,尤其不利于专注于64位和32位浮点计算的HPC仿真和建模领域。即便没有直接进军AI市场的计划,NextSilicon也在三轮融资中筹集了2.026亿美元,其中C轮融资于2021年6月完成,融资金额为1.2亿美元。
当时,NextSilicon的估值约为15亿美元。这笔资金和原型设计工作的完成意味着美国能源部得以了解NextSilicon的动向。与此同时,桑迪亚国家实验室还与NextSilicon合作设计和测试了Maverick-1数据流引擎。目前,桑迪亚正在构建一款名为“Spectra”的新型架构超级计算机,作为其Vanguard-II计划的一部分。据推测,该超级计算机将使用今天发布的Maverick-2数据流引擎。
在英伟达牢牢把控市场的背景下,为何需要构建新的芯片?NextSilicon创始人兼首席执行官Elad Raz表示:“这是因为没有专门用于高性能计算的加速器。”他指出,数百家公司正在为人工智能和机器学习加速,而大多数大型供应商都在转向AI和ML。尽管大型超级计算机只需构建新的GPU集群便能提升性能,但成本和功耗将翻倍。相比之下,NextSilicon是一家以高性能计算(HPC)为先的公司。”
他们选择了一条全新的道路。尽管GPU和CPU助力了HPC和AI领域的重大突破,但它们正面临收益递减的未来。NextSilicon的创始人没有继续走老路,而是决定尝试一条不同的道路。
Elad Raz指出,尽管拥有80年历史的冯·诺依曼架构提供了通用可编程的计算基础,但它也带来了巨大的开销。他表示,98%的芯片用于控制开销任务,如分支预测、乱序逻辑和指令处理,而只有2%的芯片用于执行应用程序核心的实际计算。
于是,Raz和他的团队构想了一种名为“智能计算架构”(ICA)的新架构,该架构使芯片能够自我重构以适应不断变化的工作负载,从而将开销降至最低并最大限度地提升计算能力。这便是NextSilicon专利“可重构硬件的运行时优化”的基础,也是其Maverick-2处理器中使用的非冯·诺依曼数据流架构的指导原则。
“NextSilicon的宗旨是使用软件来加速您的应用程序。”Raz解释道,“其核心是一种复杂的软件算法,能够识别代码中的重要部分并对其进行加速。”
Maverick-2芯片有四个计算区域,每个区域有32个RISC-VE核。据统计,计算块网格由七列组成,每列八个计算块,芯片上总共有224个计算块。每个计算块有数百个ALU(算术逻辑单元),因此可轻松获得数万到近十万个ALU。
作为对比,英伟达的“Ampere”A100GPU采用台积电7纳米工艺制造;而“Hopper”H100和H200GPU采用4纳米工艺制造。我们推测ALU比CUDA核心更小,并且Maverick-2芯片上的ALU数量比英伟达GPU上的CUDA核心数量更多。
归根结底,ALU数量不如一组mill核心所能支持的线程数量重要。NextSilicon联合创始人兼架构副总裁Ilan Tayari表示:“NextSilicon的数据流架构使我们能够显著降低与传统CPU和GPU相比的开销。”
NextSilicon在发布会上还披露了一颗名为Arbel的RISC-VCPU。该核心已在台积电5nm工艺中实现,将支持高达2.5GHz的时钟速度。
具体而言,Arbel核心在整数端拥有一个10位宽的发射解码器和6个ALU(算术逻辑单元),在矢量端拥有4个128位FPU(浮点单元)。该核心可以并行支持16条标量指令。
“这是基于台积电5纳米工艺打造的真正硅片——这是我们自主研发的专利IP。”他们强调。
本文由主机测评网于2026-05-06发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260543200.html