(亚马逊AWS CEO马特·加曼在re:Invent 2025发布Trainium 3)
作者按:re:Invent是全球最大云厂商亚马逊AWS一年一度的战略和技术大会。re:Invent 2025于12月1日-5日在美国拉斯维加斯召开。我们在现场,记录美国云计算行业这一年最新的变化。
以下是正文:
当地时间12月3日,在拉斯维加斯举办的re:Invent 2025大会上,全球云计算领头羊亚马逊AWS正式揭晓了其新一代AI芯片与自研模型。此次发布备受业界关注,标志着亚马逊在AI基础设施领域又迈出了关键一步。
亚马逊AWS首席执行官马特·加曼在会上宣布,采用3纳米制程工艺的自研AI芯片Trainium 3现已上线。同时,下一代Trainium 4芯片也已进入研发设计阶段,预计将在未来带来更强大的性能提升。
除了硬件创新,亚马逊AWS还推出了Amazon Nova 2系列自研模型,包含Lite(轻量化版)、Pro(专业版)、Sonic(声音模型)和Omni(多模态推理模型)四款产品。目前,已有数万家企业客户采用Nova系列,其中包括海信、印孚瑟斯(印度第二大IT企业)等知名公司。
马特·加曼透露,截至目前,亚马逊已部署超过100万枚Trainium系列AI芯片。这些芯片每年为亚马逊AWS贡献数十亿美元的收入,成为公司重要的增长引擎。
大规模部署AI芯片需要强大的电力支撑。过去12个月,亚马逊AWS新增了3.8GW算力(1GW可容纳约20万枚英伟达GB200芯片),目前总电力容量已是2022年的两倍,并计划到2027年再次翻倍,以满足未来算力需求。
Trainium 3在能效方面表现突出,每兆瓦电力可生成的Token数量是上一代芯片的五倍。据亚马逊AWS公布的数据,Trainium 3的训练成本相比其他产品最多可降低50%,为客户带来显著的成本优势。
根据亚马逊发布的路线图,下一代Trainium 4芯片在FP4计算精度下的性能将比Trainium 3提升6倍以上,进一步巩固其在AI芯片领域的竞争力。
Trainium系列芯片并不直接销售,而是通过云服务方式提供给企业客户。目前,大模型创业公司Anthropic、数据库公司Databricks等均已采用Trainium芯片。值得一提的是,Anthropic计划在2025年底前使用超过100万个Trainium 2芯片组成的算力集群,以运行其Claude系列模型。
亚马逊AWS表示,搭载Trainium 3的Trn3 UltraServer服务器集成了144枚芯片,总算力高达362PFlops。其整机性能甚至超越了英伟达旗舰服务器Blackwell GB200 NVL72。不过,按单卡性能计算,Trainium 3仅为GB200的56%。
这凸显了亚马逊通过系统级堆料弥补单卡性能差距的策略。在单卡性能不及对手的情况下,亚马逊AWS通过提升服务器集群算力和带宽,成功缩小了与英伟达的整体差距。
(Trainium3 UltraServer服务器机柜)
一位亚马逊AWS内部人士曾向《财经》表示,自2021年启动自研AI芯片项目以来,亚马逊AWS已坚持五年之久。为了降低算力成本并减少对英伟达的依赖,这一战略方向绝不会动摇。
亚马逊AWS的自研芯片战略可追溯至2018年。当时在英特尔、AMD主导CPU市场的背景下,亚马逊AWS就开始自研Graviton系列CPU芯片。如今,Graviton系列已发展至第四代,历经七年磨砺。
近三年,Graviton系列芯片在亚马逊AWS新增CPU算力中占比超过50%,成功替代了英特尔和AMD的产品(详见《多自研少采购,亚马逊超50%新增算力来自自研芯片》)。其客户甚至包括苹果和全球最大ERP软件企业SAP等巨头。
亚马逊AWS等云厂商自研AI芯片的核心目标之一是降低总拥有成本(TCO)。通过自研芯片,云厂商可以减少对第三方供应商的依赖,并优化成本结构。
截至2025年,英伟达在全球AI芯片市场占据超过60%的份额,其综合毛利率高达69%。这意味着,亚马逊AWS、微软Azure、谷歌GCP等云厂商每采购一枚英伟达芯片,就有60%以上的成本转化为英伟达的利润。
一位资深算法工程师今年10月曾对《财经》表示,英伟达在AI芯片市场赚取了超额利润。当前,大多数科技公司都不愿完全依赖英伟达,部分企业转向ASIC技术路线,通过高度定制化芯片来满足自身业务需求,这为替代英伟达提供了现实可能。
云厂商自研芯片一旦实现量产,边际成本将逐渐降低,最终接近台积电的代工成本。理想情况下,自研芯片的价格可降至英伟达同等规格芯片的三分之一。这正是亚马逊、谷歌、阿里巴巴、百度等纷纷投入自研AI芯片的重要原因。
今年11月28日,全球半导体分析和研究机构SemiAnalysis在一份关于谷歌TPU v7芯片的成本分析报告中,详细计算了其运行成本。报告显示,谷歌内部使用的TPU v7运行成本为1.28美元/小时,仅为英伟达GB200(2.28美元/小时)的56%。若考虑云上对外服务的利润空间,TPU v7的对外运行成本约为1.6美元/小时,仍只有GB200的51%。
目前,成功自研AI芯片并实现规模化替代英伟达的云厂商包括亚马逊和谷歌。谷歌TPU的出货量甚至超过亚马逊Trainium系列。
摩根士丹利2025年11月发布的《全球AI供应链更新》研报显示,谷歌TPU系列芯片在2023年至2025年的出货量分别为50万枚、240万枚和175万枚。报告预测,2026年谷歌TPU出货量将达到300万枚。
亚马逊Trainium系列超100万枚的部署量,加上谷歌TPU系列超200万枚的年出货量,意味着这两家云厂商已在英伟达主导的市场中撕开了一道口子。
2025年,英伟达AI芯片年出货量超过600万枚。今年10月29日,英伟达创始人黄仁勋在GTC华盛顿特区峰会上披露了芯片销量情况。上一代Hopper系列(H100、H200、H20)在2023年至2025年的整个生命周期内共交付400万枚GPU。而目前主力旗舰Blackwell系列(GB200、GB300)在量产后的三个半到四个季度内(约2024年10月中旬至2025年10月)已交付600万枚。未来五个季度,英伟达还有2000万枚Blackwell和Rubin系列芯片待交付。
2025年9月,高盛在研报中预估,2025年至2027年全球AI芯片需求量分别为1000万颗、1400万颗和1700万颗。其中,英伟达GPU的市场份额预计将从62%降至55%。
本文由主机测评网于2026-02-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260227261.html