当前位置:首页 > 科技资讯 > 正文

英伟达构建AI生态城墙:从Groq到SchedMD的全面布局

英伟达构建AI生态城墙:从Groq到SchedMD的全面布局 英伟达 AI芯片 集群管理 工作负载管理 第1张

近期,英伟达宣布了一项重磅消息,一次性解密了六颗芯片,此举在全球范围内引起了巨大轰动。然而,早在去年年底,AI芯片圈就炸响了一则令人震惊的公告:推理芯片初创公司 Groq 宣布与英伟达达成了一项“非独家许可协议”。虽然公告简短,但随后的信息迅速揭示了这笔交易的深层含义——Groq 的创始人兼 CEO Jonathan Ross、总裁 Sunny Madra 以及多名核心成员将加入英伟达,共同推进授权技术的规模化。

从表面上看,这并非一次收购;但若从结果来看,它几乎具备了收购的所有要素。技术被许可,团队被吸纳,关键人物离场,尽管 Groq 名义上继续运营,但其最具决定性的资产——技术路线与灵魂人物——已转移到英伟达手中。这堪称一种典型的“收购式招聘”,也是英伟达近年来常用的策略:在不触碰监管红线的前提下,将潜在威胁纳入自己的体系。

更为重要的是,这一举动发生在一个极其敏感的时间点。AI 芯片的竞争正由“训练为王”转向“推理决胜”。英伟达的 GPU 依旧在训练市场占据主导地位,但在推理端,AMD、定制 ASIC、云厂商自研芯片正迅速逼近,成本与供应链多元化成为大客户的核心诉求。Groq 的 LPU 正是为推理而生,主打极致低延迟和性能确定性,其创始人 Jonathan Ross 更被视为谷歌 TPU 背后的关键推手——这是一家不容忽视的公司。

因此,与其说英伟达“买”下了 Groq,不如说它在竞争白热化之前,提前拆除了可能威胁自身根基的城梯。回顾历史,从 Mellanox 到未遂的 Arm,再到今天的 Groq,英伟达不仅是在扩张版图,更是在一砖一瓦地加固自己的防御体系。它关注的已不再是某一笔交易的得失,而是如何在训练、推理、网络、软件与生态的多条战线上构筑起一道几乎无法绕开的“城墙”。

算力焦虑:根源何在?

英伟达与 Groq 达成交易的重要性并不在于它是否会推出一款“非 GPU 的 AI 芯片”,而在于它暴露了英伟达真正的焦虑来源。今天的英伟达在训练算力层面已取得了事实上的统治地位,但 AI 产业的重心正在悄然转移——从“谁能堆更多 FLOPS”转向“谁能更高效、更确定性地交付推理结果”。

Groq 的价值并不在于算力规模,而在于其系统哲学。它强调确定性延迟、编译器对执行路径的绝对控制以及“推理是系统问题而非硬件问题”。这套思路与 GPU 世界中长期存在的动态调度、非确定性执行形成鲜明对比。

Groq 的核心技术是自研的 LPU(Language Processing Unit)架构,采用静态调度、数据路径固定、执行流程可预测的“确定性设计”,实现了在某些场景下的极致低延迟。尽管 Groq 最初也试图进入训练市场,但很快发现这是一条死路。于是从 2023 年下半年开始,它明确转向推理即服务(Inference-as-a-Service)方向。

正是这种“异类”恰好击中了英伟达的软肋。随着大模型进入规模化落地阶段,客户开始更加关注延迟、能效、TCO 和系统复杂度。推理正走向碎片化:云厂商自研 ASIC、CPU+加速器混合部署、边缘侧异构系统层出不穷。如果英伟达只停留在“卖最强 GPU”,其在推理端的话语权迟早会被系统层慢慢侵蚀。

对英伟达而言,Groq 的意义不仅是“补一块芯片”,更是补一块尚未完全掌控的系统能力:对执行路径的强约束、对延迟的可预测性,以及编译器主导的算力使用方式。换句话说,如果说 GPU 是英伟达的地基,那么 Groq 代表的则是它试图插入系统顶层的一根“控制梁”。

对“集群控制权”的长期执念

在与 Groq 达成交易之前,英伟达其实早已悄然埋下了一条新的主线。

许多人习惯从操作系统的角度理解算力生态,认为谁控制了 Linux 发行版或内核谁就掌握了计算世界的话语权。但在 AI 时代,这种逻辑已开始失效。英伟达对此看得非常清楚:真正重要的是节点之上的集群控制方式。

这正是英伟达在 2022 年 1 月收购 Bright Computing 的根本原因。Bright Computing 的集群管理工具 BCM 在全球拥有超过 700 家用户。BCM 最初是为管理传统高性能计算(HPC)系统而设计的,但多年来它已适配多种对控制要求极高的分布式系统。

在被英伟达收购并更名为 Base Command Manager 之后,这套工具被完整纳入 AI Enterprise 软件堆栈,成为英伟达 AI 系统的“底层控制平面”。通过许可证模式,英伟达开始按 GPU、按年份出售“系统能力”。

这一步的意义极其关键:它意味着英伟达正式把“集群管理”变成了自己的商业资产。

此外,英伟达还设定了一个精妙的商业策略:对于每个节点包含 8 个 GPU 以内的集群提供免费的 BCM 许可证,但不提供任何技术支持且“随时可能被撤销”。这意味着企业若想要稳定的生产环境就必须购买 AI Enterprise 许可证。免费版本并非慷慨之举,而是一种“试用即绑定”的策略。

开源不是放弃控制

2025 年 12 月,英伟达补上了生态城墙的最后一块砖:收购了 SchedMD,获得了 Slurm 工作负载管理器背后的核心团队和技术支持权。

Slurm 项目始于 2001 年,在 Top500 超级计算机排行榜上出现的计算机中约有 60% 使用 Slurm 作为其工作负载管理器。Slurm 过去十多年里成为超级计算领域的事实标准,并非因为它最激进而是因为它足够稳定、足够中立且足够适配不断变化的硬件环境。

通过收购 SchedMD,英伟达并没有否定 Slurm 的开源属性,反而在公开表态中反复强调其“厂商中立性”。然而需要看清的是:开源并不等于没有权力结构。谁来维护主干代码、提供企业级支持以及决定新特性的优先级这些问题比许可证本身重要得多。

新的城墙已经成型

将 Groq、Bright Computing、Run:ai 和 SchedMD 放在同一条时间线上看,英伟达的收购逻辑变得异常清晰:它正在系统性地收回 AI 计算体系中的“非硬件控制权”。

第一层:对集群资源的调度权。从 Mellanox 的网络互联技术到 Bright Computing 的集群管理再到 SchedMD 的工作负载调度,英伟达控制了算力如何连接、分配和执行的完整链条。

第二层:对工作负载执行路径的定义权。Run:ai 提供的 GPU 虚拟化和资源抽象、Mission Control 提供的自动化部署和健康检查以及 Slurm 提供的作业调度共同定义了任务应该如何运行、在哪里运行以及使用多少资源。

第三层:对企业级支持与系统复杂度的掌控权。通过 AI Enterprise 许可证模式英伟达将所有工具打包成商业服务。客户购买的是一整套“系统集成能力”而非单个组件。

一旦这三层叠加完成客户即便理论上可以选择其他硬件在实践中也会发现迁移成本过高。从卖芯片到卖生态英伟达的商业模式已发生质变。过去的 GPU 是产品现在的 GPU 是生态入口。收购的真实逻辑不是规模并购而是精准补洞:在 AI 计算的完整链条中哪一环还没有被控制?

这也是为什么说英伟达正在构建的不仅是传统意义上的护城河而是一座生态城墙。它不靠封锁入口而是通过系统整合让离开变得不再理性。在 AI 进入基础设施阶段之后这种能力或许比任何一代 GPU 都更加持久。