集群部署 本地运行
将四台价值十万元的Mac Studio并联,能否部署一套价值上百亿人民币的超大规模AI模型?这看似天方夜谭,但Apple Silicon让这一设想成为现实。
此前,爱范儿曾报道过牛津大学的Alex Cheema与Seth Howes共同创立的Exo Labs公司,通过自研分布式模型调度平台,将两台Mac Studio串联实现本地运行百亿参数模型的事例:
延伸阅读:俩人拼出40万的Mac Studio「缝合怪」,双开满血DeepSeek不在话下
苹果显然注意到了Exo Labs的成果。在最新的macOS 26.2 Beta中,苹果针对性地强化了macOS的AI能力,重点方向正是Mac集群化部署。
简而言之,macOS 26.2 Developer Beta带来了两项关键改进:
苹果的开源阵列框架MLX现已支持调用M5处理器的神经网络加速器
Mac集群可以采用基于雷雳5协议的新型高速传输通道
在最新发布的14寸MacBook Pro中,苹果不仅为M5处理器采用了先进的3nm N3P工艺,还在GPU的每个核心中集成了神经网络加速器,显著提升了本地模型运行效率。
而macOS 26.2中更新的MLX框架,进一步拓展了M5神经网络加速器的应用场景:如今不仅「亲儿子」Apple Intelligence能够使用,借助MLX部署的第三方AI模型同样可以调用这一加速器。
MLX是苹果机器学习团队开发的、专为Apple Silicon优化的开源阵列框架,主要功能是让开发者在macOS程序中部署和微调AI模型,并实现模型的纯本地运行。
图|MLX官网
这意味着开发者可以在自己的应用中部署模型,利用M5的神经网络加速器提高响应速度,同时保留对模型进行微调的灵活性,比Apple Intelligence更具定制化优势。
直观来看,这为目前无法使用Apple Intelligence的Mac用户带来了显著利好。
此外,MLX借助神经网络加速器获得增强后,Mac的整体AI性能将进一步提升,这为macOS 26.2 Beta中的另一项AI升级奠定了坚实基础。
如前所述,Exo Labs的「Mac集群」方案通过动态负载分配规则,几乎将Mac的本地AI性能推至硬件极限。
而macOS 26.2 Beta所做的,则是通过优化Mac集群间的数据传输方式,进一步解锁了Mac的性能上限。
那么,苹果如何在不变更硬件的前提下提升本地AI性能?答案在于改进Mac集群之间的数据传输机制。
图|Apple Insider
在Exo Labs的早期版本中,物理连接、拓扑网络建立、统一内存池汇总和负载分配均依赖Mac Studio之间的雷雳5信道完成。
然而,尽管雷雳5拥有高规格,macOS却仅能通过传统的TCP-IP协议连接各台Mac。
图|Jon Deaton
这引发了一个问题:TCP-IP并非专为AI集群优化设计。尤其在「并行AI计算」这种对带宽和延迟要求极高的场景下,TCP-IP的「节点间延迟」会被进一步放大。
macOS在设备互联时使用TCP-IP,导致Exo V2即便能借助2TB统一内存加载大型模型,也只能采用相对低效的「管线并行」方式分配负载。
相当于这四台Mac Studio集群虽拥有2TB内存和240个GPU核心,却必须等待一个节点处理完毕才能传递至下一个节点,任务分配效率未达最优。
图|X @exolabs
如今,这一瓶颈终获解决——苹果开发了一套基于雷雳5的新型macOS连接协议,在TCP-IP基础上提供了大幅降低传输延迟的集群构建方案。
换言之,仅凭Mac自带的雷雳5接口和控制器,即可实现超低延迟的大带宽数据交换。在Mac集群中,这相当于让每块M3 Ultra处理器在任何时刻都能直接调度全部2TB的统一内存池。
图|FiberMall
值得注意的是:尽管新方案效果类似RDMA(远程内存直接访问),但无需RDMA所需的以太网卡或光模块,完全依赖现有雷雳5硬件实现。
这极大优化了节点间通讯延迟问题,使得Exo Labs能在最新软件Exo V3中实现Mac集群的「张量并行」分配。
相比「TCP-IP + 管线并行」组合,macOS 26.2 Beta的「雷雳5 + 张量并行」方案显著提升了负载分配效率,从而增加了每秒生成的token数量。
借助新的雷雳5传输方案,Exo V3还为集群构建提供了灵活选择。
现在不仅可以在不同型号的M系列处理器之间组建集群,用户还能自行选择各节点Mac使用TCP-IP或雷雳5、管线并行或张量并行,以实现不同场景下的利用率最大化。
这种来自苹果第一方和Exo Labs第三方的提升是切实有效的。
在最新版Exo V3中,我们甚至看到了四台顶配M3 Ultra Mac Studio集群上纯本地运行Kimi-K2-Thinking,一个量化后约占800GB内存的一万亿参数大语言模型,输出速度达到约25 token/秒。
当然,Kimi-K2-Thinking采用混合专家架构,生成每个token时无需调用全部一万亿参数,实际部署压力没有参数量显示的那般恐怖。
但如此规模的LLM仅靠四台Mac电脑就能带动,依然是一项非凡成就。
根据估算,当前主流闭源模型如Gemini 1.5和GPT-4等,也属于1~2万亿参数的MoE架构。换个角度思考——
投入四十万或八十万,组建一个Mac Studio集群,您就能在家中运行独享的Gemini或GPT模型,并且没有任何限制,可微调成任意所需形态。
综上所述,macOS 26.2 Beta主要对Mac的AI能力进行了一次「提升式」更新。
一方面让第三方模型能利用M5芯片的新特性,另一方面提高Mac组建集群的效率,看似不如英伟达推出DGX Spark那样令人振奋——
图|Tom"s Hardware
然而事实并非如此。
苹果通过macOS 26.2强化Mac的AI能力,实质上是在为最终的生态建设积累能量,正如以往自研处理器那般。
如前所述,四台Mac Studio利用Exo V3组成集群即可本地运行近似GPT-4规模的巨型模型,乍看之下或许不够经济。
毕竟愿意花费四十万元购买Mac的用户,通常有比本地运行模型更重要的事务处理。
但对个人无益,对企业却大有用途。苹果暗自加强Mac的集群AI性能,正是瞄准了目前关注度较低、规模效应尚未形成但潜在用户众多的「企业本地部署」市场。
图|Digitimes
出于商业信息保密和细分需求考虑,极少企业会选择直接订阅AI巨头的在线服务,然后将业务内容、财务报表或研发数据上传分析——
对于这些高敏感性数据,企业的AI功能需求往往必须「纯本地化」。
然而,一旦选择本地部署,许多企业用户会迅速陷入「水多加面、面多加水」的循环:
购置显卡需配备服务器,购置服务器需建设机房,建设机房需配套地皮、通风、电力、网络等基础设施……至此,购买显卡甚至可能成为总成本中最微不足道的一环。
图|Data Center Knowledge
此时,集成了CPU、GPU、统一内存、散热和供电系统,且集群能力不逊于DIY主机的Mac Studio显得尤为突出——
不仅Mac集群所需的空间和散热规模较散装服务器低数个量级,最大的用电成本也近乎减半(前述运行Kimi-K2-Thinking时总功耗仅约500W)。
利用多台Mac Studio搭建机房虽需上百万元,但以三至五年的时间跨度计算,其总拥有成本相比散装服务器,足以节省出数个同等规模机房。
图|AppleInsider
同时,它保留了所有纯本地运行AI模型的优势:数据私密性、全方位的微调能力、动态负载分配等。
对于企业部署场景而言,这些特性可能比「绝对性能」更为重要。
使用Mac组建集群、本地运行AI的有趣之处在于:这不像苹果深思熟虑的产品战略,反倒像一场双向奔赴的意外。
最初,苹果设计Apple Silicon时,追求的是统一架构、电脑能效比、跨端体验的一致性,并未预料到AI模型会在几年后成为行业焦点。
然而,运行本地模型、隐私数据管控、硬件成本控制、数据中心节能——这些五年前尚不明显的需求,在2025年逐渐演变为中小规模企业、工作室和开发者对AI业务的核心诉求。
正是这两者的碰撞,造就了今日Mac作为「本地AI工作站」不可替代的价值。
此外,macOS 26.2 Beta是一次纯软件更新,后续所有支持雷雳5的Mac机型均能在「组建集群」的场景中受益。
那些购买Mac Studio的用户,并非「十万元购入一台艺术电脑」,反而会突然发现设备价值倍增——
这台当初用于视频剪辑、设计创作的工作站,如今已能运行万亿参数的大型模型。
图|AppleInsider
虽看似意外,但这恰恰体现了技术储备的意义——技术的价值,有时会在意想不到之处显现。
此前苹果选择统一内存架构,是为了让Mac的体验与iPhone保持一致;推广雷雳5,是为了支持更高规格的音视频输出;在每个GPU核心中集成神经网络加速器,是为了Apple Intelligence。
起初,无人料到这些策略会在AI时代产生如此化学反应。
但当AI模型的行业化、规模化应用真正爆发时,这些「无心」的技术积累,恰好助力Mac成为最适宜的解决方案之一。
无心插柳柳成荫,这或许是对Mac AI能力最为贴切的描述。
本文由主机测评网于2026-02-06发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260223253.html