当前位置:首页 > 科技资讯 > 正文

Mac集群化AI:四台Studio运行万亿参数模型,苹果软件更新释放潜力

Mac集群化AI:四台Studio运行万亿参数模型,苹果软件更新释放潜力 Mac集群 AI本地部署 Apple Silicon 雷雳5协议 第1张

集群部署 本地运行 

将四台单价十万元的Mac Studio通过高速互联组成集群,便能驱动一套原本需要耗资上百亿人民币建设的超大规模AI模型?这听起来似乎不可思议,但苹果基于Apple Silicon的独特架构确实将这一愿景变为了现实。

数月前,爱范儿曾报道过牛津大学的Alex Cheema与Seth Howes联合创立的Exo Labs公司,他们利用自主研发的分布式模型调度平台,成功将两台Mac Studio串联,实现了本地运行百亿级参数模型的突破:

延伸阅读:两人拼凑40万Mac Studio“缝合怪”,双开满血DeepSeek轻松实现

Mac集群化AI:四台Studio运行万亿参数模型,苹果软件更新释放潜力 Mac集群 AI本地部署 Apple Silicon 雷雳5协议 第2张

显然,Exo Labs的成果已引起苹果的高度关注。在最新的macOS 26.2 Beta版本中,苹果针对Mac的AI能力进行了一系列极具针对性的强化,其方向正与Exo Labs展示的“Mac集群化部署”理念不谋而合。

简而言之,在最新macOS 26.2 Developer Beta中,苹果引入了两项关键改进:

苹果开源阵列框架MLX现已支持调用M5处理器的神经网络加速器

Mac集群可借助基于雷雳5协议的新型高速传输通道实现更优互联

神经网络加速器“普惠万家”

在刚刚更新的14英寸MacBook Pro中,苹果不仅为M5处理器采用了最新的3nm N3P工艺,还在每个GPU核心中集成了神经网络加速器,实现了本地模型运行效率的飞跃——“10核性能媲美24核”:

Mac集群化AI:四台Studio运行万亿参数模型,苹果软件更新释放潜力 Mac集群 AI本地部署 Apple Silicon 雷雳5协议 第3张

而macOS 26.2中更新的MLX框架,则进一步拓展了M5神经网络加速器的应用场景:现在不仅苹果自研的Apple Intelligence可以调用,借助MLX部署的第三方AI模型同样能充分利用这一硬件加速能力

MLX是苹果机器学习团队专为Apple Silicon打造的开源阵列框架,其核心作用是帮助开发者在macOS应用中部署和微调自有AI模型,并确保模型完全在本地运行。

Mac集群化AI:四台Studio运行万亿参数模型,苹果软件更新释放潜力 Mac集群 AI本地部署 Apple Silicon 雷雳5协议 第4张

图|MLX官网

如此一来,开发者在应用中集成模型时,可直接调用M5处理器的神经网络加速器,大幅提升响应速度,同时保留模型微调的灵活性,相比Apple Intelligence更具开放性——尤其利好那些暂时无法使用Apple Intelligence的Mac用户,比如国内用户

Mac集群化AI:四台Studio运行万亿参数模型,苹果软件更新释放潜力 Mac集群 AI本地部署 Apple Silicon 雷雳5协议 第5张

借助神经网络加速器的加持,MLX框架如虎添翼,Mac的整体AI能力将获得质的提升。这也为macOS 26.2 Beta中的另一项AI升级奠定了坚实基础。

如前所述,Exo Labs的“Mac集群”方案最初仅能勉强运行405B参数的Llama模型,后通过动态负载分配优化,最终流畅运行671B参数的DeepSeek V3,几乎将Mac本地AI性能推向硬件极限

Mac集群化AI:四台Studio运行万亿参数模型,苹果软件更新释放潜力 Mac集群 AI本地部署 Apple Silicon 雷雳5协议 第6张

而macOS 26.2 Beta所做的,正是进一步解锁Mac的能力上限,为类似Exo Labs的本地AI工具提供更广阔的发挥空间。那么,苹果究竟通过何种方式,在不改变硬件的前提下凭空提升Mac的本地AI性能?

答案在于优化Mac集群间的数据传输机制,这一操作虽看似“下载免费内存”般神奇,实则通过底层协议革新实现。

Mac集群化AI:四台Studio运行万亿参数模型,苹果软件更新释放潜力 Mac集群 AI本地部署 Apple Silicon 雷雳5协议 第7张

图|Apple Insider

雷雳5的一百种用法

在先前版本的Exo Labs中,Mac Studio间的物理连接、拓扑网络建立、统一内存池汇总及负载分配均依赖雷雳5信道。然而,尽管雷雳5纸面规格极高,macOS却仍采用传统的TCP-IP协议进行设备互联。

Mac集群化AI:四台Studio运行万亿参数模型,苹果软件更新释放潜力 Mac集群 AI本地部署 Apple Silicon 雷雳5协议 第8张

图|Jon Deaton

这带来了一个关键问题:TCP-IP并非为AI集群场景优化设计。特别是在对带宽和延迟极度敏感的并行AI计算中,TCP-IP的节点间延迟会被显著放大。macOS采用TCP-IP进行设备互联,导致Exo V2即便能借助2TB统一内存加载巨型模型,也只能使用相对低效的“管线并行”方式分配负载——四台Mac Studio组成的集群虽拥有2TB内存和240个GPU核心,却只能串行处理任务,效率远未达到最优

Mac集群化AI:四台Studio运行万亿参数模型,苹果软件更新释放潜力 Mac集群 AI本地部署 Apple Silicon 雷雳5协议 第9张

图|X @exolabs

如今,这一协议瓶颈终于被打破——苹果开发了一套基于雷雳5的全新macOS连接协议,在传统TCP-IP之外,为Mac提供了一种大幅降低延迟的集群组建方案。换言之,现在仅凭Mac自带的雷雳5接口和控制器,即可实现超低延迟、高带宽的节点间交换。对于Mac集群而言,这意味着每块M3 Ultra处理器都能随时直接调度全部2TB的统一内存池

Mac集群化AI:四台Studio运行万亿参数模型,苹果软件更新释放潜力 Mac集群 AI本地部署 Apple Silicon 雷雳5协议 第10张

图|FiberMall

值得注意的是:苹果这套新方案虽效果类似RDMA,但完全基于现有雷雳5硬件实现,无需额外配置以太网卡或光模块。这极大优化了Exo V2曾面临的节点间通信延迟问题,使得Exo Labs能在最新版Exo V3中实现Mac集群的“张量并行”分配模式。相比“TCP-IP+管线并行”,macOS 26.2 Beta的“雷雳5+张量并行”方案显著提升了负载分配效率,缩短了四台Mac Studio间的协调时间,进而提高了每秒生成的token数量。

Mac集群化AI:四台Studio运行万亿参数模型,苹果软件更新释放潜力 Mac集群 AI本地部署 Apple Silicon 雷雳5协议 第11张

借助新的雷雳5传输方案,Exo V3还为集群构建提供了灵活选择:不仅支持不同型号M系列处理器混搭组网,用户还可自主选择TCP-IP或雷雳5、管线并行或张量并行,以实现各场景下的资源利用率最大化。这种来自苹果第一方与Exo Labs第三方的双重优化,带来了切实的性能提升。在最新Exo V3中,四台顶配M3 Ultra Mac Studio组成的集群已能纯本地运行量化后约800GB的Kimi-K2-Thinking模型——一个万亿参数的大语言模型,最终输出速度达到约25 token/秒。

Mac集群化AI:四台Studio运行万亿参数模型,苹果软件更新释放潜力 Mac集群 AI本地部署 Apple Silicon 雷雳5协议 第12张

当然,Kimi-K2-Thinking采用混合专家架构,生成每个token时无需调用全部万亿参数,实际部署压力远低于参数量所示。但如此规模的LLM能仅靠四台Mac电脑驱动,本身已是惊人成就。据估算,当前主流闭源模型如Gemini 1.5和GPT-4等,同样为1~2万亿参数的MoE架构——换言之,投入四十万或八十万组建Mac Studio集群,即可在家运行一个完全独享、可任意微调的Gemini或GPT级别模型,且无任何使用限制

花四十万或八十万,组一个Mac Studio的大集群,你就可以自己在家跑一个独享的Gemini或者GPT了,并且没有任何限制、可以微调成你自己想要的任何样子。

Mac的AI价值,其实在商业

综上所述,macOS 26.2 Beta主要对Mac的AI能力进行了“提升式”更新:一方面让第三方模型能利用M5芯片新特性,另一方面提升Mac集群效率。这或许不如英伟达DGX Spark那般令人振奋,但意义同样深远——

Mac集群化AI:四台Studio运行万亿参数模型,苹果软件更新释放潜力 Mac集群 AI本地部署 Apple Silicon 雷雳5协议 第13张

图|Tom"s Hardware

然而事实并非如此。苹果通过macOS 26.2强化Mac AI能力,实则是在看不见的地方悄然布局,为生态建设积蓄能量,正如当年自研处理器一般。四台Mac Studio用Exo V3组成集群,本地运行近似GPT-4规模的巨型模型,乍看似乎性价比不高——毕竟能花四十万购买Mac的用户,通常有比跑模型更重要的事务。

但对个人无意义,不代表对企业无价值。苹果暗自提升Mac集群AI性能,瞄准的正是当前关注度不高、规模效应尚未显现,但潜在用户庞大的“企业本地部署”市场。

Mac集群化AI:四台Studio运行万亿参数模型,苹果软件更新释放潜力 Mac集群 AI本地部署 Apple Silicon 雷雳5协议 第14张

图|Digitimes

出于商业信息保密和个性化需求,极少企业会直接订阅AI巨头的在线服务,将核心业务数据上传分析——对于高敏感数据,企业AI需求必须“纯本地化”。然而,一旦选择本地部署,企业往往会陷入“水多加面、面多加水”的困境:购置显卡需配套服务器,服务器需机房,机房需地皮、通风、电力、网络基础设施……最终显卡成本可能仅占极小部分。

买了显卡要放服务器,买了服务器要放机房,建了机房要配套地皮通风电力网络基础设施……到了那个阶段,买显卡甚至可能是总成本里最不起眼的那一块。

Mac集群化AI:四台Studio运行万亿参数模型,苹果软件更新释放潜力 Mac集群 AI本地部署 Apple Silicon 雷雳5协议 第15张

图|Data Center Knowledge

此时,集成CPU、GPU、共享内存、散热与供电,且集群能力不输DIY主机的Mac Studio便凸显出独特优势——Mac集群所需空间和散热规模远低于散装服务器,用电成本更是接近腰斩(前述运行Kimi-K2-Thinking时总功耗仅约500W)。虽然用多台Mac Studio搭建机房初期投入可能达上百万,但以三五年为周期计算,其总拥有成本相比散装服务器能节省出多个机房的投入

Mac集群化AI:四台Studio运行万亿参数模型,苹果软件更新释放潜力 Mac集群 AI本地部署 Apple Silicon 雷雳5协议 第16张

图|AppleInsider

同时,Mac集群保留了纯本地运行AI模型的所有优势:数据私密性、全方位微调能力、动态负载分配(如同时运行超大模型或数个小模型)等。对于企业部署场景,这些要素往往比“绝对性能”更为关键。

无心插柳柳成荫

用Mac搭建集群、本地运行AI的有趣之处在于:这并非苹果深思熟虑的产品战略,更像是一场双向奔赴的意外。最初,苹果设计Apple Silicon时追求的是统一架构、能效比和跨端体验一致性,并未预见AI模型会成为行业核心。然而,运行本地模型、隐私数据管控、硬件成本控制、数据中心节能——这些五年前尚不明显的需求,到2025年逐渐演变为中小企业、工作室和开发者对AI业务的核心诉求。

Mac集群化AI:四台Studio运行万亿参数模型,苹果软件更新释放潜力 Mac集群 AI本地部署 Apple Silicon 雷雳5协议 第17张

正是这两者的碰撞,造就了今天Mac作为“本地AI工作站”的不可替代价值。

此外,macOS 26.2 Beta是一次纯软件更新,后续所有支持雷雳5的Mac机型均能在集群场景中受益。那些购买Mac Studio的用户,并非“十万元买了台艺术电脑”,而是突然发现自己的设备价值倍增——这台原本用于剪辑、设计的工作站,如今竟能运行万亿参数的大模型。

Mac集群化AI:四台Studio运行万亿参数模型,苹果软件更新释放潜力 Mac集群 AI本地部署 Apple Silicon 雷雳5协议 第18张

图|AppleInsider

这看似意外,却恰恰体现了技术储备的意义——技术的价值,有时会在意想不到的地方显现。此前苹果选择统一内存架构,是为了让Mac体验与iPhone保持一致;推广雷雳5,是为支持更高规格音画输出;在每个GPU核心中塞入神经网络加速器,是为Apple Intelligence铺路。

Mac集群化AI:四台Studio运行万亿参数模型,苹果软件更新释放潜力 Mac集群 AI本地部署 Apple Silicon 雷雳5协议 第19张

起初,无人预料这些策略会在AI时代产生如此奇妙的化学反应。但当AI模型的行业化、规模化应用真正爆发时,这些“无心”的技术积累,恰好使Mac成为最合适的解决方案之一。无心插柳柳成荫——这或许是对Mac AI能力最贴切的形容。