昨日,苹果公司在arXiv平台上发布了一篇新论文,但不久后又迅速撤下,原因尚未公开。
根据提交记录,该论文早在12月6日(UTC时间)就已上传至arXiv,直到11日才正式公开,然而上线仅数小时便被火速撤回,这一反常举动引发了外界诸多猜测。
幸运的是,论文的v1版本已被互联网存档,让我们得以一窥其中的内容。
论文中,苹果介绍了一个基于TPU的可扩展强化学习框架RLAX,该框架专为大规模分布式训练设计。
令人意外的是,该框架并未使用苹果自研的GPU或M系列芯片,而是采用了谷歌的TPU!不仅如此,研究过程中还调用了亚马逊的云服务,并基于中国的Qwen模型进行实验。
论文标题:RLAX: Large-Scale, Distributed Reinforcement Learning for Large Language Models on TPUs
存档地址:https://arxiv.org/pdf/2512.06392v1
总的来说,这篇论文带来了多项技术突破,但也揭示了苹果AI团队的一些动态。
RLAX论文由四位核心作者完成:Runlong Zhou、Lefan Zhang、Shang-Chen Wu和Kelvin Zou。
通讯作者为Kelvin Zou和Cheng Leong。其中Kelvin Zou曾担任苹果首席工程师,现已加入Meta成为AI研究科学家。而Cheng Leong则是苹果资深员工,现任AI基础设施主管,已在公司任职超过13年。
截图自LinkedIn
值得注意的是,前苹果AI负责人庞若鸣也出现在作者名单中,与其他六位作者共同署名,且注明“已离开苹果,但在任职期间对本工作有贡献”。这些作者大多在近几个月内离职:
回到技术本身。强化学习(RL)对于现代推理语言模型至关重要,几乎所有顶尖模型都基于RL,如OpenAI o3、Claude 4、Grok 4、Gemini 2.5、DeepSeek R1以及Qwen 3。
苹果推出的RLAX是一个专为在大规模分布式TPU集群上高效执行先进RL算法而设计的强化学习框架,其核心设计思路值得关注。
RLAX采用参数-服务器架构,主训练器定期将更新后的权重推送到参数服务器,同时一组推理工作器拉取最新权重并生成新的采样数据。
该团队通过系统级技术将训练器、推理工作器和验证器在逻辑上分离,这种逻辑解耦使RLAX能灵活独立地为各组件分配计算资源。
最关键的是,RLAX完全支持抢占式调度,当更高优先级任务(如在线推理)出现时,系统可立即回收TPU资源,而不会导致训练中断。
RLAX致力于解决大规模LLM后训练RL中的关键挑战,尤其是高效处理On-policy和Off-policy RL。
为此,RLAX提供了可编程配置选项,允许用户设置“陈旧度界限”,指定推理工作器拉取新权重的频率以及训练器能容忍的最大Rollout陈旧度,从而在On-policy和Off-policy RL之间灵活切换。
在验证器设计上,苹果工程师展现了一种黑色幽默。为了高效验证代码执行,他们将标准Python依赖项容器化,并调用亚马逊AWS Lambda服务,命名为Oubliette。
“Oubliette”源自法语,原指城堡中仅有一个出口的地下牢房,用于“遗忘”囚犯。苹果工程师借此隐喻无状态验证环境:代码和测试数据被投入这个基于Lambda的“地牢”,执行完毕后环境即刻销毁,仿佛从未存在。
实验阶段,一个“缝合怪”诞生了:
换句话说,苹果工程师在美国用谷歌TPU,调亚马逊Serverless服务,优化中国开源的Qwen模型。
结果令人印象深刻:RLAX仅用12小时48分钟,在1024个v5p TPU上将QwQ-32B的pass@8准确率提升了12.8%,同时保持了训练期间对任务抢占的鲁棒性。
这种跨平台、跨云、跨模型的技术融合,在苹果以往封闭生态中难以想象。这折射出两个趋势:第一,AI基础设施领域实用主义压倒门户之见;第二,国产模型(尤其是Qwen和DeepSeek)在代码推理领域的统治力已不容忽视。
在论文第4页和第9页,苹果披露了一个令系统工程师头疼的Bug。
在强化学习中,On-policy训练的理论基石——重要性采样比率r(θ)应恒等于1.0,因为行为策略与当前策略一致。
但在TPU实战中,团队发现:1.0竟然不等于1.0。
根源在于bfloat16浮点数的非结合律特性,即(a+b)+c与a+(b+c)可能存在微小差异。
这种计算顺序差异在bfloat16下被放大,导致推理端与训练端概率无法对齐,最终训练崩溃。
苹果的解决方案粗暴有效:在训练器中强制重算,禁用大部分激活值保存,让训练端计算图模仿推理端顺序,虽牺牲一点速度,但解决了数值问题。
这对从事LLM后训练的工程师极具参考价值。
尽管论文已撤稿,但RLAX证明了苹果在AI基础设施上仍具备世界级工程能力。然而,随着核心成员分散至Meta、OpenAI、Anthropic和xAI,这篇论文似乎也成了苹果AI阶段的一个注脚。
本文由主机测评网于2026-03-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260328847.html