当前,大型语言模型(LLM)已经展现出卓越的推理能力,其核心提升策略之一便是测试时扩展(test-time scaling)。
通常,通过延长思维链(CoT)来增加“思考时间”,可以显著提升模型性能,特别是在结合大规模强化学习与可验证奖励(RLVR)进行优化时效果更为明显。
然而,面对那些容易产生细微中间错误或需要创造性思维转换的复杂问题,较长的思维链仍存在本质局限。在这些场景中,模型往往依赖于内部自我反思,但这种方法时常无法识别错误,也难以在初始方法有缺陷时进行有效自我修正。
因此,模型不仅需要“更长时间”思考,还应具备“更智能”的思考能力。为此,可以引入更高级的认知功能,使模型能够自主利用恰当工具,从工具环境提供的反馈信号中进行推理、验证和学习。
最近,微软研究院的一个团队探索了运用主动式强化学习(agentic reinforcement learning)来实现这一目标,即让模型与专用工具环境中的工具互动,并根据接收到的反馈调整其推理过程。
他们的研究成果便是rStar2-Agent,这是一种高效的主动式强化学习方法。采用该方法,微软团队训练了一个14B参数的推理模型rStar2-Agent-14B——该模型达到了前沿性能水平,甚至可与671B的DeepSeek-R1相媲美或超越!
此项研究在社交媒体上引发了广泛关注与讨论。
接下来,我们将简要解析微软如何打造出这款以小巧体型实现卓越性能的模型。
论文标题:rStar2-Agent: Agentic Reasoning Technical Report
论文地址:https://arxiv.org/pdf/2508.20722
代码地址:https://github.com/microsoft/rStar
本研究采用的环境基于Python编程工具和解释器。
Python编程工具能够扩展模型的行为空间,使其可以探索多种解决方案并验证中间步骤,从而在仅靠延长CoT不足时补充内部自我反思的短板。
然而,在该环境中有效扩展主动式强化学习面临多重困难。
首先,编程工具和Python解释器固有的复杂性会将环境噪声引入推理流程。当模型不可避免地生成语法或逻辑错误的代码时,由此产生的环境反馈(如错误信息)可能导致模型消耗大量token来纠正错误,而非推进推理。遗憾的是,当前强化学习方法主要依赖“仅结果奖励”,这加剧了问题,因为即使中间工具调用失败的轨迹只要最终答案正确仍能获得正向奖励。这会使模型将错误视为可接受,并产生冗长低质的推理轨迹。
其次,大规模主动式强化学习训练对基础设施要求极高。单个训练批次可能触发数万个并发工具调用,使得构建可靠且响应迅速的代码执行环境极具挑战性。
此外,与环境交互的智能体部署会放大标准强化学习系统中的效率低下问题,显著拖慢整体训练速度。
微软提出的rStar2-Agent涵盖三项关键创新。
第一,团队为大规模主动式强化学习构建了一套高效可靠的基础架构。
他们开发了一个高吞吐量、独立的代码环境,可处理45K个并发工具调用,平均执行反馈仅需0.3秒即可返回。
为解决强化学习rollout效率低下问题,他们引入了负载均衡的rollout调度程序,能根据GPU上可用键值缓存容量动态分配rollout请求,从而最大化计算利用率。
即使在GPU资源有限的情况下,该基础架构也能支持高效强化学习训练。使用64块MI300X GPU,团队仅用一周时间便完成了rStar2-Agent-14B的训练。
第二,为在代码环境中实现有效的主动式强化学习,团队提出了基于正确重采样的组相对策略优化(GRPO-RoC),它将GRPO与基于正确重采样(RoC)的rollout策略结合,以解决稀疏且仅关注结果的奖励条件下环境噪声带来的干扰。
具体来说,RoC首先对较大的rollout组进行过采样,然后下采样至标准批次大小。正向轨迹经过筛选,只保留质量最高、工具导致错误或格式问题最少的轨迹,而负向轨迹则进行均匀下采样。
这种简洁高效的非对称采样方法将各种故障模式保留为信息丰富的负向信号,同时强调更高质量的成功案例以提供正向监督。
与在奖励函数中直接惩罚工具使用错误的方法相比,GRPO-RoC提升了训练稳定性,并避免了奖励黑客(reward-hacking)风险。
通过学习更清晰、更高质量的正向轨迹,模型不仅能提高Python编程工具的使用效率,还展现出高级认知能力,能在真实代码环境交互中更高效、更简洁地进行推理。
第三,团队还设计了一套高效训练方案,能以最小计算成本将14B预训练基础模型提升至前沿数学推理水平。
不同于先前研究(在强化学习前应用推理密集型SFT),团队从非推理SFT阶段开始——仅用于灌输一般指令遵循、编程工具使用和格式规范,而不增强推理能力。这避免了潜在SFT过拟合,并保持初始平均响应较短,从而使强化学习能更有效地培养推理能力,同时充分利用模型预训练潜力。
随后,团队使用GRPO-RoC进行多阶段强化学习训练,逐步增加任务难度和最大训练时长。不同于以往需要将rollout规模大幅扩展至16K→48K甚至更高的方法,该团队将每个阶段长度限制在较短范围(8K→12K)。这显著降低了强化学习成本,同时鼓励更高效的推理策略。
模型仅需510个强化学习步骤,就能快速达到前沿数学推理水平,展现出强大能力与卓越训练效率。
最终,通过新方法,他们训练出名为rStar2-Agent-14B的模型。该模型仅有14B参数,却在数学推理性能上超越了DeepSeek-R1和Kimi k1.5等领先推理模型。
值得注意的是,在AIME24上,其准确率达到80.6%,较o3-mini (medium)、DeepSeek-R1和Claude Opus 4.0 (thinking)分别高出1.0%、0.8%和3.6%;在AIME25和HMMT25上分别达到69.8%和52.7%,显示了稳定而强大的能力。
除数学领域外,尽管仅使用数学主动式强化学习进行训练,该模型仍能有效泛化。
它在GPQA-Diamond科学推理基准上表现优于DeepSeek-V3,在BFCL v3的智能体工具使用任务中也有良好表现,并在IFEval和Arena-Hard等通用基准测试中取得竞争性结果。
团队还报告了未成功的尝试与分析,并强调了rStar2-Agent主动式强化学习带来的高级认知推理行为发现,例如驱动更有效推理的环境反馈反思token。
更多详细分析与消融研究请参阅原论文。
本文由主机测评网于2025-12-28发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20251213304.html