当前位置：首页 > 科技资讯 > 正文

Self-play SWE-RL：引领软件工程智能体迈向超级智能

主机测评网
科技资讯
2026-06-02
238

近年来，软件工程智能体在大语言模型（LLMs）的推动下发展迅速，但其训练数据与环境的构建仍然高度依赖人类知识与人工策划，这限制了智能体自主发现新问题与解决策略的能力，阻碍了其向超级智能的迈进。

为了突破这一瓶颈，来自Meta和伊利诺伊大学厄巴纳-香槟分校的研究团队提出了Self-play SWE-RL（SSR），作为软件工程智能体训练范式的创新尝试。SSR方法对数据假设的要求极低，仅需访问包含源代码和已安装依赖项的沙盒化代码仓库，无需任何人工标注的问题或测试用例。

研究表明，SSR使智能体能够从真实世界的软件仓库中自主获取学习经验，有望催生出在系统理解、解决全新问题以及从零开始自主创建软件等方面超越人类能力的超级智能系统。

Self-play SWE-RL：引领软件工程智能体迈向超级智能软件工程智能体自博弈超级智能自提升第1张

论文链接：https://arxiv.org/pdf/2512.18552

Self-play SWE-RL 框架

SSR的设计核心在于减少对代码库先验知识的依赖，以提升方法的通用性和可扩展性。它不依赖于特定环境的预配置，智能体通过与环境交互，自主探索测试的运行方式并理解其结构。这种极简的输入设定使SSR几乎无需额外配置即可应用于不同代码库，显著降低了使用与迁移成本。

SSR的核心机制是通过自博弈式的迭代循环，使智能体在生成与解决Bug的过程中实现自我提升。在SSR中，同一LLM策略被划分为两个协同演化的角色：智能体Bug注入与智能体Bug求解，二者共享参数但承担不同任务。

Self-play SWE-RL：引领软件工程智能体迈向超级智能软件工程智能体自博弈超级智能自提升第2张

图| SSR的架构概览

1. 智能体Bug注入

智能体Bug注入通过让模型扮演“破坏者”，构建起自驱动的进化闭环。

在此过程中，首先生成包含Bug补丁和弱化测试的Bug构件，将抽象错误转化为标准化的练习题；随后，运用“删除关键代码”或“回滚历史修复”等复杂生成策略，从真实工程逻辑中制造出高质量难题；为了确保逻辑严密，系统利用“逆向变异测试”进行严格的一致性验证；最后，通过动态奖励机制将任务难度维持在适中水平，并将修复失败的尝试转化为高阶缺陷循环利用，从而在无需人类标注的情况下，驱动智能体在博弈中不断实现自我超越。

Self-play SWE-RL：引领软件工程智能体迈向超级智能软件工程智能体自博弈超级智能自提升第3张

2. 智能体Bug修复

智能体Bug修复通过在沙盒中应用缺陷补丁并重置Git历史来构建防作弊的代码现场。随后，以弱化测试的逆向补丁作为任务提示，取代人类的文字描述，迫使代理纯粹基于代码逻辑定位问题。在修复过程中，智能体通过“推理与工具调用”的交互循环，在模拟环境中自主进行补丁尝试与验证。最终，系统通过回滚原始测试文件的评估机制进行严苛复核，确保生成的Bug在真实测试下依然有效。

Self-play SWE-RL：引领软件工程智能体迈向超级智能软件工程智能体自博弈超级智能自提升第4张

实验结果

研究人员在SWE-bench Verified与SWE-bench Pro上，对基础模型、基线强化学习方法以及SSR进行了系统比较。

实验结果表明，即使在完全不接触任务描述和测试数据的情况下，SSR仍能在训练过程中持续实现性能提升。更重要的是，SSR在整个训练轨迹上始终优于基线RL，说明由模型自主生成的任务相比人工构造的数据，能够提供更具信息量和有效性的学习信号。

Self-play SWE-RL：引领软件工程智能体迈向超级智能软件工程智能体自博弈超级智能自提升第5张

不足与未来展望

尽管SSR在减少人工依赖、实现自我提升方面展现出潜力，但仍处于早期阶段。当前方法依赖显式测试作为判定器，存在奖励投机的潜在风险。同时，验证机制主要基于单元测试，难以覆盖真实软件工程中的高层目标与复杂语义。此外，Bug注入与修复角色共享同一模型配置，尚未系统探索模型规模、结构差异及角色分离对自博弈学习的影响。

展望未来，SSR为自博弈驱动的软件工程智能体开启了多个研究方向。尤其是在奖励稀疏、决策链条极长的真实工程场景中，如何引入更密集、结构化的反馈，将是释放自博弈潜力、迈向更高层次智能的关键。