当前位置:首页 > 科技资讯 > 正文

Prime Intellect发布开源106B MoE模型INTELLECT-3,多项基准测试斩获SOTA,推动大规模强化学习研究普及

【导读】由Prime Intellect推出的INTELLECT-3模型,在数学、编程等多项评测中均达到同参数规模最优水平。该项目的核心目标是将前沿模型训练技术栈开放给研究社区,从而加速大规模强化学习(RL)的普及和进步。

日前,Prime Intellect公司正式对外发布了其最新成果——INTELLECT-3模型。

该模型是一个参数规模达1060亿的混合专家(MoE)架构,完全依托Prime Intellect自研的强化学习技术栈完成训练。

在数学、编程、科学推理等多个基准评测中,INTELLECT-3均取得了同体量模型的领先成绩,部分指标甚至超过了参数规模更大的前沿模型。

Prime Intellect已将完整的训练流程全面开源,涵盖模型权重、训练框架、数据集、RL环境以及评测体系,旨在促进大规模强化学习的开放研究与协作。

INTELLECT-3所采用的训练软件和基础设施,与即将在Prime Intellect平台上面向公众开放的版本保持完全一致。

这也就意味着,今后任何个人或企业都将具备对顶尖模型进行后训练的能力。

多项评测登顶,INTELLECT-3展现SOTA实力

INTELLECT-3是一款拥有1060亿参数的混合专家(MoE)模型,它在GLM 4.5 Air的基础上进行了监督微调(SFT)与强化学习训练。

在数学、编程、科学及推理类基准测试中,该模型均实现了同参数量级别的最佳性能。

Prime Intellect发布开源106B MoE模型INTELLECT-3,多项基准测试斩获SOTA,推动大规模强化学习研究普及 INTELLECT-3  开源MoE模型 强化学习RL AI基准测试 第1张

核心技术框架

训练过程中,Prime Intellect采用了以下关键组件:

  • PRIME-RL:Prime Intellect自主研发的分布式RL框架,能够高效支持监督微调和基于大规模MoE模型的强化学习。
  • Verifiers 与 Environments Hub:统一的环境接口与生态系统,适用于各类智能体式RL环境构建与评测。
  • Prime Sandboxes:高吞吐量、高安全性的代码执行系统,专为智能体代码类环境设计。
  • 算力编排:在64个互联节点上的512张NVIDIA H200 GPU上完成调度与管理。

INTELLECT-3完整采用PRIME-RL进行端到端训练。

该框架与Verifiers环境深度整合,支撑从合成数据生成、监督微调、强化学习到评估的整个后训练流程。

通过与Environments Hub的紧密连接,训练系统能够顺畅访问持续扩展的环境与评测任务集合。

PRIME-RL最显著的特色是全分布式(async-only)设计。

研究团队在上一代INTELLECT-2时就已经明确:

RL的未来必然走向分布式,即始终处于轻微off-policy的状态。

因为在长时序智能体rollout过程中,分布式架构是唯一能够避免速度瓶颈、真正实现训练规模扩展的方式。

Prime Intellect发布开源106B MoE模型INTELLECT-3,多项基准测试斩获SOTA,推动大规模强化学习研究普及 INTELLECT-3  开源MoE模型 强化学习RL AI基准测试 第2张

过去6个月,研究团队重点开展了大量关于性能、稳定性及大规模效率的消融实验,INTELLECT-3正是这些研究的成果结晶。

Prime Intellect还将在即将上线的Lab平台提供托管式PRIME-RL,使访问者无需处理复杂基础设施即可进行大规模RL训练。

训练环境与基础设施

INTELLECT-3的训练环境由Verifiers库构建,并托管于Environments Hub,这是Prime Intellect面向社区的RL环境与评测中心。

Verifiers是目前领先的开源工具,用于为模型构建RL环境与评测任务。

它提供模块化、可扩展的组件,让复杂的环境逻辑也能以简洁方式描述,同时保持极高的性能与吞吐量。

传统的RL框架通常将环境强绑定在训练仓库中,导致版本管理、消融实验与外部贡献都不方便。

Environments Hub则将基于Verifiers的环境作为独立、可锁定版本的Python模块发布,并统一入口点,使任务可以独立版本化、共享与持续迭代。

Prime Intellect发布开源106B MoE模型INTELLECT-3,多项基准测试斩获SOTA,推动大规模强化学习研究普及 INTELLECT-3  开源MoE模型 强化学习RL AI基准测试 第3张

INTELLECT-3使用的所有环境和评测,均已在Environments Hub上公开。

为支持强化学习,Prime Intellect大幅扩展并升级了自研的Sandboxes基础设施。

在数千条并发rollout中安全执行外部代码,需要一个具备亚秒级启动、毫秒级执行延迟的容器编排层。

虽然Kubernetes提供了底层能力,但常规架构难以满足这种高速度训练的需求。

Prime Sandboxes能够绕过Kubernetes控制面板,通过Rust直接与pod通信,实现接近本地进程的延迟;即使在大规模并发下也能在10秒内启动,且每个节点可稳定运行数百个隔离沙箱。

在Verifiers中,研究人员将沙箱启动与模型首轮推理并行,从而完全消除代码执行前的可感知等待时间。

算力调度策略

研究人员在64个互联节点上部署了512张NVIDIA H200 GPU。

最大的工程挑战是如何在可能出现硬件故障的分布式系统中保持确定性与同步。

  • 资源准备:使用Ansible实现基础设施即代码、自动发现硬件,并进行InfiniBand预检以隔离慢节点或故障节点。
  • 调度:通过Slurm + cgroup v2确保任务能够干净退出,不会留下占用GPU显存的残留进程。
  • 存储:采用Lustre提供高吞吐训练I/O,用NVMe NFS作为快速元数据与便捷SSH存储。
  • 可观测性:通过DCGM + Prometheus监控,能在问题扩大前快速发现并下线不稳定节点。

训练方案概述

INTELLECT-3主要分为两个阶段:

基于GLM-4.5-Air的监督微调,以及大规模RL训练。

两个阶段以及多轮消融实验均在512张H200 GPU上运行,总共持续两个月。

研究人员训练了覆盖数学、代码、科学、逻辑、深度研究、软件工程等类别的多样化RL环境,以提升模型的推理与智能体能力。

所有环境均已在Environments Hub上公开。

Prime Intellect发布开源106B MoE模型INTELLECT-3,多项基准测试斩获SOTA,推动大规模强化学习研究普及 INTELLECT-3  开源MoE模型 强化学习RL AI基准测试 第4张

所有基准测试也都提供了标准化且验证过的实现。

未来,Prime Intellect的工作重点包括:

  • 扩展智能体式RL:研究团队将持续训练,并更加注重智能体环境,预计将在更多任务上获得进一步提升。
  • 更丰富的RL环境:Environments Hub目前已拥有超过500项任务,涵盖研究、电脑使用、定理证明、自动化及专业领域。INTELLECT-3仅用到了其中一小部分,下一步目标是让RL覆盖更多、更高质量的社区任务。
  • 长时序智能体:研究人员正致力于让模型能够自我管理上下文(如裁剪上下文、分支推理、维护轻量外部记忆),从而使长时序行为真正可通过RL训练。未来还将探索专门奖励长时序推理的环境。

Prime Intellect正在构建开放的超级智能技术栈,致力于将训练前沿模型的能力交到每个人手中。

INTELLECT-3也证明了:即使不是大型实验室,同样可以训练出与顶尖团队同台竞技的模型。

参考资料:https://www.primeintellect.ai/blog/intellect-3