英伟达在AI模型竞赛中再次以小博大,其4B参数模型NVARC在ARC-AGI 2基准测试中斩获27.64%的高分,一举超越GPT-5 Pro的18.3%,荣登公开榜榜首。
更令人惊叹的是,NVARC单任务运行成本仅20美分,约为GPT-5 Pro单任务成本(超过7美元)的1/36,真正实现了高性能与低成本兼得。
据官方解析,NVARC此次夺冠的核心在于采用了零预训练深度学习方法,完全跳过了传统的大规模通用数据集预训练阶段,有效避免了预训练模型常见的领域偏见和数据依赖问题。
ARC-AGI 2作为全新升级的测试基准,专门设计用于消除与公共训练数据的重叠,考察模型在有限数据下快速获取新技能的能力,这恰好凸显了NVARC的技术优势。
成绩公布后,官方团队对NVARC开发者Jean-Francois Puget和Ivan Sorokin进行了深度访谈,揭开了技术面纱。
快来看看这款“性价比之王”是如何炼成的?
英伟达的策略是将复杂推理过程转移到离线的合成数据管道中,从而训练出能在评估时快速响应的轻量级模型。
简而言之,就是通过大规模生成高质量的合成数据,对现有模型进行定向优化,同时将昂贵的计算任务移至离线完成。
由于Kaggle比赛对计算资源有严格限制,团队意识到无法直接使用需要超强算力的大型多模态模型进行逐步骤推理和代码生成。
因此他们转变思路,决定将最耗费资源的计算工作前置到离线阶段。例如,利用GPT-OSS-120B模型大规模制造高质量的合成谜题。
团队从H-ARC、BARC等数据集中收集现有ARC谜题,通过混合简单谜题生成更复杂的新谜题。
为确保数据质量,他们将复杂的推理管线拆分为多个独立阶段,每个阶段均可单独验证。
通过这种方法,他们构建了一个包含320万以上增强样本的合成数据集,每个样本最多包含7对输入/输出。
这里值得一提的是,哈萨比斯刚刚强调Scaling Law的重要性,而合成数据的规模化应用何尝不是一种新的“缩放”呢(doge)?
回到正题,NVARC的核心推理模块基于改进版ARChitects方法,选用小参数模型Qwen3-4B,并通过对话式模板简化谜题理解过程。
训练阶段借助NeMo RL框架和Megatron后端进行监督微调。
不过,真正让模型脱颖而出的关键在于测试时微调(TTFT)。
针对ARC-AGI-2“每个任务都是全新规则”的特点,NVARC引入了LoRA微调技术,并且对每一个问题单独微调,让模型在解题前快速适应新任务。
而对ARChitects方法的改进主要体现在解码阶段:对DFS算法进行批处理优化,修复了结果非确定性问题。
同时统一使用8种数据增强操作评估候选解,最终在公开榜上获得27.64%的成绩。
在竞赛后期,团队还尝试了“少即是多”的TRM方法,与Qwen3-4B集成以补充分数,虽然有所提升,但受限于条件未能大幅优化。
那么问题来了:有人可能会质疑,这样训练出的小模型不过是解题机器,怎能与全能型大模型相提并论?
但更值得关注的或许不在于模型本身,而在于实现突破的方法论。
在特定领域任务中,小模型经过针对性优化,性能丝毫不逊色,再结合成本、速度、适配性与领域聚焦等优势,它们已在诸多场景中大放异彩。
将正确的方法用在正确的地方,方能实现更大的价值。
借用网友的一句话:模型或许应该被设计得更加“敏捷”。
论文地址:https://drive.google.com/file/d/1vkEluaaJTzaZiJL69TkZovJUkPSDH5Xc/view
参考链接:
[1]https://developer.nvidia.com/blog/nvidia-kaggle-grandmasters-win-artificial-general-intelligence-competition/
[2]https://arcprize.org/blog/arc-prize-2025-results-analysis
[3]https://www.kaggle.com/competitions/arc-prize-2025/writeups/nvarc
本文由主机测评网于2026-03-01发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260327983.html