当前位置:首页 > 科技资讯 > 正文

ARC-AGI-2新纪录:GPT-5.2超越人类水平,开启AI“能力过剩”时代

就在最近,GPT-5.2再次打破记录,创造了一项令人瞩目的新成就!

ARC-AGI-2新纪录:GPT-5.2超越人类水平,开启AI“能力过剩”时代 GPT-5.2  ARC-AGI-2 能力过剩 人机协同 第1张

OpenAI的联合创始人Greg Brockman在社交平台上宣布,他们利用GPT-5.2在ARC-AGI-2基准测试中取得了超越人类基准线的成绩。

尽管在基准测试中表现卓越,但在实际应用中却往往“掉链子”,这种大模型所面临的“性能悖论”由OpenAI前首席科学家Ilya Sutskever提出,如今已为大家所熟知。

这也正是AGI评估领域中一个长期悬而未决的难题——怎样区分大模型是具备“真正的推理能力”,还是仅仅擅长“刷题型能力”。

而ARC-AGI-2的诞生恰好为这一难题提供了破解之道。

ARC-AGI-2的全名是“Abstraction and Reasoning Corpus for Artificial General Intelligence-Version 2”,它是ARC基准测试系列的最新升级版。

这一基准由François Chollet(Keras的创造者、前Google Brain研究员)及其团队于2025年推出,其设计意图非常明确:

检验AI是否拥有AGI所必需的抽象、归纳及迁移推理能力,而非仅仅依赖记忆或统计模式匹配。

ARC系列与传统NLP或多模态基准最大的区别在于:它没有庞大的训练数据集,每一道题都是全新的任务,从而杜绝了通过“刷数据”来获得高分的可能性。

它要求AI能够像人类那样进行真正的推理和举一反三。

Chollet曾多次公开指出,如果一个系统仅仅在见过的数据分布上表现优异,那么它并不具备AGI所需的能力。

因此,ARC基准测试恰好切中了大模型的“软肋”。

从“及格线”到“优等生”

一次关键性跨越

ARC-AGI-2新纪录:GPT-5.2超越人类水平,开启AI“能力过剩”时代 GPT-5.2  ARC-AGI-2 能力过剩 人机协同 第2张

这次新纪录的创造者,并非单一模型,而是一个名为Poetiq(GPT-5.2X-High)的系统。

Poetiq是一家专注于元系统(Meta-System)架构的人工智能公司。

它的核心理念并非训练更大的模型,而是通过软件层面的系统设计,自动构建出“会调用模型的系统”。

Poetiq(GPT-5.2X-High)在ARC-AGI-2数据集上达到了75%的准确率,每个问题的成本不到8美元,比之前的最优水平高出15个百分点。

在Poetiq(GPT-5.2X-High)系统问世之前,GPT-5.2(X-High)就已经非常接近人类平均水平。

ARC-AGI-2的榜单显示,人类的平均准确率约为60%,而GPT-5.2X-High的成绩与之基本持平,这代表了当时AI在该基准上的最强推理能力。

然而,Poetiq的加入使得GPT-5.2(X-High)的得分从60%一跃升至75%,从勉强及格(相当于人类平均水平)迈入了优等生的行列(显著超越人类平均水平)。

在同一份榜单上,我们还能看到Gemini 3 Deep Think(预览版)的身影。

该模型主打“深度思考(Deep Think)”技术,在ARC-AGI-2上的得分约为46%,明显落后于GPT-5.2系列,并且成本也略高于后者。

ARC-AGI-2新纪录:GPT-5.2超越人类水平,开启AI“能力过剩”时代 GPT-5.2  ARC-AGI-2 能力过剩 人机协同 第3张

Poetiq表示,整个过程没有对GPT-5.2进行任何训练或特定优化。

这正是Poetiq元系统的初衷,即自动构建完整的系统,通过调用任何现有的前沿模型来解决特定任务。

ARC-AGI-2新纪录:GPT-5.2超越人类水平,开启AI“能力过剩”时代 GPT-5.2  ARC-AGI-2 能力过剩 人机协同 第4张

从15%的性能提升来看,Poetiq对基础模型性能的改进效果非常显著。

它的存在证明了无需堆积算力,通过优秀的软件架构也能大幅提升AI性能。

从这个角度来看,它也验证了OpenAI随后提出的一个判断——

当前的大模型,正逐渐进入“能力过剩”阶段。

大模型“能力过剩”时代

ARC-AGI-2新纪录:GPT-5.2超越人类水平,开启AI“能力过剩”时代 GPT-5.2  ARC-AGI-2 能力过剩 人机协同 第5张

就在同一天,OpenAI官方也在X平台上发布了对2026年的预测。

在这条推文中,OpenAI明确提及一个关键词:Capability Overhang(能力过剩)。

其核心意思是:

当前模型“能够做到的事情”,与人们“实际使用AI的方式”(产生的效果)之间,存在着巨大的鸿沟。

OpenAI认为,未来AGI的进展将不再仅仅依赖于模型本身的突破,还将取决于:

人们是否懂得如何有效使用AI

AI是否真正融入现实工作与生活

系统是否能将模型能力转化为实际价值

因此,在2026年,OpenAI将继续进行前沿研究,同时重点投入应用层、系统层和人机协同,尤其强调医疗、商业和日常生活场景。

人机协同

AGI的另一块拼图

OpenAI的这篇官方推文涉及人机协同的问题。

实现AGI,需要模型与人协同发挥作用:AGI不仅依赖模型升级,更要“教会人们使用AI”。

通过正确使用AI,充分释放AI的潜能,才能让AI从“炫技”转向“普惠”,真正影响亿万人的生活。

这一观点也引发了社区的强烈反响。

于是,有乐观的网友评论道:“直接把我整个人自动化了吧!”

ARC-AGI-2新纪录:GPT-5.2超越人类水平,开启AI“能力过剩”时代 GPT-5.2  ARC-AGI-2 能力过剩 人机协同 第6张

也有网友提到,真正的挑战在于如何将AI融入工作流程:见过太多组织购买了“AI”,却从未改变任何流程。

ARC-AGI-2新纪录:GPT-5.2超越人类水平,开启AI“能力过剩”时代 GPT-5.2  ARC-AGI-2 能力过剩 人机协同 第7张

大模型真的“能力过剩”了吗?

那么,是否真的如OpenAI所说,大模型的能力已经过剩了呢?

通过上述Poetiq公布的Poetiq(GPT-5.2X-High)在ARC-AGI-2上的表现,75%的得分超过人类平均水平(60%)15个百分点。

此前,OpenAI官方在介绍GPT-5时强调其在解决复杂跨学科问题上达到了专家级基准,随后被外界引申为“博士级智能”。

这说明GPT-5等大模型在某些专业任务中的表现类似于人类博士的专业水平。

从模型本身来看,也许并未完全过剩,但从“未被充分释放的能力”角度来看,已经严重过剩。

其中,有模型设计方的原因,比如他们没有紧跟用户的使用场景,“不再与用户并肩同行了”。

ARC-AGI-2新纪录:GPT-5.2超越人类水平,开启AI“能力过剩”时代 GPT-5.2  ARC-AGI-2 能力过剩 人机协同 第8张

也可能由于前沿模型在推理和创新方面缺乏根本性突破。

ARC-AGI-2新纪录:GPT-5.2超越人类水平,开启AI“能力过剩”时代 GPT-5.2  ARC-AGI-2 能力过剩 人机协同 第9张

还有模型本身迭代过快,用户不得不在日常生活中不断弃用已经“成功上手”的模型。

ARC-AGI-2新纪录:GPT-5.2超越人类水平,开启AI“能力过剩”时代 GPT-5.2  ARC-AGI-2 能力过剩 人机协同 第10张

Poetiq的出现,以及OpenAI对“能力过剩”的判断,共同指向了未来AI领域的一个新方向:

下一阶段的AI竞争,将不再仅仅是模型参数之争,而是系统、流程与人机协同的竞争。

参考资料:

https://x.com/poetiq_ai/status/2003546910427361402

https://x.com/OpenAI/status/2003594025098785145