当前位置:首页 > 科技资讯 > 正文

GPT-5.2突破新纪录:AGI能力测试中的飞跃

刚刚,GPT-5.2在ARC-AGI-2基准测试中取得了令人瞩目的成绩,刷新了一项新纪录!

GPT-5.2突破新纪录:AGI能力测试中的飞跃 GPT-5.2 ARC-AGI-2 Poetiq 能力过剩 第1张

OpenAI的联合创始人Greg Brockman在帖子中提到,GPT-5.2在ARC-AGI-2基准测试中的表现已经超越了人类基线水平。这一成就令人振奋,但大模型在实际应用中的“性能悖论”仍然是一个挑战。

如何区分大模型的“真正推理能力”与“刷题型能力”,一直是AGI评估领域的一个难题。而ARC-AGI-2的推出,正好为这一难题提供了新的解决方案。

ARC-AGI-2,全称为“Abstraction and Reasoning Corpus for Artificial General Intelligence-Version 2”,是ARC系列基准的最新升级版本。由François Chollet(Keras之父、前Google Brain研究员)及其团队在2025年推出,旨在测试AI是否具备AGI所必需的抽象、归纳与迁移推理能力。

与传统的NLP或多模态benchmark不同,ARC系列没有大规模训练集,每道题目都是全新任务,因此不存在通过“刷数据”获得高分的可能性。它要求AI像人类一样具备真正的推理和举一反三的能力。

Chollet曾多次公开表示,如果一个系统只能在见过的数据分布上表现良好,那它并不具备AGI所需的能力。因此,ARC基准测试恰好直击大模型的“软肋”。

从“及格”到“优等生”

一次关键跨越

GPT-5.2突破新纪录:AGI能力测试中的飞跃 GPT-5.2 ARC-AGI-2 Poetiq 能力过剩 第2张

刷新新纪录的并非单一模型,而是一个名为Poetiq(GPT-5.2X-High)的系统。Poetiq是一家专注于元系统(Meta-System)架构的AI公司,其核心理念是通过软件层面的系统设计,自动构建“会调用模型的系统”。

Poetiq(GPT-5.2X-High)在ARC-AGI-2数据集上实现了75%的准确率,每问题成本不到8美元,超越前SOTA 15个百分点。这一成绩使得GPT-5.2(X-High)从勉强及格(人类平均水平)迈入了优等生的行列。

在Poetiq(GPT-5.2X-High)系统出现之前,GPT-5.2已经非常接近人类平均水平。ARC-AGI-2榜单中,人类平均准确率约为60%,GPT-5.2X-High的成绩与之几乎持平。但Poetiq的加入,使GPT-5.2的得分从60%直接提升到75%。

在同一榜单上,还能看到Gemini 3 Deep Think(Preview)的身影。该模型主打“深度思考(Deep Think)”技术,但在ARC-AGI-2上的成绩约为46%,明显落后于GPT-5.2系列。

GPT-5.2突破新纪录:AGI能力测试中的飞跃 GPT-5.2 ARC-AGI-2 Poetiq 能力过剩 第3张

Poetiq表示,整个过程没有对GPT-5.2进行任何训练或特定优化。这正是Poetiq元系统的初衷——通过自动构建完整的系统,调用任何现有的前沿模型来解决特定任务。

GPT-5.2突破新纪录:AGI能力测试中的飞跃 GPT-5.2 ARC-AGI-2 Poetiq 能力过剩 第4张

从提升幅度来看,Poetiq对基础模型性能的提升非常明显。它证明了不需要堆算力,通过优秀的软件架构也能大幅提升AI性能。

大模型“能力过剩”时代

大模型真的“能力过剩”了吗?

GPT-5.2突破新纪录:AGI能力测试中的飞跃 GPT-5.2 ARC-AGI-2 Poetiq 能力过剩 第5张

就在同一天,OpenAI官方也在X平台发布了一项关于未来AI发展的预测。其中明确提到一个关键词:Capability Overhang(能力过剩)。

当前模型“能够做到的事情”,与人们“实际使用AI的方式”之间存在巨大的断层。OpenAI认为,未来AGI的进展将不再仅取决于模型本身的突破,还将取决于人们是否知道如何有效使用AI、AI是否真正融入现实工作与生活、系统是否能将模型能力转化为实际价值。

因此,在接下来的一年里,OpenAI将继续前沿研究,同时重点投入于应用层、系统层、人机协同,尤其强调医疗、商业和日常生活场景。

人机协同

AGI的另一半拼图

OpenAI的这篇官方推文还涉及了一个关键问题——人机协同。实现AGI需要模型和人协同发挥作用:AGI不仅靠模型升级,更要“教人用AI”。

通过正确使用AI,充分发挥出AI的潜能,才能让AI从“炫技”转向“普惠”,真正影响亿万人生活。这一观点得到了社区的强烈回应。

GPT-5.2突破新纪录:AGI能力测试中的飞跃 GPT-5.2 ARC-AGI-2 Poetiq 能力过剩 第6张

也有网友提到,真正的挑战在于如何将AI融入工作流程中:见过太多组织买了“AI”,却从未改变任何一个流程。

GPT-5.2突破新纪录:AGI能力测试中的飞跃 GPT-5.2 ARC-AGI-2 Poetiq 能力过剩 第7张