当前位置：首页 > 科技资讯 > 正文

GPT-5.2突破新纪录：AGI能力测试中的飞跃

主机测评网
科技资讯
2026-06-10
628

刚刚，GPT-5.2在ARC-AGI-2基准测试中取得了令人瞩目的成绩，刷新了一项新纪录！

GPT-5.2突破新纪录：AGI能力测试中的飞跃 GPT-5.2 ARC-AGI-2 Poetiq 能力过剩第1张

OpenAI的联合创始人Greg Brockman在帖子中提到，GPT-5.2在ARC-AGI-2基准测试中的表现已经超越了人类基线水平。这一成就令人振奋，但大模型在实际应用中的“性能悖论”仍然是一个挑战。

如何区分大模型的“真正推理能力”与“刷题型能力”，一直是AGI评估领域的一个难题。而ARC-AGI-2的推出，正好为这一难题提供了新的解决方案。

ARC-AGI-2，全称为“Abstraction and Reasoning Corpus for Artificial General Intelligence-Version 2”，是ARC系列基准的最新升级版本。由François Chollet（Keras之父、前Google Brain研究员）及其团队在2025年推出，旨在测试AI是否具备AGI所必需的抽象、归纳与迁移推理能力。

与传统的NLP或多模态benchmark不同，ARC系列没有大规模训练集，每道题目都是全新任务，因此不存在通过“刷数据”获得高分的可能性。它要求AI像人类一样具备真正的推理和举一反三的能力。

Chollet曾多次公开表示，如果一个系统只能在见过的数据分布上表现良好，那它并不具备AGI所需的能力。因此，ARC基准测试恰好直击大模型的“软肋”。

从“及格”到“优等生”

一次关键跨越

GPT-5.2突破新纪录：AGI能力测试中的飞跃 GPT-5.2 ARC-AGI-2 Poetiq 能力过剩第2张

刷新新纪录的并非单一模型，而是一个名为Poetiq（GPT-5.2X-High）的系统。Poetiq是一家专注于元系统（Meta-System）架构的AI公司，其核心理念是通过软件层面的系统设计，自动构建“会调用模型的系统”。

Poetiq（GPT-5.2X-High）在ARC-AGI-2数据集上实现了75%的准确率，每问题成本不到8美元，超越前SOTA 15个百分点。这一成绩使得GPT-5.2(X-High)从勉强及格（人类平均水平）迈入了优等生的行列。

在Poetiq（GPT-5.2X-High）系统出现之前，GPT-5.2已经非常接近人类平均水平。ARC-AGI-2榜单中，人类平均准确率约为60%，GPT-5.2X-High的成绩与之几乎持平。但Poetiq的加入，使GPT-5.2的得分从60%直接提升到75%。

在同一榜单上，还能看到Gemini 3 Deep Think（Preview）的身影。该模型主打“深度思考（Deep Think）”技术，但在ARC-AGI-2上的成绩约为46%，明显落后于GPT-5.2系列。

GPT-5.2突破新纪录：AGI能力测试中的飞跃 GPT-5.2 ARC-AGI-2 Poetiq 能力过剩第3张

Poetiq表示，整个过程没有对GPT-5.2进行任何训练或特定优化。这正是Poetiq元系统的初衷——通过自动构建完整的系统，调用任何现有的前沿模型来解决特定任务。

GPT-5.2突破新纪录：AGI能力测试中的飞跃 GPT-5.2 ARC-AGI-2 Poetiq 能力过剩第4张

从提升幅度来看，Poetiq对基础模型性能的提升非常明显。它证明了不需要堆算力，通过优秀的软件架构也能大幅提升AI性能。

大模型“能力过剩”时代

大模型真的“能力过剩”了吗？

GPT-5.2突破新纪录：AGI能力测试中的飞跃 GPT-5.2 ARC-AGI-2 Poetiq 能力过剩第5张

就在同一天，OpenAI官方也在X平台发布了一项关于未来AI发展的预测。其中明确提到一个关键词：Capability Overhang（能力过剩）。

当前模型“能够做到的事情”，与人们“实际使用AI的方式”之间存在巨大的断层。OpenAI认为，未来AGI的进展将不再仅取决于模型本身的突破，还将取决于人们是否知道如何有效使用AI、AI是否真正融入现实工作与生活、系统是否能将模型能力转化为实际价值。

因此，在接下来的一年里，OpenAI将继续前沿研究，同时重点投入于应用层、系统层、人机协同，尤其强调医疗、商业和日常生活场景。

人机协同

AGI的另一半拼图

OpenAI的这篇官方推文还涉及了一个关键问题——人机协同。实现AGI需要模型和人协同发挥作用：AGI不仅靠模型升级，更要“教人用AI”。

通过正确使用AI，充分发挥出AI的潜能，才能让AI从“炫技”转向“普惠”，真正影响亿万人生活。这一观点得到了社区的强烈回应。

GPT-5.2突破新纪录：AGI能力测试中的飞跃 GPT-5.2 ARC-AGI-2 Poetiq 能力过剩第6张

也有网友提到，真正的挑战在于如何将AI融入工作流程中：见过太多组织买了“AI”，却从未改变任何一个流程。

GPT-5.2突破新纪录：AGI能力测试中的飞跃 GPT-5.2 ARC-AGI-2 Poetiq 能力过剩第7张

云服务器免费vps

本文由主机测评网于2026-06-10发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260647893.html

上一篇

AI创业热潮：谷歌苹果“大脑”联手打造视觉推理新纪元

下一篇

Verge TS Pro电摩：性能巅峰与未来电池技术