当前位置:首页 > 科技资讯 > 正文

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析

导读:OpenAI最新推出的GPT-5.2模型,在基准测试中号称满分屠榜,但发布后立即陷入降智争议。不过,提前体验的用户对其强大能力赞不绝口,甚至誉为GPT-6级别!

昨夜,OpenAI投下GPT-5.2这一重磅炸弹。根据官方公布的基准测试结果,它几乎全面碾压了谷歌的Gemini 3 Pro模型。GPT-5.2特别擅长处理具有经济价值的任务,例如制作电子表格、设计PPT、编写与审查代码、分析长文档等。而且,在GDPval等测试中,据说有70.9%的情况下能够追赶甚至超越专业人士表现。可以说,这是OpenAI进入红色预警状态,不惜调整AGI目标也要完成的产品,并肩负着狙击Gemini 3的重任。

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第1张

那么,GPT-5.2在实际使用中体验究竟如何?

GPT-5.2实测:一上线就出现降智现象?

出乎意料的是,一个关于GPT-5.2实测翻车的帖子在X平台迅速走红。当用户提问“garlic”中有多少个字母R时,它竟然回答:0个。

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第2张

相比之下,其他模型的表现则更为稳定。

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第3张

这本质上是大语言模型的一个底层问题:由于tokenization机制,模型在统计字母数量时可能存在困难。不过,只要强制切换到Thinking版本,GPT-5.2就能正确回答这个问题。

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第4张

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第5张

在Reddit上,许多网友也反映:GPT-5.2刚发布时功能似乎非常强大,但几小时后性能就明显下降。

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第6张

有用户表示,自己早上八点半使用时还一切正常,但喝完一杯咖啡后,GPT-5.2突然变得不灵光了。

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第7张

似乎每次新模型发布后,几小时内就会被削弱,OpenAI的这种操作令人费解。

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第8张

大佬现身说法:模型实力依然强劲

不过,这些小插曲并未影响坊间的总体正面评价。昨晚GPT-5.2发布后,许多网友被其性能震撼。

例如,有人指出ARC-AGI 2的飞跃实在惊人,OpenAI究竟是如何实现的?

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第9张

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第10张

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第11张

原本大家以为OpenAI已落后于谷歌,现在看来并非如此!

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第12张

显然,OpenAI内部还隐藏着许多未发布的尖端技术。

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第13张

而且,体验过GPT-5.2满血版的用户对其一致好评。

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第14张

沃顿商学院教授Ethan Mollick表示,他有幸提前使用了GPT-5.2,其性能令人印象深刻。例如,当要求“创建一个视觉上有趣的着色器,在twigl-dot-app中运行,使其看起来像一座无限的新哥特式塔楼城市,部分淹没在波涛汹涌的海洋中”时,GPT-5.2不仅遵循指令,还在代码中体现了合理的审美与结构。

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第15张

对此,许多网友赞叹不已。

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第16张

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第17张

随后,教授又让GPT-5.2绘制一张人类历年考试成绩的图表。这个任务极为复杂,需要查找和交叉引用大量资料,但GPT-5.2一次性就生成了有用结果,表现惊艳。

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第18张

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第19张

这个Twigl代码实例充分展现了GPT-5.2的强大编码能力。

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第20张

推理、数学、编程能力的重大飞跃

Magicpathai的CEO表示,他已测试GPT-5.2一段时间,评价其为“复杂推理、数学、编程和模拟方面的一次重大飞跃”。在实例中,模型在单个文件中构建了完整的3D图形引擎,支持交互式控制,分辨率达4K。有人质疑是否调用了库,但CEO强调所有代码和图形均从零开始编写。

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第21张

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第22张

这意味着GPT-5.2的进步并非渐进,而是编码助手功能的范式转变。

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第23张

网友们惊呼这种进步速度令人头晕目眩。

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第24张

该CEO认为GPT-5.2是OpenAI推出的最佳智能体模型,可连续运行大量工具而无问题,且速度比前代更快。测试显示,GPT-5.2调用工具时无需前导码,即使在长会话中也不易迷失方向。

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第25张

还有人让GPT-5.2用ASCII码描绘内心世界,结果令人震撼。

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第26张

总体而言,多数反馈表明GPT-5.2能稳定处理实际工作,条理清晰且流程顺畅。

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第27张

相比旧模型可能出现的小中断,GPT-5.2对任务理解更深,完成更顺利。

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第28张

ARC Prize指出,GPT-5.2 Pro(X-High)的最新SOTA得分达90.5%,这意味着AI在一年内效率提升了约390倍。

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第29张

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第30张

背后神秘华人团队浮出水面

与以往一样,GPT-5.2的幕后功臣不乏华人身影。例如,最早预告GPT-5.2的OpenAI华人研究员、北大校友Yu Bai。

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第31张

他本科就读于北京大学数学系,后在斯坦福大学获得统计学博士学位。

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第32张

负责后训练的Yun Dai,本科毕业于清华大学,在加州大学尔湾分校获得计算机科学硕士学位。

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第33张

另一位OpenAI华人研究员Zuxin Liu,从事推理模型后训练工作。他本科毕业于北航,在卡内基梅隆大学攻读硕士和博士学位。

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第34张

Aston Zhang在伊利诺伊大学厄巴纳-香槟分校攻读博士学位,现为OpenAI研究员。他感谢了团队,并特别强调了GPT-5.2 Thinking处理多步骤任务的能力。

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第35张

GPT-5.2震撼发布:实测降智争议与性能飞跃深度解析 GPT-5.2  OpenAI 人工智能 实测评测 第36张

总之,OpenAI在昨晚的AI大战中给出了强力一击。接下来,谷歌将如何应对,令人期待。

参考资料: 

https://x.com/skirano/status/1999182295685644366 

https://x.com/emollick/status/1999185085719887978