价格方面,GPT-5.2是DeepSeek的400倍,比谷歌的Gemini 3 Pro也要贵上近10倍。
OpenAI最新发布的GPT-5.2,究竟实力如何?
可以说,这款模型或许是最适合职场人士的AI,因为它可能标志着AI从辅助工具向专家角色的转变。
首先在专业领域,GPT-5.2有70%的可能性击败正在屏幕前刷视频的各位行业专家。
从跑分来看,这次的GPT-5.2在各项指标上都略高于Gemini 3 Pro。
当然,优势并不明显,不排除OpenAI是针对Gemini进行优化的可能。
但OpenAI最关注的其实是GDPval测试成绩。
这是他们在今年925提出的全新评估方法,用于衡量AI能否真正帮助打工人完成工作任务。
他们邀请了九个领域、四十四个行业的专家,结合真实工作环境设计了一系列题目。
然后测试AI能否胜任这些专家的任务。
结果显示,最新的GPT-5.2在70%的任务上能与人持平甚至表现更优。
我们也简单体验了一下,让GPT-5.2去互联网上统计各大AI公司发布的所有模型。
接着将这些模型在各个排行榜上的得分整理出来,并按月份制作成表格。
经过整整14分钟的“思考”,GPT-5.2成功完成了数据收集、结果统计和表格绘制的任务。
这个完成度确实令人满意。
此外,GPT-5.2还能处理复杂的表格任务,生成的表格不仅比之前版本更美观。
而且在各项任务测试指标上,也有约9%的提升。
在代码编写方面,GPT-5.2同样进步显著。
产生幻觉的概率比之前降低了38%。
这让用户用起来更放心。
我们也简单测试了一下,但可能是因为有Gemini珠玉在前,GPT-5.2给我们的感觉有些平淡。
让它写一个Aimlab(瞄准练习小游戏)。
它确实能写出来,生成的程序不仅能运行,还能调整靶子大小、游戏时长等基本参数。
这些都没问题,但就是有些中规中矩。
在审美方面,被上个月发布的Gemini 3明显超越。
同样一句话生成的小游戏,Gemini已经开始运用各种时尚配色,而GPT还在刷大白墙、做毛坯房。
当然,也可能是我们没有指定GPT的具体风格。
除了各项能力提升外,这次GPT-5.2还有一个有趣的变化。
它变得更懂人话了。
有测试者发现,让GPT写50个创意,它会老老实实写出50个,而不是像以前那样写10个就开始敷衍。
此外,在上下文能力上,OpenAI也进行了增强。在插针实验中,即使文本长度达到256K,成功率仍接近100%。
这意味着在几十万字的名著中,如果你偷偷加了些骂我的话,它都能精准找出来。
这对写代码、做学术、整理文书的打工族和科研人员来说,又是一大助力。
尽管纸面实力很强,但在某些地方还是翻车了。
比如在官方展示的图像识别案例中,大家发现Gemini 3 Pro的细节识别能力远超GPT 5.2。
也有人吐槽,新模型发布了,老版本估计又要降智了……
这已经是经典剧情了。
最后,GPT-5.2的发布也让我们看到一种趋势。
未来,顶级模型之间的差异可能会越来越明显,各有偏科。
比如Gemini可能在全模态领域一骑绝尘;GPT在逻辑推理、生产力方面依旧领先;Claude则在代码能力和写作上继续遥遥领先。
毕竟在实现AGI的路径上,各大厂的思路已经分化。谷歌可能认为多模态感知世界才是未来;OpenAI则坚信极致的逻辑推理和生产力的提升;Anthropic认为高维度的语义理解和对齐才是通往AGI的关键。
反正AI大哥轮流坐的现状还在继续,按顺序,下一个出招的应该是Anthropic了。
对了,结尾也想催催奥特曼,答应大家的成人模式到底什么时候上线?
本文由主机测评网于2026-03-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260328738.html