从2023年底OpenAI CEO Sam Altman首次提及GPT-5,到今日模型的正式发布,时间跨度近一年半。
如今,人们依然对OpenAI的发布会充满期待,但讨论焦点已从最初的惊叹转变为更多的质疑。
值得一提的是,从模型性能来看,OpenAI成功扭转了之前的口碑下滑趋势。在发布会上展示的GPT-5,在多维度上保持领先,并自信宣称“世界最强编程模型”,挑战了Claude的领先地位。
然而,相较于GPT-3和GPT-4的突破性进展,GPT-5的领先似乎并不那么显著。
与此同时,竞争对手也虎视眈眈。Anthropic宣布将在本月发布大版本更新,而马斯克更是声称自家模型Grok-4在部分测试中已超越OpenAI的新模型。
OpenAI能否在这个新“王座”上长久坐稳?Altman并未直接回答,而是更多地讲述了大模型如何经济实惠地落地。
从性能分数、成本效益到幻觉问题处理及超长上下文理解,GPT-5的每一面都经过精心打磨,旨在成为一个更高效的大模型。
在架构上,GPT-5是一个统一架构的模型,由三部分组成:基础模型、具备深度推理能力的GPT-5 thinking模型以及实时路由器。
这种设计使得实时路由器能依据对话类型、问题复杂度、工具需求及用户意图快速选择合适的模型。例如,当用户要求“帮我认真思考一下”时,它会调用深度推理模型。
Altman在发布会前一天就通过图片展示了GPT-5的性能优势,并在发布会上表达了对该模型的信心。
“与GPT-4的对话如同高中生交流,与O3则像与大学生交谈,而GPT-5则相当于与博士生对话。”Altman如此形容GPT-5的体验。
在性能上,GPT-5确实在多个方面达到了顶尖水平。具体而言,其在编程、数学、多模态理解和健康评估等方面表现突出。
特别是编程能力,OpenAI自豪地称GPT-5为“世界上最强的编程模型”。
在SWE-Bench(测试大模型代码补全能力)的指标上,GPT-5的推理版本取得了74.9%的成绩,不仅超过了自家模型O3,也超越了Anthropic刚发布的Claude Opus 4.1(74.5%)。在编程领域,OpenAI重新夺回了Claude系列的领先地位。
发布会现场,OpenAI通过实例展示了其编程能力。例如,它快速生成了一个解释伯努利效应的网页,仅用两分钟就编写了400行代码的网页版本。
此外,OpenAI还展示了模型进行网页小游戏开发的能力。这些能力其他开源大模型也能实现,但OpenAI在美观度和流程完整性上更胜一筹。
除了面向消费者的案例外,在B端实际应用中,OpenAI也向开发者展示了GPT-5代码编写的落地能力。例如,GPT-5在后台编写并优化代码后,开发了一个财务信息看板,界面设计美观。
除了编程外,GPT-5在其他维度上也刷新了自家模型的记录。在数学(AIME 2025)、多模态理解(MMMU)和健康评估(HealthBench Hard)等方面均有所提升。
GPT-5再次验证了“模型即产品”的理念——结合工具能力的GPT-5 pro甚至能在AIME 2025测试中取得满分。
然而,OpenAI的演示出现了首个公开的失误。在现场展示的图表中,数字大小和柱状图不匹配。这一严重且低级的错误引发了广泛关注。
对此,光锥智能也进行了测试。结果显示,GPT-5在处理柱状图时无误,可能是制图失误。
本文由主机测评网于2026-04-21发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260439141.html