科技新纪元,模型激战!
Claude Opus 4.6问世仅仅15分钟,OpenAI迅速祭出杀手锏——全新顶级编程模型
GPT-5.3-Codex。
最直观的感受是,这个新模型终于懂得美学了。
官方展示了两个Demo:赛车游戏、潜水游戏,风格独特。
据说,GPT-5.3-Codex在几乎无人干预的情况下,迭代这些游戏,耗用数百万token。
在网页开发上,UI更美,对「意图」的理解也更强。
即便Prompt模糊,它也能自动补全逻辑,生成功能完备的网站。
从Demo来看,设计感确实比之前强了。
Computer use能力同样卓越,现已能辅助金融从业者制作PPT。
其他职场工作也能覆盖,尤其在专业知识密集型任务上,写文档、做电子表格都没问题。
硬实力方面,官方亮点如下:
更聪明:SWE-Bench Pro 57%,TerminalBench 2.0 76%,OSWorld 64%。
更可控:支持任务进行时实时引导,随时调整方向并获取更新。
更快速:完成相同任务时,所需token不到5.2-Codex的一半,单token速度提升超过25%。
更Agent:不仅擅长编码,计算机操作同样出色。
直接看这张对比表更直观,几乎每个维度都较上一代有明显提升。
网友直呼刺激,昨天OpenAI刚被Anthropic的广告狙击,今天就强势反击。
一天之内,两个重量级编程模型。
评论区迅速分为Anthropic派和OpenAI派。
下面来看看,这场由奥特曼主动挑起的AI coding大战,OpenAI到底表现如何?
大家最关心的,当然是编程能力。
OpenAI表示,GPT-5.3-Codex在SWE-Bench Pro上实现SOTA。
这是专为真实世界软件工程设计的测试,覆盖四种编程语言,难度更高、任务更丰富、更贴近真实生产场景。
同时,GPT-5.3-Codex在TerminalBench 2.上的表现也有显著提升。
更关键的是效率。在取得这些成绩的同时,GPT-
本文由主机测评网于2026-07-03发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260748421.html