智东西12月19日消息,今天凌晨,美国人工智能公司OpenAI正式发布了新一代编程专用模型——GPT-5.2-Codex。该模型在GPT-5.2的基础上针对智能体编程场景做了深度定制,重点强化了长链条任务执行、大规模代码库修改、Windows环境原生兼容以及网络安全主动防御等能力。OpenAI在官方技术博客中将其称为迄今能力最全面的编程模型。
根据OpenAI官方披露,GPT‑5.2-Codex不仅继承了GPT‑5.2的核心优势,同时整合了GPT‑5.1-Codex-Max在智能体编程与终端交互方面的前沿成果,专门面向复杂的真实世界软件工程任务及网络安全攻防等高阶领域设计。
目前,OpenAI已在Codex CLI、官方IDE扩展插件、云端开发环境及代码审阅工具中率先部署了GPT‑5.2-Codex,自今日起所有ChatGPT付费订阅用户均可使用,API接口也将在近期开放申请。
值得注意的是,GPT‑5.2-Codex发布前数小时,谷歌刚刚宣布推出Gemini 3 Flash模型。有开发者让两款模型并行执行同一项漏洞审计任务——对50个源代码文件进行安全扫描。结果显示,GPT‑5.2-Codex明显落后:Gemini 3 Flash仅用1分2秒便检出5个安全缺陷,而GPT-5.2-Codex耗时4分48秒,且仅发现了其中2个已被对手定位的问题。
从早期测试者的反馈来看,GPT‑5.2-Codex的实际表现并未达到市场预期。部分开发者指出,该模型在SWE-Bench Pro基准上的性能提升幅度不足1个百分点,且OpenAI并未随发布同时公开SWE-Bench Verified评测结果,这导致外界普遍猜测GPT‑5.2-Codex未能刷新当前最优水平,甚至在某些系统卡测试环节出现了分数回退的现象。
官方博客同时披露了模型的技术改进点。GPT‑5.2-Codex首次引入原生上下文压缩机制,在长上下文理解、函数调用准确性、事实一致性以及动态上下文精简等方面均有显著提升,推理时Token开销更低,同时能够更精准地解析编码过程中截取的界面截图、技术架构图、数据可视化图表及用户交互原型。针对原生Windows环境,GPT‑5.2-Codex对GPT‑5.1-Codex-Max的智能体能力进行了迭代,使代理编程行为更加稳定且高效。
在实际软件工程场景中,模型在处理代码库全局导航、大规模重构、Pull Request创建与代码审查等任务上的表现均获得改善。
从标准化评测结果看,GPT‑5.2-Codex在面向真实世界缺陷修复的SWE-Bench Pro基准上取得了56.4%的解决率,超过GPT-5.2的55.6%和GPT-5.1的50.8%;在模拟编译配置与服务器运维的Terminal-Bench 2.0命令行基准中,模型得分达到64.0%,较前代GPT‑5.1-Codex-Max的58.1%提升近6个百分点,体现出模型在终端代理任务处理能力上的实质性进步。
网络安全是本次升级的另一重点。OpenAI官方数据显示,GPT‑5.2-Codex在夺旗挑战(CTF)中刷新了所有公开模型的最高分纪录。从性能走势图可以看出,OpenAI在该领域的模型能力正处于持续爬升通道。OpenAI表示正在系统性地增强网络安全防护体系,并引入可信访问控制机制以支撑防御场景。
OpenAI首席执行官萨姆·阿尔特曼(Sam Altman)透露,上周一名安全研究人员借助GPT‑5.1-Codex-Max成功发现并公开了React前端框架中的一个漏洞,该漏洞若被利用可能导致源代码泄露。阿尔特曼强调,这一案例充分展示了先进模型在网络安全实践中的真实价值,并称模型仍在快速迭代,未来将为防御方带来更大优势。
GPT-5.2-Codex作为OpenAI在编程智能体领域的最新迭代成果,通过强化长程任务、大规模变更和环境适配能力,为复杂开发流程与安全研究提供了更强大的自动化支撑,有望成为漏洞挖掘与修复流程中的关键工具。
在本次更新之前,谷歌同日发布了轻量化且成本更低的Gemini 3 Flash模型,AI辅助编程赛道的竞争已进入白热化阶段。从当前的初步实测来看,OpenAI自诩“最强编程模型”的GPT-5.2-Codex在真实应用场景中的效率、以及与竞品的直接比较中都未能占据上风,该模型的实际落地效果与性能验证将成为业界未来一段时间的关注焦点。
本文由主机测评网于2026-02-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260224759.html