据智东西11月20日消息,OpenAI于今日正式推出了全新的智能体编程模型GPT‑5.1‑Codex‑Max。该模型基于OpenAI最新的推理技术,专注于软件工程、科学研究、数学等复杂任务的深度训练。
同时,OpenAI也宣布将GPT-5 Pro升级至GPT-5.1 Pro版本,据称其在写作、数据分析等领域的能力较前代有显著提升。但OpenAI并未透露更多关于GPT-5.1 Pro的具体信息。
GPT‑5.1‑Codex‑Max具备在单一任务中连续处理上百万个token的能力,可跨越多个上下文窗口。这归功于一项名为压缩(compaction)的技术:当模型接近上下文窗口上限时,它会自动压缩上下文,保留关键信息,并开启新的上下文窗口,直至任务完成。
该模型由OpenAI研究科学家Noam Brown领导开发,他在OpenAI主要负责测试时计算(即推理)的研究工作。
OpenAI表示,持续连贯的工作能力是构建更通用、更可靠AI系统的基础。GPT-5.1-Codex-Max能够自主工作数小时。在OpenAI内部测试中,该模型甚至能针对同一任务连续运行24小时,不断迭代实现,修复测试失败,最终输出成功结果。
在性能上,GPT‑5.1‑Codex‑Max在多项编程基准测试中表现优于前代GPT‑5.1‑Codex。此外,它也是OpenAI首个针对Windows环境进行编程操作训练的模型。
在推理效率方面,GPT‑5.1‑Codex‑Max在中等推理强度下执行任务时,所需的思考token比GPT‑5.1‑Codex减少约30%,同时准确性更高。
对于延迟不敏感但追求高质量的任务,用户可以开启超高强度推理模式,让模型投入更多思考时间,以获得更优解决方案。
OpenAI预计,这种token效率的提升将为开发者带来实际的成本节约。
▲GPT‑5.1‑Codex‑Max用更少token实现更高的准确率
目前,GPT-5.1-Codex-Max已在Codex平台上线,支持CLI、IDE扩展、云端部署及代码审查,API访问也即将开放。
OpenAI展示了GPT-5.1-Codex-Max生成的多个网页应用。例如,根据提示词,模型直接构建了一个完全在浏览器中运行的CartPole(倒立摆)强化学习沙箱。
用户不仅能观察倒立摆的运动,还能通过内置的策略梯度控制器实时训练模型,使AI在实验中持续优化策略。
该应用还提供神经网络可视化功能,在训练或推理过程中,用户可以实时查看模型的权重和激活状态,直观理解其决策机制。
此外,界面清晰显示每个回合的步数和奖励,并记录上次存活时间及历史最佳存活时间,使训练过程和成果一目了然。
在实现相同功能的情况下,GPT-5.1-Codex-Max仅使用27k token,而GPT-5.1-Codex则需37k token。
GPT-5.1-Codex-Max还创建了一个太阳系重力模拟器,旨在让用户通过拖拽、点击等交互,直观观察天体运动轨迹,理解轨道、速度与引力之间的关系。
该网页功能运行流畅,完美实现了提示词中的要求。用户可以点击画布放置有质量的天体,再次点击设置初速度向量,从而构建任意的简易行星系统。
界面提供滑块调节中心天体质量和整体时间缩放因子,使用户能观察同一轨道结构在不同物理条件下的演化。
下一个案例是GPT-5.1-Codex-Max构建的光折射模拟器,帮助用户以直观动态的方式理解斯涅尔定律(Snell’s Law),即光在两种介质界面上的折射规律。
用户可通过左右滑块调节介质1和介质2的折射率,界面实时更新折射角度,展示不同光学环境下的光线偏折。
许多网友也分享了他们的使用体验。一位网友让昨天发布的Gemini 3 Pro与GPT-5.1-Codex-Max进行对比,提示词为“创建一个鹈鹕骑自行车的SVG”。
结果显示,GPT-5.1-Codex-Max生成的鹈鹕、自行车等元素细节更丰富,也更逼真。
英国定制化贺卡公司Moonpig的AI部门负责人Peter Gostev分享说,他让GPT-5.1-Codex-Max构建了一个金门大桥模拟器,并称这是他基于类似提示词获得的最佳效果。
与GPT-5.1-Pro相比,Gostev认为GPT-5.1-Codex-Max更主动且速度更快。要使用GPT-5.1-Pro达到类似效果,需不断指出问题并给出明确指令,而GPT-5.1-Codex-Max则更具主动性。
AI工程师Peter Dedene分享说,他在体验时发现GPT-5.1-Codex-Max盯着问题看了5分钟,然后决定稍后处理,他从未见过Codex有此行为。在他看来,模型似乎已具备某种意识。
不过,需要注意的是,随着模型能力的提升,安全性也成为重要挑战。OpenAI表示,GPT-5.1-Codex-Max尚未在其内部Preparedness Framework中达到“高等级网络安全能力”,但其安全性能已是业内最强。
目前,Codex系列模型默认运行在高度隔离的安全沙箱中,文件写入仅限于自身工作空间,网络访问默认关闭,除非开发者主动开启。这些措施有助于降低提示词注入等风险。
OpenAI计划通过渐进式部署,从实际应用中收集反馈,并持续更新模型的安全防护措施。
从GPT-5.1-Codex-Max可以看出,新一代编程模型已超越简单的代码生成,进化为能够持续工作、自动调试、主动规划的编程智能体。其长时推理、上下文压缩、自我修复等能力,使其能独立完成项目级任务。
随着运行成本降低、安全沙箱增强、能力全面提升,未来的软件开发方式可能发生转变,从“编写代码”转向“描述需求+审核结果”,智能体有望承担更多实现与迭代工作。
本文由主机测评网于2026-02-18发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260225696.html