当前位置:首页 > 科技资讯 > 正文

OpenAI静默发布GPT-5.1 Pro与GPT-5.1-Codex-Max,AI编程模型效率再突破

人工智能领域的更新速度日新月异,几乎每天都有新进展,让人应接不暇。

前些天,先是Grok 4.1和Gemini 3 Pro相继亮相,如今OpenAI的GPT-5.1 Pro也悄然面世!

官方没有发布长篇博文,仅仅用两句话简单宣布。

OpenAI静默发布GPT-5.1 Pro与GPT-5.1-Codex-Max,AI编程模型效率再突破 GPT-5.1  编程模型 AI竞赛 OpenAI 第1张

众所周知,GPT-5.1专注于提升“情商”与“智商”,而Pro版本则将这两大优势发挥到更高水平。

同日,OpenAI全新的王牌代码模型GPT-5.1-Codex-Max,也已在Codex平台正式上线!

OpenAI静默发布GPT-5.1 Pro与GPT-5.1-Codex-Max,AI编程模型效率再突破 GPT-5.1  编程模型 AI竞赛 OpenAI 第2张

从名称可以看出,它基于GPT-5.1构建,并在软件工程、数学研究等智能体任务上进行了专门训练。

因此,GPT-5.1-Codex-Max能力更强大、响应更迅速,同时使用起来更节省token。

新模型专为“长时间、高强度”的开发工作而设计。

简单来说,它能连续自主运行超过24小时,一次性处理数百万token,并直接交付成果。

OpenAI静默发布GPT-5.1 Pro与GPT-5.1-Codex-Max,AI编程模型效率再突破 GPT-5.1  编程模型 AI竞赛 OpenAI 第3张

这恰好验证了Scaling Law仍在持续生效。

这是因为GPT-5.1-Codex-Max是OpenAI首个“原生支持压缩”机制的模型,能够跨越多个上下文工作。

这样一来,像项目重构、深度调试、长时间智能体循环等任务,它都能轻松应对。

OpenAI静默发布GPT-5.1 Pro与GPT-5.1-Codex-Max,AI编程模型效率再突破 GPT-5.1  编程模型 AI竞赛 OpenAI 第4张

目前,GPT-5.1 Pro已向所有Pro订阅用户开放。

GPT-5.1-Codex-Max已在Codex中支持CLI、IDE扩展、云端和代码审查使用,API接口也即将推出。

2025年接近尾声,AI终极对决即将爆发,GPT-5.1 Pro与Gemini 3 Pro之间,谁将脱颖而出?

OpenAI静默发布GPT-5.1 Pro与GPT-5.1-Codex-Max,AI编程模型效率再突破 GPT-5.1  编程模型 AI竞赛 OpenAI 第5张

OpenAI最强编程模型

这次的GPT-5.1-Codex-Max,是在“真实场景”中磨练出来的!

在PR创建、代码审查、前端开发、问答等工程师常见任务上,都进行了专项训练。

在多项前沿编码评估中,它都轻松超越了OpenAI之前的所有模型。

OpenAI静默发布GPT-5.1 Pro与GPT-5.1-Codex-Max,AI编程模型效率再突破 GPT-5.1  编程模型 AI竞赛 OpenAI 第6张

在SWE-bench Verified的评估结果中,GPT-5.1-Codex-Max获得了77.9%的高分。

OpenAI静默发布GPT-5.1 Pro与GPT-5.1-Codex-Max,AI编程模型效率再突破 GPT-5.1  编程模型 AI竞赛 OpenAI 第7张

GPT-5.1-Codex-Max不仅评分高,实际体验也大幅提升!

它是OpenAI首个可以在Windows环境中运行的模型,训练中还针对Codex CLI协作场景做了优化,更加易用。

思考token大幅降低30%

不仅如此,GPT-5.1-Codex-Max使用成本也更低。

在同样“中等”推理强度下,它不仅表现优于GPT-5.1-Codex,而且思考过程所用的token量减少了约30%。

OpenAI静默发布GPT-5.1 Pro与GPT-5.1-Codex-Max,AI编程模型效率再突破 GPT-5.1  编程模型 AI竞赛 OpenAI 第8张

对于对延迟不敏感的任务,新增的“超高”推理强度,可以花费更多时间获得更优质答案。

不过,日常使用中,OpenAI仍推荐中等强度。

token的节省意味着在实际开发中,成本可以显著降低,这对开发者来说是一大福音。

下面的演示中,清晰展示了GPT-5.1-Codex-Max和GPT-5.1-Codex在token使用上的差异。即使token减少,前者在前端设计中的功能和美观度都不逊色。

例如,让它们生成一个浏览器应用——一个可交互的CartPole强化学习沙盒,需要包括小型策略梯度控制器、指标面板,以及一个SVG网络可视化器。

OpenAI静默发布GPT-5.1 Pro与GPT-5.1-Codex-Max,AI编程模型效率再突破 GPT-5.1  编程模型 AI竞赛 OpenAI 第9张

OpenAI静默发布GPT-5.1 Pro与GPT-5.1-Codex-Max,AI编程模型效率再突破 GPT-5.1  编程模型 AI竞赛 OpenAI 第10张

上:GPT-5.1-Codex-Max;下:GPT-5.1-Codex

GPT-5.1-Codex-Max仅用27k思考token就完成了任务,而且代码更加简洁。

OpenAI静默发布GPT-5.1 Pro与GPT-5.1-Codex-Max,AI编程模型效率再突破 GPT-5.1  编程模型 AI竞赛 OpenAI 第11张

这个演示要求创建一个太阳系引力井沙盒,需要可视化物体在2D引力势场中的运动,并支持拖动平移视图、环绕观察场景。

OpenAI静默发布GPT-5.1 Pro与GPT-5.1-Codex-Max,AI编程模型效率再突破 GPT-5.1  编程模型 AI竞赛 OpenAI 第12张

OpenAI静默发布GPT-5.1 Pro与GPT-5.1-Codex-Max,AI编程模型效率再突破 GPT-5.1  编程模型 AI竞赛 OpenAI 第13张

上:GPT-5.1-Codex-Max;下:GPT-5.1-Codex

GPT-5.1-Codex-Max同样使用了更少的token和更精炼的代码完成了任务。

OpenAI静默发布GPT-5.1 Pro与GPT-5.1-Codex-Max,AI编程模型效率再突破 GPT-5.1  编程模型 AI竞赛 OpenAI 第14张

GPT-5.1-Codex-Max之所以如此强大,是因为采用了一套全新机制。

连续运行一天,全靠“压缩”机制

“压缩”机制让GPT-5.1-Codex-Max突破限制,处理那些因上下文过长而原本无法完成的任务。

例如,复杂重构和长时间智能体循环。

它会自动整理历史内容,筛选保留最关键的上下文,从而实现在长时间跨度内的连贯性。

在Codex中,当接近上下文上限时,GPT-5.1-Codex-Max会自动执行会话压缩,刷新上下文,并多次重复这一过程直到任务完成。

下面这个案例中,GPT-5.1-Codex-Max正在自主重构Codex CLI的开源仓库。

可以看到,当上下文快满时,它会自动压缩释放空间,从而在不丢失进度的情况下完成任务。

OpenAI静默发布GPT-5.1 Pro与GPT-5.1-Codex-Max,AI编程模型效率再突破 GPT-5.1  编程模型 AI竞赛 OpenAI 第15张

视频已经过剪辑和加速处理,以便更清楚地展示过程

内部测试显示,GPT-5.1-Codex-Max能连续自主工作超过24小时。

在此期间,它可以不断迭代实现、修复测试失败,并最终交付可用成果。

这种长时间、连贯的任务能力,是迈向更通用、更可靠AI系统的关键基石。

在METR评估中,GPT-5.1-Codex-Max的长程任务能力,成为了新的SOTA。

OpenAI静默发布GPT-5.1 Pro与GPT-5.1-Codex-Max,AI编程模型效率再突破 GPT-5.1  编程模型 AI竞赛 OpenAI 第16张

在OpenAI内部,已有95%的工程师每周都在使用Codex,自从引入之后,团队的Pull Request数量提升了约70%。

现在,GPT-5.1-Codex-Max搭配着持续升级的CLI、IDE扩展、云集成与代码审查工具,编程效率直接飙升。

一些网友试用的第一手感受,瞬间让人惊艳。

OpenAI静默发布GPT-5.1 Pro与GPT-5.1-Codex-Max,AI编程模型效率再突破 GPT-5.1  编程模型 AI竞赛 OpenAI 第17张

OpenAI静默发布GPT-5.1 Pro与GPT-5.1-Codex-Max,AI编程模型效率再突破 GPT-5.1  编程模型 AI竞赛 OpenAI 第18张

GPT-5.1 Pro上线,首批评测出炉

至于GPT-5.1 Pro,正如开篇所说,OpenAI只是在版本更新日志里写了两段介绍。

虽然官方没有单独发布博客,但提前拿到内测资格的专业人士,都非常兴奋地在第一时间分享了体验感受。

OpenAI静默发布GPT-5.1 Pro与GPT-5.1-Codex-Max,AI编程模型效率再突破 GPT-5.1  编程模型 AI竞赛 OpenAI 第19张

对于GPT-5.1迭代后的性能,Epoch AI第三方评估后称,几乎与GPT-5实力相当。

它们在“高”推理模式下,能力指数(ECI)得分均为151。

OpenAI静默发布GPT-5.1 Pro与GPT-5.1-Codex-Max,AI编程模型效率再突破 GPT-5.1  编程模型 AI竞赛 OpenAI 第20张

杰克森实验室教授、人类免疫学家Derya Unutmaz表示,性能相比之前显著提升的GPT-5.1 Pro,是他目前最喜爱的模型。

OpenAI静默发布GPT-5.1 Pro与GPT-5.1-Codex-Max,AI编程模型效率再突破 GPT-5.1  编程模型 AI竞赛 OpenAI 第21张

在下面的例子中,他分别向5.0和5.1 Pro询问了免疫学领域最重要的未解之谜,并要求这两个模型深入浅出地剖析每个问题,以便让没有免疫学学位的人也能理解其重要性。

其中,前两个回复来自GPT-5.1 Pro,接下来的两个较短回复来自GPT-5.0。

可以看到,GPT-5.1 Pro明显更胜一筹,因为它能让没有免疫学背景的人更轻松地理解这些解释,并且清晰地阐明了这些问题的重要性和潜在价值。

对比而言,GPT-5.1 Pro在清晰度和洞察力方面都有质的飞跃。它的回答在保持深度的同时,内容更完整自洽、更形象生动、也更易于理解。

虽然GPT-5.0的回复在内容上也同样出色,但剖析得不够透彻。

OpenAI静默发布GPT-5.1 Pro与GPT-5.1-Codex-Max,AI编程模型效率再突破 GPT-5.1  编程模型 AI竞赛 OpenAI 第22张

GPT-5.1 Pro

OpenAI静默发布GPT-5.1 Pro与GPT-5.1-Codex-Max,AI编程模型效率再突破 GPT-5.1  编程模型 AI竞赛 OpenAI 第23张

GPT-5.0

HyperWrite AI的CEO Matt Shumer也在一篇详细的体验报告中表示:GPT-5.1 Pro是目前最好的“大脑”,虽然响应较慢,但思考深入。

对于大多数日常工作,Gemini 3更佳;毕竟在一个独立界面中等待10分钟才能得到答案并不理想。

但对于任何需要深入思考、规划和研究的任务,以及任何必须一次性做对的事情,GPT-5.1 Pro更优。

OpenAI静默发布GPT-5.1 Pro与GPT-5.1-Codex-Max,AI编程模型效率再突破 GPT-5.1  编程模型 AI竞赛 OpenAI 第24张

长文地址:https://shumer.dev/gpt51proreview

反应较慢,但聪明得离谱

它不仅比大多数人类更擅长推理,而且在处理真正棘手的难题时,也比其他任何模型都要聪明。

预计几天内,就会出现它解决了一些人们认为当今AI系统力所不及的问题的例子。

指令遵循能力是最大的亮点

它真的会严格执行你的要求,而不会跑偏。

对于严肃的编码任务,它给人的感觉不那么像一个“助手”,而更像是一个依据规格说明书工作的外包工程师(哪怕你的规格说明书有点模糊)。

前端和用户体验设计,以及写作,都是弱项

不管是创意写作,还是设计漂亮的UI,Gemini 3都要更胜一筹。

但最大的弱点还是界面

它只能在ChatGPT中使用,无法集成到IDE里,也无法连接到其他工具链中。这一点与GPT-5 Pro如出一辙。

参考资料:

https://x.com/OpenAI/status/1991266192905179613?s=20

https://x.com/OpenAIDevs/status/1991217488550359066?s=20