当前位置：首页 > 科技资讯 > 正文

Anthropic发布Claude Opus 4.5：编程AI新标杆，性能与价格双突破

主机测评网
科技资讯
2026-01-27
833

在编程领域超越Gemini 3 Pro，在技术面试中击败所有人类应聘者。

智东西11月25日发布报道，Anthropic公司今日正式推出了其旗舰级编程模型Claude Opus 4.5。该公司宣称，这是全球范围内在编程、智能体代理和计算机应用方面最强大的AI系统。

在真实世界软件工程测试SWE-bench Verified中，Claude Opus 4.5成为首个得分突破80%的AI模型，不仅超越了自家前代Claude Sonnet 4.5，还领先于上周发布的Gemini 3 Pro和GPT-5.1 Codex-Max。

Anthropic发布Claude Opus 4.5：编程AI新标杆，性能与价格双突破 Claude 4.5 编程模型 AI测试价格降低第1张

Anthropic还将公司用于面试人类工程师的高难度居家考试交给Claude Opus 4.5完成，结果在规定两小时内，Claude Opus 4.5的得分高于以往任何人类应聘者，这表明AI模型在关键技术技能方面已经超越优秀人类工程师。

编程能力并非Claude Opus 4.5唯一的升级点，其视觉理解、逻辑推理和数学计算能力均优于前代产品，能够有效处理深度研究任务，以及幻灯片制作和电子表格分析等日常办公需求。

Anthropic发布Claude Opus 4.5：编程AI新标杆，性能与价格双突破 Claude 4.5 编程模型 AI测试价格降低第2张

与此同时，Claude Opus系列模型的价格被Anthropic大幅下调。Claude Opus 4.5的定价为每百万tokens 5美元（输入）/25美元（输出），仅为前代Claude Opus 4.1价格的三分之一。此外，Anthropic还取消了专门针对Opus系列的使用量限制。

Anthropic发布Claude Opus 4.5：编程AI新标杆，性能与价格双突破 Claude 4.5 编程模型 AI测试价格降低第3张

Claude Opus 4.5现已通过Claude应用程序和API提供，但用户需先订阅200美元/月的最高档套餐方可使用。该模型也已在AWS、谷歌云和微软Azure三大主流云平台同步上线。

01.前端表现实现飞跃，一次性完美复刻《我的世界》游戏

Claude Opus 4.5的实际使用效果如何？在Anthropic官方宣布模型发布的评论区，许多用户分享了他们的第一手体验。

在前端开发能力上，前端开发者平台Vercel的CEO Guillermo使用Claude Opus 4.5构建了一个购物网站，一次性生成的结果如下：

Anthropic发布Claude Opus 4.5：编程AI新标杆，性能与价格双突破 Claude 4.5 编程模型 AI测试价格降低第4张

Guillermo惊叹道，Claude Opus 4.5的水平完全不同以往，优秀得令人难以置信。

Anthropic发布Claude Opus 4.5：编程AI新标杆，性能与价格双突破 Claude 4.5 编程模型 AI测试价格降低第5张

这位网友展示了用Claude Opus 4.5创建的4个Hero Section（网站或应用中的关键展示区域），用于吸引用户注意力。可以看到，这些页面在字体设计和网页布局上都呈现出高级感。

Anthropic发布Claude Opus 4.5：编程AI新标杆，性能与价格双突破 Claude 4.5 编程模型 AI测试价格降低第6张

有网友利用Claude Opus 4.5开发了《我的世界》克隆版，这考察了模型在复杂项目上的性能。Claude Opus 4.5一次就成功生成了3500行代码，网友认为这意味着它不会像Gemini 3.0 Pro那样偷工减料。

Anthropic发布Claude Opus 4.5：编程AI新标杆，性能与价格双突破 Claude 4.5 编程模型 AI测试价格降低第7张

Claude Opus 4.5复刻的《我的世界》游戏栩栩如生，包含不同生物群系（如平原、沙漠、雪地），树叶和水的透明方块处理得当，还有一套完善的物品栏和合成系统。所有这些元素都集成在一个游戏中。它甚至实现了云朵效果，网友称此前从未见过任何模型能做到这一点。

Anthropic发布Claude Opus 4.5：编程AI新标杆，性能与价格双突破 Claude 4.5 编程模型 AI测试价格降低第8张

AI订阅平台Every的联合创始人兼CEO Dan Shipper感慨道，每隔半年到一年，就会出现一款真正改变行业格局的模型，而今天发布的Claude Opus 4.5正是这样的模型。Shipper称这是他用过的最出色的编程模型，没有之一。

Anthropic发布Claude Opus 4.5：编程AI新标杆，性能与价格双突破 Claude 4.5 编程模型 AI测试价格降低第9张

02.七门编程语言测试领先，安全性显著提升

在发布前，Anthropic对Claude Opus 4.5模型进行了内部测试。测试人员表示，Claude Opus 4.5能够处理模糊不清的情况，并能权衡利弊，无需过多指导。

当遇到复杂的多系统错误时，Claude Opus 4.5能够自行找到修复方案，几周前Claude Sonnet 4.5几乎无法完成的任务，现在Claude Opus 4.5已能轻松应对。Anthropic的测试人员告诉模型团队，Claude Opus 4.5确实“非常懂行”。

Anthropic分享了Claude Opus 4.5在多个基准测试上的表现。在考察多种编程语言掌握程度的SWE-bench Multilingual中，Claude Opus 4.5在8种编程语言中的7种实现了性能领先。

Anthropic发布Claude Opus 4.5：编程AI新标杆，性能与价格双突破 Claude 4.5 编程模型 AI测试价格降低第10张

在考察深度搜索智能体能力的BrowseComp-Plus中，Claude Opus 4.5较Claude Sonnet 4.5展现出约4.7%的性能优势。

Anthropic发布Claude Opus 4.5：编程AI新标杆，性能与价格双突破 Claude 4.5 编程模型 AI测试价格降低第11张

Claude Opus 4.5还破解了一些常用基准测试。例如，在衡量智能体能力的τ2-bench中，模型需要扮演航空公司客服角色，帮助一位遇到困难的乘客。

该基准测试题要求模型拒绝修改经济舱机票，因为航空公司不允许更改该舱位机票。然而，Claude Opus 4.5找到了一种巧妙且合理的解决方案：先升舱，然后再修改航班。

从技术层面看，由于Claude Opus 4.5帮助客户的方式出乎意料，基准测试将其判定为失败。但这种创造性的问题解决方式，是一次意义重大的进步。

在其他情况下，寻找绕过预期限制的巧妙方法可能被视为奖励破解——即模型以非预期的方式“玩弄”规则或目标。

防止此类偏差是Anthropic安全测试的目标之一。在内部评估中，Claude Opus 4.5展现出令人担忧行为的概率略高于10%，远低于GPT-5.1和Gemini 3 Pro的20%。

Anthropic发布Claude Opus 4.5：编程AI新标杆，性能与价格双突破 Claude 4.5 编程模型 AI测试价格降低第12张

Claude Opus 4.5在抵御提示词注入攻击方面取得显著进展。提示注入攻击会偷偷植入欺骗性指令，诱使模型执行有害行为。Opus 4.5比业内任何其他前沿模型都更难被提示注入攻击欺骗。

Anthropic发布Claude Opus 4.5：编程AI新标杆，性能与价格双突破 Claude 4.5 编程模型 AI测试价格降低第13张

03.新增思考强度控制，采用GPT同款上下文压缩功能

在发布最新模型的同时，Anthropic还宣布了Claude开发者平台的一系列新增功能。

随着模型智能水平提升，它们能以更少步骤解决问题：减少回溯、冗余探索和冗长推理。Claude Opus 4.5相比前代模型，在达成相同或更优结果时显著减少了token消耗。但不同任务需要不同权衡——开发者有时希望模型持续思考难题，有时则需要更敏捷的响应。

通过Claude API新增的“思考强度”参数（effort parameter），开发者可自主选择最小化时间成本或最大化模型能力。

在中等强度设置下，Claude Opus 4.5在SWE-bench Verified测试中达到Sonnet 4.5最佳成绩，同时输出token减少76%。

在最高强度下，其性能超越Claude Sonnet 4.5达4.3个百分点，且节省48%的token。

Anthropic发布Claude Opus 4.5：编程AI新标杆，性能与价格双突破 Claude 4.5 编程模型 AI测试价格降低第14张

结合强度控制、上下文压缩与高级工具使用能力，Claude Opus 4.5能处理更持久复杂的任务，并减少人工干预。值得注意的是，OpenAI上周推出的GPT-5.1 Codex Max也具备上下文压缩的新功能。

Claude开发者平台在上下文管理与记忆能力方面实现突破，显著提升了智能体任务的表现。Claude Opus 4.5在协调子智能体团队方面尤为出色，支持构建复杂且协作良好的多智能体系统。测试数据显示，这些技术组合使Claude Opus 4.5在深度研究评估中的性能提升近15个百分点。

Anthropic公司正持续提升开发者平台的可组合性，通过提供效率控制、工具使用和上下文管理等基础模块，助力开发者精准构建所需功能。

产品方面，Claude Code随Claude Opus 4.5获得双重升级：计划模式能制定更精确方案并彻底执行——首先主动询问澄清问题，随后生成用户可编辑的plan.md文件再实施操作。

同时该功能现已登陆桌面应用，支持并行运行本地与远程会话，实现多智能体协同工作（如同时进行代码修复、GitHub研究及文档更新）。

针对Claude应用程序用户，长对话不再受限于上下文长度，系统会自动总结早期对话内容，以保持交流连续性。

面向所有Max用户的Claude for Chrome现已全面开放，支持跨浏览器标签页处理任务；十月发布的Claude for Excel今日将测试权限扩展至所有Max、Team及Enterprise用户。这些更新均得益于Claude Opus 4.5在计算机操作、电子表格处理及长时任务管理方面的提升。

Anthropic发布Claude Opus 4.5：编程AI新标杆，性能与价格双突破 Claude 4.5 编程模型 AI测试价格降低第15张