当前位置：首页 > 科技资讯 > 正文

Anthropic推出Claude Opus 4.5：编程能力超越人类，价格下调三分之二

主机测评网
科技资讯
2026-02-20
291

在编程任务上超越Gemini 3 Pro，并且在面试环节胜过所有人类应聘者。

据智东西11月25日消息，Anthropic今日正式推出其旗舰级编程模型Claude Opus 4.5。该公司宣称，该模型在编程、智能体应用及计算机操作领域均达到全球顶尖水平。

在现实世界软件工程评估SWE-bench Verified中，Claude Opus 4.5斩获首个突破80%得分大关的AI模型殊荣，不仅超越同系列Claude Sonnet 4.5，更优于上周问世的Gemini 3 Pro与GPT-5.1 Codex-Max。

Anthropic推出Claude Opus 4.5：编程能力超越人类，价格下调三分之二 Claude 4.5 AI编程模型 Anthropic 编程性能第1张

Anthropic还将公司内部用于面试人类工程师的高难度居家测试交由Claude Opus 4.5完成，结果显示，在两小时的限定时间内，Claude Opus 4.5的得分超越以往所有人类应聘者，这标志着AI模型在关键技术技能上已凌驾于优秀人类之上。

编程能力的提升并非Claude Opus 4.5的唯一亮点，其视觉识别、逻辑推理及数学能力均较前代产品显著增强，能够高效胜任深度研究、幻灯片制作及电子表格处理等日常事务。

Anthropic推出Claude Opus 4.5：编程能力超越人类，价格下调三分之二 Claude 4.5 AI编程模型 Anthropic 编程性能第2张

与此同时，Anthropic大幅降低了Claude Opus系列模型的定价。Claude Opus 4.5的收费标准为每百万tokens输入5美元/输出25美元，仅为前代Claude Opus 4.1的三分之一。此外，Anthropic还取消了针对Opus系列的专属用量限制。

Anthropic推出Claude Opus 4.5：编程能力超越人类，价格下调三分之二 Claude 4.5 AI编程模型 Anthropic 编程性能第3张

Claude Opus 4.5现已在Claude应用程序及API中开放使用，但用户需订阅200美元/月的最高档套餐方可体验。同时，该模型也已登陆AWS、谷歌云和微软Azure三大主流云平台。

01.前端表现再飞跃，还一次性完美复刻《我的世界》

Claude Opus 4.5的实际表现如何？在Anthropic官宣模型的评论区，众多用户纷纷晒出第一手体验。

前端能力方面，前端开发者平台Vercel的CEO Guillermo借助Claude Opus 4.5打造了一个购物网站，一次性生成的效果如下：

Anthropic推出Claude Opus 4.5：编程能力超越人类，价格下调三分之二 Claude 4.5 AI编程模型 Anthropic 编程性能第4张

Guillermo感叹，Claude Opus 4.5的水平完全不同，好得让人难以置信。

Anthropic推出Claude Opus 4.5：编程能力超越人类，价格下调三分之二 Claude 4.5 AI编程模型 Anthropic 编程性能第5张

这位网友分享了自己用Claude Opus 4.5打造的4个Hero Section，这是网站或App中的一个重要区域，用来吸引用户的注意力。可以看到，这几个页面都无论是字体设计，还是网页布局，都很有高级感。

Anthropic推出Claude Opus 4.5：编程能力超越人类，价格下调三分之二 Claude 4.5 AI编程模型 Anthropic 编程性能第6张

有网友用Claude Opus 4.5打造了《我的世界》克隆版，这考察了模型更为复杂的项目上的性能。Claude Opus 4.5一次就成功了，生成了3500行代码，网友认为这意味着Claude Opus 4.5不会像Gemini 3.0 Pro一样偷工减料。

Anthropic推出Claude Opus 4.5：编程能力超越人类，价格下调三分之二 Claude 4.5 AI编程模型 Anthropic 编程性能第7张

Claude Opus 4.5复刻的《我的世界》游戏有模有样，拥有不同的生物群系（平原、沙漠、雪地），树叶和水的透明方块也恰到好处，还有一套非常棒的物品栏和合成系统。所有这些都集成在一个游戏中。它甚至还打造了云朵效果，网友称自己此前从未见过哪个模型能做到这一点。

Anthropic推出Claude Opus 4.5：编程能力超越人类，价格下调三分之二 Claude 4.5 AI编程模型 Anthropic 编程性能第8张

AI订阅平台Every的联合创始人兼CEO Dan Shipper感叹道，每隔半年到一年，就会出现一款真正改变行业格局的模型，而今天发布的Claude Opus 4.5，就是那款模型。Shipper称这是他用过的最好的编程模型，没有之一。

Anthropic推出Claude Opus 4.5：编程能力超越人类，价格下调三分之二 Claude 4.5 AI编程模型 Anthropic 编程性能第9张

02.7门编程语言测试领先，安全性大幅提升

发布前，Anthropic对Claude Opus 4.5模型进行了内部测试。测试人员称，Claude Opus 4.5能够处理模糊不清的情况，并能权衡利弊，无需过多指导。

当遇到复杂的多系统错误时，Claude Opus 4.5能够自行找到修复方法，几周前Claude Sonnet 4.5几乎无法完成的任务，现在Claude Opus 4.5已经能够轻松应对。Anthropic的测试人员告诉模型团队，Claude Opus 4.5真的“很懂行”。

Anthropic分享了Claude Opus 4.5在多个基准测试上的表现。在考察多种编程语言掌握程度的SWE-bench Multilingual中，Claude Opus 4.5在8种编程语言里的7种实现性能领先。

Anthropic推出Claude Opus 4.5：编程能力超越人类，价格下调三分之二 Claude 4.5 AI编程模型 Anthropic 编程性能第10张

在考察深度搜索Agent能力的BrowseComp-Plus中，Claude Opus 4.5较Claude Sonnet 4.5展现出约4.7%的优势。

Anthropic推出Claude Opus 4.5：编程能力超越人类，价格下调三分之二 Claude 4.5 AI编程模型 Anthropic 编程性能第11张

Claude Opus 4.5还破解了一些常用的基准测试。例如，在衡量智能体能力的τ2-bench中，模型需要扮演航空公司客服人员的角色，帮助一位遇到困难的乘客。

该基准测试题要求模型拒绝修改经济舱机票，因为航空公司不允许更改该舱位的机票。然而，Claude Opus 4.5找到了一种巧妙且合理的解决方案：先升舱，然后再修改航班。

从技术层面来说，由于Claude Opus 4.5帮助客户的方式出乎意料，基准测试将其判定为失败。但这种创造性的问题解决方式，是一次意义重大的进步。

在其他情况下，寻找绕过预期限制的巧妙方法可能被视为奖励破解——即模型以非预期的方式“玩弄”规则或目标。

防止此类偏差是Anthropic安全测试的目标之一。在内部评估中，Claude Opus 4.5展现出令人担忧的行为的概率略高于10%，远低于GPT-5.1和Gemini 3 Pro的20%。

Anthropic推出Claude Opus 4.5：编程能力超越人类，价格下调三分之二 Claude 4.5 AI编程模型 Anthropic 编程性能第12张

Claude Opus 4.5在抵御提示词注入攻击方面取得了显著进展。提示注入攻击会偷偷植入欺骗性指令，诱使模型执行有害行为。Opus 4.5比业内任何其他前沿模型都更难被提示注入攻击欺骗。

Anthropic推出Claude Opus 4.5：编程能力超越人类，价格下调三分之二 Claude 4.5 AI编程模型 Anthropic 编程性能第13张

03.新增思考强度控制，用上GPT同款上下文压缩功能

在发布最新模型的同时，Anthropic还宣布了Claude开发者平台的一系列新增功能。

随着模型智能水平的提升，它们能以更少步骤解决问题：减少回溯、冗余探索和冗长推理。Claude Opus 4.5相比前代模型，在达成相同或更优结果时显著减少了token消耗。但不同任务需要不同的权衡——开发者有时希望模型持续思考难题，有时则需要更敏捷的响应。

通过Claude API新增的“思考强度”参数（effort parameter），开发者可自主选择最小化时间成本或最大化模型能力。

在中等强度设置下，Claude Opus 4.5在SWE-bench Verified测试中达到Sonnet 4.5最佳成绩，同时输出token减少76%。

在最高强度下，其性能超越Claude Sonnet 4.5达4.3个百分点，且节省48%的token。

Anthropic推出Claude Opus 4.5：编程能力超越人类，价格下调三分之二 Claude 4.5 AI编程模型 Anthropic 编程性能第14张

结合强度控制、上下文压缩与高级工具使用能力，Claude Opus 4.5能处理更持久复杂的任务，并减少人工干预。值得注意的是，OpenAI上周推出的GPT-5.1 Codex Max也具备上下文压缩的新功能。

Claude开发者平台在上下文管理与记忆能力方面实现突破，显著提升了智能体任务的表现。Claude Opus 4.5在协调子智能体团队方面尤为出色，支持构建复杂且协作良好的多智能体系统。测试数据显示，这些技术组合使Claude Opus 4.5在深度研究评估中的性能提升近15个百分点。

Anthropic公司正持续提升开发者平台的可组合性，通过提供效率控制、工具使用和上下文管理等基础模块，助力开发者精准构建所需功能。

产品方面，Claude Code随Claude Opus 4.5获得双重升级：计划模式能制定更精确方案并彻底执行——首先主动询问澄清问题，随后生成用户可编辑的plan.md文件再实施操作。

同时该功能现已登陆桌面应用，支持并行运行本地与远程会话，实现多智能体协同工作（如同时进行代码修复、GitHub研究及文档更新）。

针对Claude应用程序用户，长对话不再受限于上下文长度，系统会自动总结早期对话内容，以保持交流连续性。

面向所有Max用户的Claude for Chrome现已全面开放，支持跨浏览器标签页处理任务；十月发布的Claude for Excel今日将测试权限扩展至所有Max、Team及Enterprise用户。这些更新均得益于Claude Opus 4.5在计算机操作、电子表格处理及长时任务管理方面的提升。

Anthropic推出Claude Opus 4.5：编程能力超越人类，价格下调三分之二 Claude 4.5 AI编程模型 Anthropic 编程性能第15张