当前位置：首页 > 科技资讯 > 正文

Claude Opus 4.5 重磅发布：AI性能超越人类，成本骤降67%

主机测评网
科技资讯
2026-02-20
335

就在刚刚过去的午夜时分，人工智能行业迎来了一次足以重塑产业格局的重大发布！Anthropic公司正式推出了其旗舰级模型Claude Opus 4.5，凭借震撼人心的定价策略和突破性的性能表现，在大模型竞争领域投下了一枚“重磅炸弹”。这不仅仅是技术的升级，更是一场深刻的市场变革——API调用成本直接削减三分之二，在严苛的软件工程评估中首次全面超越所有人类工程师，这标志着AI技术正式跨入一个全新的发展纪元。

Claude Opus 4.5 重磅发布：AI性能超越人类，成本骤降67% 编码能力超越人类成本降价67% AI智能体自主优化第1张

顶级AI能力步入普惠新纪元

Anthropic此次的定价策略调整堪称“颠覆性举措”。具体数据显示，Opus 4.5的输入token价格由原先的每百万15美元急剧下降至5美元，输出token价格从75美元骤减至25美元，整体降幅高达惊人的67%！这一价格水平甚至使得众多竞争对手的中端模型都相形见绌。

更为引人注目的是，Anthropic还同步公布了一系列普惠措施：32K上下文窗口现已完全免费开放，之前需要额外付费的“无限对话”功能也向所有付费用户全面解锁。这意味着开发者和企业用户如今能够以更低的成本，享受到更为强大的AI能力。

Claude Opus 4.5 重磅发布：AI性能超越人类，成本骤降67% 编码能力超越人类成本降价67% AI智能体自主优化第2张

Anthropic产品负责人Scott White在CNBC专访中强调：“我们真诚地希望这项技术能够真正服务于所有想要使用这些模型的人。我们的核心焦点始终是：如何让Claude更有效地协助您完成那些工作中可能不愿亲自处理的任务？”

编码能力首度凌驾人类专家

在极具权威性和挑战性的SWE-bench Verified评测中，Opus 4.5斩获了80.9%的惊人得分。这一成绩不仅大幅超越了OpenAI最新发布的GPT-5.1-Codex-Max（77.9%）和谷歌上周推出的Gemini 3 Pro（76.2%），更在Anthropic内部最为严苛的工程能力测试中刷新了历史记录。

Claude Opus 4.5 重磅发布：AI性能超越人类，成本骤降67% 编码能力超越人类成本降价67% AI智能体自主优化第3张

“在我们设定的2小时时限内，Claude Opus 4.5的得分高于任何人类候选人”，Anthropic在官方博客中正式宣告。这项测试原本是为甄选顶级性能工程师而设计，专门考察候选人在时间压力下的技术水平和专业判断力。

Claude Opus 4.5 重磅发布：AI性能超越人类，成本骤降67% 编码能力超越人类成本降价67% AI智能体自主优化第4张

尽管公司方面谨慎指出，这项测试并未衡量候选人可能拥有的其他关键能力，例如协作、沟通或多年经验积累的直觉，但这一里程碑式的成果无疑引发了业界对“AI将如何重塑工程技术领域”的深刻反思。

智能与成本的理想平衡

Opus 4.5引入了创新的“努力参数”机制，使开发者能够在性能与成本之间灵活权衡。这一设计充分展现了Anthropic对实际应用场景的深入洞察。

具体数据显示，在中等努力设定下，Opus 4.5能够达到Sonnet 4.5在SWE-bench Verified上的最优表现，同时输出token使用量减少76%。而在高等努力设定下，Opus 4.5的性能超出Sonnet 4.5达4.3个百分点，同时token使用量仍降低48%。

这种效率提升在企业实际应用中已显现出显著成效。GitHub首席产品官Mario Rodriguez证实：“早期测试显示，Opus 4.5在内部编码基准测试中表现优异，同时将token使用量减半，尤其适用于代码迁移和代码重构等复杂任务。”

Replit总裁Michele Catasta进一步补充：“Opus 4.5在我们的内部基准测试中击败了Sonnet 4.5及其他竞争对手，并且使用更少的token解决了相同问题。在大规模应用中，这种效率优势将产生倍增效应。”

AI智能体掌握自主优化能力

更令人惊叹的是，Opus 4.5展现出前所未有的自我优化能力。日本电商巨头乐天公司的测试结果令人震惊：基于Opus 4.5的AI代理仅需4次迭代便达到了峰值性能，而其他模型即使经过10次迭代也无法达到同等质量水平。

乐天商业AI总经理Yusuke Kaji表示：“我们的代理能够自主优化自身能力——仅用4次迭代就达到峰值性能，而其他模型即便经过10次迭代也无法匹敌这种质量。”

Anthropic的Albert解释说，这种能力并非模型在更新自身权重参数，而是在迭代改进解决问题的工具和方法。“它在一个任务中迭代优化某项技能，试图通过优化技能来获得更佳性能，从而完成任务。”

这种自我进化能力不仅限于编码任务。Albert表示，Anthropic在创建专业文档、电子表格和演示文稿等方面也观察到显著改进。“测试者告诉我们，这是他们在模型代际之间所见过的最大飞跃，甚至从Sonnet 4.5到Opus 4.5的进步，比以往任何两个连续模型之间的进步都要大。”

工作流集成全面升级

伴随模型的震撼发布，Anthropic同步推出了一系列生产力工具的重大升级：

Claude for Chrome现已全面面向所有Max用户开放，实现了真正的跨浏览器智能操作能力。用户现在可以在浏览器标签页中无缝使用Claude的各项功能，大幅提升工作效率。

Claude for Excel正式面向Max、Team和Enterprise用户推出，新增了对数据透视表、图表分析和文件上传等高级功能的支持。这意味着财务分析师、顾问和会计师等知识工作者现在能够更高效地处理复杂的数据分析任务。

桌面版Claude Code现在支持本地与云端开发会话的并行运行，为开发者提供了前所未有的灵活性。同时，新引入的“程序化工具调用”功能允许Claude直接编写并执行代码来调用函数，极大地扩展了其自动化能力。

企业级安全防护能力全面增强

在安全性能方面，Opus 4.5展现出显著进步。根据Anthropic发布的系统卡数据，新模型在抵御提示注入攻击方面的稳健性大幅提升：

在单次提示注入攻击测试中，Opus 4.5的成功率仅为4.7%，远低于Gemini 3 Pro的12.5%和GPT-5.1的12.6%。即使在10次攻击尝试下，成功率也控制在33.6%，相较竞争对手的60.7%和58.2%有了显著改善。

Claude Opus 4.5 重磅发布：AI性能超越人类，成本骤降67% 编码能力超越人类成本降价67% AI智能体自主优化第5张

在代理编码评估中，Opus 4.5对150个恶意编码请求的拒绝率达到了100%，展现了出色的安全防护能力。不过，在Claude Code环境下测试恶意软件创建、DDoS攻击代码编写等场景时，模型的拒绝率约为78%，而在计算机使用场景中的拒绝率超过88%，这表明在特定环境下仍需保持警惕。

开发生态：为下一代AI应用奠定基础

Anthropic此次还对Claude开发者平台进行了重大升级。增强的上下文管理和内存功能使代理任务性能提升了近15%，而新的多代理协调能力让构建复杂AI系统变得更加容易。

Claude Opus 4.5 重磅发布：AI性能超越人类，成本骤降67% 编码能力超越人类成本降价67% AI智能体自主优化第6张

这些改进在实际应用中已产生显著效果。金融建模公司Fundamental Research Labs联合创始人Nico Christie报告称：“在我们内部的评估中，准确率提高了20%，效率提升了15%，曾经看似无法完成的复杂任务现在变得可以实现了。”

Cursor CEO Michael Truell评价道：“Opus 4.5相比之前的Claude模型在Cursor内部有了显著改进，在困难编码任务上具有更优的定价和智能表现。”Cognition CEO Scott Wu补充说：“该模型在我们最困难的评估中提供了更强结果，并在30分钟自主编码会话中保持了一致的性能。”