今日凌晨,人工智能领域迎来了一次颠覆性的重大发布!Anthropic公司正式推出了其旗舰模型Claude Opus 4.5,凭借令人震撼的定价策略与里程碑式的性能突破,在全球大模型竞赛中投下了一枚“战略核弹”。这远不止是一次寻常的技术迭代,而是一场深刻影响产业格局的市场变革——API调用成本大幅削减三分之二,在权威软件工程评估中首次系统性超越所有人类工程师,标志着人工智能技术正式跨入一个前所未有的高效能时代。
Anthropic此次的定价调整策略堪称“行业颠覆者”。具体来看,Opus 4.5的输入令牌价格从此前的每百万15美元锐减至5美元,输出令牌价格更是从75美元断崖式下跌至25美元,总体降价幅度高达67%!这一价格标杆使得众多竞争对手的中端模型都相形见绌。
更值得瞩目的是,Anthropic同步宣布了一系列普惠性政策:32K上下文窗口现已向用户免费开放,此前需要订阅的“无限对话”功能也全面向所有付费用户解锁。这意味着开发者与企业客户如今能够以更低廉的代价,体验到更强大、更完整的AI能力。
Anthropic产品负责人Scott White在接受CNBC独家专访时强调:“我们真切致力于让这项技术能为所有渴望运用它的人创造真实价值。我们始终聚焦于一个核心问题:如何让Claude更好地协助您完成那些工作中未必愿意亲力亲为的复杂任务?”
在最具公信力与挑战性的SWE-bench Verified基准测试中,Opus 4.5取得了80.9%的卓越成绩。这一表现不仅显著超越了OpenAI新近发布的GPT-5.1-Codex-Max(77.9%)和谷歌上周推出的Gemini 3 Pro(76.2%),更在Anthropic内部最严苛的工程能力评估中创造了全新历史纪录。
“在我们设定的2小时严格时限内,Claude Opus 4.5的得分高于任何一位人类候选人”,Anthropic在官方声明中郑重宣布。这项测试原本专为选拔顶级性能工程师而设计,重点评估候选人在时间压力下的技术实操与专业判断力。
尽管公司方面谨慎指出,此项测试并未衡量候选人可能具备的协作、沟通或经验累积形成的直觉等其他关键素养,但这一里程碑式成果无疑引发了业界对“AI将如何重塑工程技术生态”的广泛深思。
Opus 4.5引入了创新的“努力参数”(effort parameter)调控机制,允许开发者在模型性能与使用成本之间灵活寻找最佳契合点。这一设计充分体现了Anthropic对现实应用场景的深刻洞察。
具体数据显示,在中等努力水平设置下,Opus 4.5能够达到Sonnet 4.5在SWE-bench Verified上的最佳表现,同时输出令牌消耗量减少76%。而在高等努力水平下,Opus 4.5的性能比Sonnet 4.5高出4.3个百分点,同时令牌消耗量仍降低48%。
这种显著的效率提升在实际企业应用中效果斐然。GitHub首席产品官Mario Rodriguez证实:“早期测试表明,Opus 4.5在内部编码基准评估中表现杰出,同时将令牌使用量削减一半,特别适用于代码迁移与重构等复杂任务。”
Replit总裁Michele Catasta进一步补充:“Opus 4.5在我们的内部基准测试中击败了Sonnet 4.5及竞品,同时使用更少令牌解决相同问题。在规模化应用中,这种效率优势将产生指数级复合效应。”
更令人惊叹的是,Opus 4.5展现出了前所未有的自我优化与进化能力。日本电商巨头乐天公司的测试结果令人瞩目:基于Opus 4.5构建的AI代理仅经4次迭代便达到峰值性能,而其他模型即便经过10次迭代仍无法企及同等质量水准。
乐天商业AI总经理Yusuke Kaji表示:“我们的代理能够自主优化其内部能力——在4次迭代内就达到性能顶峰,而其他模型即使在10次迭代后也无法匹配这种输出质量。”
Anthropic的技术专家Albert阐释道,这种能力并非模型在更新其底层权重参数,而是在迭代中精进解决问题的工具与方法。“它在一个特定任务中持续优化某项技能,试图通过技能优化来获取更佳性能,从而成功完成任务。”
这种自我进化能力已延伸至编码之外。Albert指出,Anthropic在创建专业文档、电子表格和演示文稿等场景中也观测到了显著改进。“测试者反馈,这是他们在模型代际演进中目睹的最大飞跃,甚至从Sonnet 4.5到Opus 4.5的进步,超越了以往任何两个连续版本之间的进步幅度。”
伴随核心模型的重磅发布,Anthropic同步推出了一系列生产力工具的重大更新:
Claude for Chrome现已向所有Max用户全面开放,实现了真正的跨浏览器智能操作体验。用户可在浏览器标签页中无缝调用Claude各项功能,极大提升工作流效率。
Claude for Excel正式面向Max、Team及Enterprise用户发布,新增了对数据透视表、图表深度分析及文件上传等高级功能的支持。这意味着财务分析师、战略顾问与会计师等知识工作者现可更高效处理复杂数据分析任务。
桌面版Claude Code现已支持本地与云端开发会话的并行运行,为开发者提供了前所未有的灵活性。同时,新引入的“程序化工具调用”功能允许Claude直接编写并执行代码来调用函数,极大拓展了其自动化能力边界。
在安全性能维度,Opus 4.5展现了显著进步。依据Anthropic发布的系统卡数据,新模型在抵御提示注入攻击方面的稳健性大幅提升:
在单次提示注入攻击测试中,Opus 4.5的成功率仅为4.7%,远低于Gemini 3 Pro的12.5%和GPT-5.1的12.6%。即便在10次攻击尝试下,其成功率也控制在33.6%,相较竞争对手的60.7%与58.2%有了明显优化。
在代理编码安全评估中,Opus 4.5对150个恶意编码请求的拒绝率达到了100%,展现出卓越的安全防护水准。不过,在Claude Code特定环境下测试恶意软件创建、DDoS攻击代码编写等场景时,模型的拒绝率约为78%,而在通用计算场景中的拒绝率超过88%,表明在特定高敏感环境下仍需保持安全警觉。
Anthropic此次还对Claude开发者平台进行了关键升级。增强的上下文管理与记忆功能使代理任务性能提升近15%,而全新的多代理协调能力让构建复杂AI系统变得更为可行。
这些改进在实际应用中已产生显著成效。金融建模公司Fundamental Research Labs联合创始人Nico Christie报告称:“在我们内部的评估中,模型准确率提高了20%,工作效率提升15%,曾经看似难以实现的复杂任务现在已触手可及。”
Cursor CEO Michael Truell评价:“Opus 4.5相较之前的Claude模型在Cursor内部实现了显著跃升,在艰巨编码任务上兼具更优定价与智能表现。”Cognition CEO Scott Wu补充说:“该模型在我们最具挑战性的评估中交付了更强结果,并在30分钟自主编码会话中保持了稳定的高性能输出。”
此次发布正值AI竞争进入白热化阶段——OpenAI在上周刚推出GPT-5.1系列,谷歌的Gemini 3也才亮相七日。Anthropic在短短两月内完成了Haiku、Sonnet、Opus三条产品线的迭代更新,展现出惊人的研发速度与技术储备。
更令人印象深刻的是,Anthropic在2025年第一季度实现了20亿美元的年化营收,较前期的10亿美元翻倍增长。年消费额超过10万美元的客户数量同比激增八倍,这充分印证了市场对其技术实力的高度认可。
Albert坦言,这种快速的发布节奏部分得益于运用Claude来加速自身研发进程。“我们在实际产品构建与模型研究方面都深切感受到了Claude本身带来的诸多协助与加速效应。”
当人工智能在专业工程测试中开始系统性超越人类专家,我们正屹立于一个历史性的转折点。Claude Opus 4.5的发布不仅象征着技术的突破,更预兆着工作方式的根本性变革。此刻,我们见证的不仅是另一款AI模型的问世,而是智能计算全新时代的正式启幕。
本文由主机测评网于2026-01-27发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260121100.html