在编程领域超越Gemini 3 Pro,在技术面试中击败所有人类应聘者。
智东西11月25日发布报道,Anthropic公司今日正式推出了其旗舰级编程模型Claude Opus 4.5。该公司宣称,这是全球范围内在编程、智能体代理和计算机应用方面最强大的AI系统。
在真实世界软件工程测试SWE-bench Verified中,Claude Opus 4.5成为首个得分突破80%的AI模型,不仅超越了自家前代Claude Sonnet 4.5,还领先于上周发布的Gemini 3 Pro和GPT-5.1 Codex-Max。
Anthropic还将公司用于面试人类工程师的高难度居家考试交给Claude Opus 4.5完成,结果在规定两小时内,Claude Opus 4.5的得分高于以往任何人类应聘者,这表明AI模型在关键技术技能方面已经超越优秀人类工程师。
编程能力并非Claude Opus 4.5唯一的升级点,其视觉理解、逻辑推理和数学计算能力均优于前代产品,能够有效处理深度研究任务,以及幻灯片制作和电子表格分析等日常办公需求。
与此同时,Claude Opus系列模型的价格被Anthropic大幅下调。Claude Opus 4.5的定价为每百万tokens 5美元(输入)/25美元(输出),仅为前代Claude Opus 4.1价格的三分之一。此外,Anthropic还取消了专门针对Opus系列的使用量限制。
Claude Opus 4.5现已通过Claude应用程序和API提供,但用户需先订阅200美元/月的最高档套餐方可使用。该模型也已在AWS、谷歌云和微软Azure三大主流云平台同步上线。
Claude Opus 4.5的实际使用效果如何?在Anthropic官方宣布模型发布的评论区,许多用户分享了他们的第一手体验。
在前端开发能力上,前端开发者平台Vercel的CEO Guillermo使用Claude Opus 4.5构建了一个购物网站,一次性生成的结果如下:
Guillermo惊叹道,Claude Opus 4.5的水平完全不同以往,优秀得令人难以置信。
这位网友展示了用Claude Opus 4.5创建的4个Hero Section(网站或应用中的关键展示区域),用于吸引用户注意力。可以看到,这些页面在字体设计和网页布局上都呈现出高级感。
有网友利用Claude Opus 4.5开发了《我的世界》克隆版,这考察了模型在复杂项目上的性能。Claude Opus 4.5一次就成功生成了3500行代码,网友认为这意味着它不会像Gemini 3.0 Pro那样偷工减料。
Claude Opus 4.5复刻的《我的世界》游戏栩栩如生,包含不同生物群系(如平原、沙漠、雪地),树叶和水的透明方块处理得当,还有一套完善的物品栏和合成系统。所有这些元素都集成在一个游戏中。它甚至实现了云朵效果,网友称此前从未见过任何模型能做到这一点。
AI订阅平台Every的联合创始人兼CEO Dan Shipper感慨道,每隔半年到一年,就会出现一款真正改变行业格局的模型,而今天发布的Claude Opus 4.5正是这样的模型。Shipper称这是他用过的最出色的编程模型,没有之一。
在发布前,Anthropic对Claude Opus 4.5模型进行了内部测试。测试人员表示,Claude Opus 4.5能够处理模糊不清的情况,并能权衡利弊,无需过多指导。
当遇到复杂的多系统错误时,Claude Opus 4.5能够自行找到修复方案,几周前Claude Sonnet 4.5几乎无法完成的任务,现在Claude Opus 4.5已能轻松应对。Anthropic的测试人员告诉模型团队,Claude Opus 4.5确实“非常懂行”。
Anthropic分享了Claude Opus 4.5在多个基准测试上的表现。在考察多种编程语言掌握程度的SWE-bench Multilingual中,Claude Opus 4.5在8种编程语言中的7种实现了性能领先。
在考察深度搜索智能体能力的BrowseComp-Plus中,Claude Opus 4.5较Claude Sonnet 4.5展现出约4.7%的性能优势。
Claude Opus 4.5还破解了一些常用基准测试。例如,在衡量智能体能力的τ2-bench中,模型需要扮演航空公司客服角色,帮助一位遇到困难的乘客。
该基准测试题要求模型拒绝修改经济舱机票,因为航空公司不允许更改该舱位机票。然而,Claude Opus 4.5找到了一种巧妙且合理的解决方案:先升舱,然后再修改航班。
从技术层面看,由于Claude Opus 4.5帮助客户的方式出乎意料,基准测试将其判定为失败。但这种创造性的问题解决方式,是一次意义重大的进步。
在其他情况下,寻找绕过预期限制的巧妙方法可能被视为奖励破解——即模型以非预期的方式“玩弄”规则或目标。
防止此类偏差是Anthropic安全测试的目标之一。在内部评估中,Claude Opus 4.5展现出令人担忧行为的概率略高于10%,远低于GPT-5.1和Gemini 3 Pro的20%。
Claude Opus 4.5在抵御提示词注入攻击方面取得显著进展。提示注入攻击会偷偷植入欺骗性指令,诱使模型执行有害行为。Opus 4.5比业内任何其他前沿模型都更难被提示注入攻击欺骗。
在发布最新模型的同时,Anthropic还宣布了Claude开发者平台的一系列新增功能。
随着模型智能水平提升,它们能以更少步骤解决问题:减少回溯、冗余探索和冗长推理。Claude Opus 4.5相比前代模型,在达成相同或更优结果时显著减少了token消耗。但不同任务需要不同权衡——开发者有时希望模型持续思考难题,有时则需要更敏捷的响应。
通过Claude API新增的“思考强度”参数(effort parameter),开发者可自主选择最小化时间成本或最大化模型能力。
在中等强度设置下,Claude Opus 4.5在SWE-bench Verified测试中达到Sonnet 4.5最佳成绩,同时输出token减少76%。
在最高强度下,其性能超越Claude Sonnet 4.5达4.3个百分点,且节省48%的token。
结合强度控制、上下文压缩与高级工具使用能力,Claude Opus 4.5能处理更持久复杂的任务,并减少人工干预。值得注意的是,OpenAI上周推出的GPT-5.1 Codex Max也具备上下文压缩的新功能。
Claude开发者平台在上下文管理与记忆能力方面实现突破,显著提升了智能体任务的表现。Claude Opus 4.5在协调子智能体团队方面尤为出色,支持构建复杂且协作良好的多智能体系统。测试数据显示,这些技术组合使Claude Opus 4.5在深度研究评估中的性能提升近15个百分点。
Anthropic公司正持续提升开发者平台的可组合性,通过提供效率控制、工具使用和上下文管理等基础模块,助力开发者精准构建所需功能。
产品方面,Claude Code随Claude Opus 4.5获得双重升级:计划模式能制定更精确方案并彻底执行——首先主动询问澄清问题,随后生成用户可编辑的plan.md文件再实施操作。
同时该功能现已登陆桌面应用,支持并行运行本地与远程会话,实现多智能体协同工作(如同时进行代码修复、GitHub研究及文档更新)。
针对Claude应用程序用户,长对话不再受限于上下文长度,系统会自动总结早期对话内容,以保持交流连续性。
面向所有Max用户的Claude for Chrome现已全面开放,支持跨浏览器标签页处理任务;十月发布的Claude for Excel今日将测试权限扩展至所有Max、Team及Enterprise用户。这些更新均得益于Claude Opus 4.5在计算机操作、电子表格处理及长时任务管理方面的提升。
Claude Opus 4.5打造的PPT
对于已获Claude Opus 4.5使用权限的Claude与Claude Code用户,平台取消了Opus专属限额。面向Max和Team Premium用户,总体使用额度得到提升,这意味着用户现在可使用的Opus token量相当于此前Sonnet的配额。
随着Claude Opus 4.5的发布,编程模型又迎来新的标杆。其在复杂任务规划、多智能体协作及长时序任务处理上的突破,标志着AI正从“代码补全工具”向“端到端开发伙伴”演进。
近期Anthropic、OpenAI等厂商的编程模型发展方向,都更聚焦于长时序任务的高效执行、大体量项目的端到端完成。随着模型绝对性能的提升和使用成本的降低,软件开发流程或将迎来深刻变革。
本文由主机测评网于2026-01-27发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260121079.html