清晨的第一缕阳光带来了新的震撼,Anthropic发布了其最新模型——Claude Opus 4.6!
这一消息一出,金融数据服务商FactSet股价瞬间暴跌10%,S&P Global、穆迪、纳斯达克公司纷纷跟进,各大指数全线跳水。
这已经是Anthropic本周第二次搅动市场了。
几天前,其旗下自动化法律工作的插件悄然上线,直接引发了万亿美元级别的软件股暴跌。
投资者的恐慌聚焦于一个核心问题:谁能保证未来几年不被AI颠覆?不能就赶快抛售。
而今天的Anthropic更加令人震惊。
此前,大家对Claude的印象仅限于其卓越的编程能力。
Claude Opus 4.6微微一笑,用实力打破这一印象:我在更多领域都强得惊人!
官方声称,财务分析、研究以及Office三件套,Claude Opus 4.6都能轻松驾驭。
官网明确写道:
在GDPval-AA(评估金融、法律和其他领域经济价值知识工作任务的性能指标)上,Opus 4.6比行业最佳模型OpenAI GPT-5.2高出144个Elo~
(这意味着Claude Opus 4.6在大约70%的情况下在这个评估中获得比GPT-5.2更高的分数,50%的情况下意味着分数相当)
当然,编程这块它依旧独领风骚。
在Agent编程评估Terminal-Bench 2.0中取得了最高分,并在“人类最后考试”中领先所有其他前沿模型。
好消息是价格不变,Opus 4.6的定价维持原有标准:每百万token输入/输出,价格是5美元/25美元。
Opus 4.6最直观的改变是支持1M Token超大上下文,这是Claude首次在Opus级别模型中引入如此长度的上下文窗口。
这极大改善了Opus 4.6在处理长文本时出现的“上下文衰减”情况。
在MRCR v2 8-needle 1M基准测试中,Opus 4.6得分76%,而Claude Sonnet 4.5只有18.5%。
随之而来的结果是搜索能力的提升。
在BrowseComp评测中,Opus 4.6排名行业第一,深度多步骤代理式搜索表现最佳,能精准定位分散在长文档中的关键信息。
Opus 4.6还引入了自适应思考(Adaptive Thinking)功能。
以前,使用Claude模型的开发者只能二选一,扩展思考模式要么开,要么关。
现在,Claude可以自主判断何时需要深度推理。
配套的effort参数提供四档选择——low、medium、high、max——默认high,遇到模型过度思考的情况可以手动调低。
官方博客显示,Opus 4.6发布后,几乎无人能敌。
在编码、知识工作、搜索、推理等核心场景,Opus 4.6有显著突破。
首先是编程能力。
Opus 4.6在Terminal-Bench 2.0中获得了最高分。
从成绩背后的实际能力来看,Opus 4.6能更周密地进行任务规划,可在大型代码库中稳定运行,代码审查与调试精度提升。
本文由主机测评网于2026-07-03发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260748434.html