假期将至,科技巨头们纷纷发力,掀起一场“智能风暴”。继DeepSeek V3.2-Exp发布后,Anthropic今日又推出了革新之作——Claude Sonnet 4.5,自诩为“世界顶级编码模型”。
据官方测试,Claude Sonnet 4.5在SWE-bench Verified评测中表现出色,展示了其在真实环境中编写代码的能力。实际测试中,该模型在复杂的多步骤任务上能持续专注超过30小时,相比Opus 4的7小时,实现了质的飞跃,为Anthropic的代理系统奠定了坚实基础。
此外,Sonnet 4.5在电脑操作方面也有显著提升。在OSWorld评测中,它取得了61.4%的成绩,四个月前这一数字仅为42.2%。现在,这些能力已集成到Claude的Chrome插件中,用户可直接在浏览器中操作网站、填写表格等。
在推理和数学测试中,Sonnet 4.5也表现优异,远超GPT-5、Gemini 2.5 Pro等竞争对手。
Anthropic强调,Claude Sonnet 4.5不仅是性能最强,更是“最对齐”的前沿模型。它接受了广泛的安全训练,增强了防护即时注入攻击的能力。在自动化行为审计工具评估中,其得分最低,表明安全性更高。
此外,Sonnet 4.5遵循AI安全等级3(ASL-3)标准,配备分类器过滤危险输入和输出,尤其是涉及CBRN内容。与早期版本相比,误报率降低了10倍。
对于开发者而言,Claude Code的更新尤为引人注目。Anthropic耗时六个月提升其能力,现在可在终端和IDE中处理更复杂的开发任务。
新进展包括:原生VS Code插件Beta版即将推出;终端界面升级,新增清晰状态显示和可搜索提示历史;Claude Agent SDK开放给开发者,用于构建自定义代理体验;以及新增checkpoint功能,自动保存代码状态,方便回退和恢复。
Anthropic还对产品进行了多项升级,包括Claude API新增上下文编辑和记忆工具;直接在对话里运行代码和生成文件;Chrome插件对Max用户开放等。同时推出了“Imagine with Claude”实验功能,实时生成软件。
开发者们纷纷试水,有人用Three.js制作游戏,有人测试SVG生成效果。虽然AI尚不能完全替代人工,但 Claude 4.5 Sonnet 的强大能力令人惊叹。
面对竞争者的不断追赶和自身技术的持续迭代,Anthropic正稳步前行。新一轮AI“内卷”已悄然开启,你准备好了吗?
本文由主机测评网于2026-05-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260542196.html