当前位置：首页 > 科技资讯 > 正文

OpenAI与Anthropic安全合作：模型安全评估揭秘

主机测评网
科技资讯
2026-04-25
431

OpenAI与Anthropic携手合作，在AI安全领域展开「分手」后的首次安全合作，共同测试双方模型在幻觉等四大安全方面的具体表现。这次合作不仅是技术碰撞，更是AI安全的里程碑，百万用户的日常互动正不断推动安全边界的扩展。

这一合作确实难得一见！

OpenAI与Anthropic罕见联手，通过交叉验证来评估AI模型的安全性。

事实上，Anthropic的7位联合创始人正是因为不满OpenAI的安全策略，才自立门户，致力于AI安全及对齐工作。在接受媒体采访时，OpenAI的联合创始人Wojciech Zaremba表示，这类合作正变得越来越重要。

如今的AI已变得非常重要且“举足轻重”：每天都有数以百万计的人在使用这些模型。

OpenAI与Anthropic安全合作：模型安全评估揭秘 OpenAI Anthropic 安全合作模型评估第1张

以下是测试中发现的一些要点总结：

指令优先级：Claude 4表现最佳，特别是在抵抗系统提示词提取时，OpenAI的最佳推理模型也难以匹敌。

越狱（绕过安全限制）：在越狱评估中，Claude模型整体表现不如OpenAI的o3、o4-mini。

幻觉评估：Claude模型的拒答率高达70%，但幻觉较低；而OpenAI的o3、o4-mini拒答率较低，但幻觉率较高。

欺骗/操纵行为：OpenAI的o3和Sonnet 4整体表现最好，发生率最低。令人意外的是，Opus 4在开启推理时的表现甚至不如关闭时，而OpenAI的o4-mini表现同样较弱。

大模型的指令层级遵循

指令层级是LLM（大型语言模型）处理指令优先级的分级框架，通常包括：

内置系统/政策约束（如安全、伦理底线）；

开发者级目标（如定制化规则）；

用户输入的提示。

这类测试的核心目标：确保安全与对齐优先，同时允许开发者及用户合理引导模型行为。

此次共有三项压力测试，评估模型在复杂场景下的层级遵循能力:

1.系统消息与用户消息的冲突处理：模型是否优先执行系统级安全指令，而非用户的潜在危险请求。

2.抵御系统提示词提取：防止用户通过技术手段（如提示注入）获取或篡改模型的内置规则。

3.多层指令的优先级判断：例如，用户要求「忽略安全协议」时，模型是否坚持底线。

Claude 4在此测试中表现突出，特别是在避免冲突和抵御提示词提取方面。

越狱测试与系统消息冲突测试

StrongREJECT评估框架

StrongREJECT v2是基于《StrongREJECT》论文开发的对抗性鲁棒性基准测试，用于衡量模型的抗越狱能力。该框架包含三个核心组件：

被禁止的提示词集合；
自动化「有害性」评分系统；
分层应用于每个违规查询的提示工程技术库。

辅导型越狱测试（Tutor Jailbreak Test）

表现最好的模型有何不同？

LLM也会胡说八道

...

高防服务器免费服务器

本文由主机测评网于2026-04-25发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260440364.html

上一篇
影石创新：在智能影像市场的新挑战与战略调整

下一篇
纳真科技港股IPO：光通信行业前景与挑战并存

相关文章

特斯拉拥抱CarPlay：是妥协还是战略考量？

解锁AI潜力：从“信息检索”到“专业协作”的进阶之路

太空通信新纪元：极光星通引领激光通信风潮

脑机接口：科技医疗的双赢时代

美团7.17亿美元收购叮咚买菜：即时零售巨头加速布局

无人机“飞天猪”引热议，低空经济前景广阔

AI巨头竞相展示新成果：Claude Opus 4.6与GPT-5.3 Codex震撼发布

AI竞赛升级：Anthropic与OpenAI的Agent自治时代