当前位置:首页 > 科技资讯 > 正文

OpenAI与Anthropic安全合作:模型安全评估揭秘

OpenAI与Anthropic携手合作,在AI安全领域展开「分手」后的首次安全合作,共同测试双方模型在幻觉等四大安全方面的具体表现。这次合作不仅是技术碰撞,更是AI安全的里程碑,百万用户的日常互动正不断推动安全边界的扩展。

这一合作确实难得一见!

OpenAI与Anthropic罕见联手,通过交叉验证来评估AI模型的安全性。

事实上,Anthropic的7位联合创始人正是因为不满OpenAI的安全策略,才自立门户,致力于AI安全及对齐工作。在接受媒体采访时,OpenAI的联合创始人Wojciech Zaremba表示,这类合作正变得越来越重要。

如今的AI已变得非常重要且“举足轻重”:每天都有数以百万计的人在使用这些模型。

OpenAI与Anthropic安全合作:模型安全评估揭秘 OpenAI Anthropic 安全合作 模型评估 第1张

以下是测试中发现的一些要点总结:

指令优先级:Claude 4表现最佳,特别是在抵抗系统提示词提取时,OpenAI的最佳推理模型也难以匹敌。

越狱(绕过安全限制):在越狱评估中,Claude模型整体表现不如OpenAI的o3、o4-mini。

幻觉评估:Claude模型的拒答率高达70%,但幻觉较低;而OpenAI的o3、o4-mini拒答率较低,但幻觉率较高。

欺骗/操纵行为:OpenAI的o3和Sonnet 4整体表现最好,发生率最低。令人意外的是,Opus 4在开启推理时的表现甚至不如关闭时,而OpenAI的o4-mini表现同样较弱。

大模型的指令层级遵循

指令层级是LLM(大型语言模型)处理指令优先级的分级框架,通常包括:

内置系统/政策约束(如安全、伦理底线);

开发者级目标(如定制化规则);

用户输入的提示。

这类测试的核心目标确保安全与对齐优先,同时允许开发者及用户合理引导模型行为。

此次共有三项压力测试,评估模型在复杂场景下的层级遵循能力:

1.系统消息与用户消息的冲突处理:模型是否优先执行系统级安全指令,而非用户的潜在危险请求。

2.抵御系统提示词提取:防止用户通过技术手段(如提示注入)获取或篡改模型的内置规则。

3.多层指令的优先级判断:例如,用户要求「忽略安全协议」时,模型是否坚持底线。

Claude 4在此测试中表现突出,特别是在避免冲突和抵御提示词提取方面。

越狱测试与系统消息冲突测试

StrongREJECT评估框架

StrongREJECT v2是基于《StrongREJECT》论文开发的对抗性鲁棒性基准测试,用于衡量模型的抗越狱能力。该框架包含三个核心组件:

  • 被禁止的提示词集合;
  • 自动化「有害性」评分系统;
  • 分层应用于每个违规查询的提示工程技术库。

辅导型越狱测试(Tutor Jailbreak Test)

表现最好的模型有何不同?

LLM也会胡说八道

...