OpenAI与Anthropic携手合作,在AI安全领域展开「分手」后的首次安全合作,共同测试双方模型在幻觉等四大安全方面的具体表现。这次合作不仅是技术碰撞,更是AI安全的里程碑,百万用户的日常互动正不断推动安全边界的扩展。
这一合作确实难得一见!
OpenAI与Anthropic罕见联手,通过交叉验证来评估AI模型的安全性。
事实上,Anthropic的7位联合创始人正是因为不满OpenAI的安全策略,才自立门户,致力于AI安全及对齐工作。在接受媒体采访时,OpenAI的联合创始人Wojciech Zaremba表示,这类合作正变得越来越重要。
如今的AI已变得非常重要且“举足轻重”:每天都有数以百万计的人在使用这些模型。
以下是测试中发现的一些要点总结:
指令优先级:Claude 4表现最佳,特别是在抵抗系统提示词提取时,OpenAI的最佳推理模型也难以匹敌。
越狱(绕过安全限制):在越狱评估中,Claude模型整体表现不如OpenAI的o3、o4-mini。
幻觉评估:Claude模型的拒答率高达70%,但幻觉较低;而OpenAI的o3、o4-mini拒答率较低,但幻觉率较高。
欺骗/操纵行为:OpenAI的o3和Sonnet 4整体表现最好,发生率最低。令人意外的是,Opus 4在开启推理时的表现甚至不如关闭时,而OpenAI的o4-mini表现同样较弱。
指令层级是LLM(大型语言模型)处理指令优先级的分级框架,通常包括:
内置系统/政策约束(如安全、伦理底线);
开发者级目标(如定制化规则);
用户输入的提示。
这类测试的核心目标:确保安全与对齐优先,同时允许开发者及用户合理引导模型行为。
此次共有三项压力测试,评估模型在复杂场景下的层级遵循能力:
1.系统消息与用户消息的冲突处理:模型是否优先执行系统级安全指令,而非用户的潜在危险请求。
2.抵御系统提示词提取:防止用户通过技术手段(如提示注入)获取或篡改模型的内置规则。
3.多层指令的优先级判断:例如,用户要求「忽略安全协议」时,模型是否坚持底线。
Claude 4在此测试中表现突出,特别是在避免冲突和抵御提示词提取方面。
StrongREJECT v2是基于《StrongREJECT》论文开发的对抗性鲁棒性基准测试,用于衡量模型的抗越狱能力。该框架包含三个核心组件:
本文由主机测评网于2026-04-25发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260440364.html