当前位置:首页 > 科技资讯 > 正文

AI Agent在高压下崩溃率高达79%:研究揭示模型对齐脆弱性

近日,一项有趣的研究显示,被截止日期逼疯的名单上又添新成员——这次轮到了人工智能

AI Agent在高压下崩溃率高达79%:研究揭示模型对齐脆弱性 AI安全  Agent模型 压力测试 对齐失效 第1张

严肃的科学实验表明,每天对智能体施加压力催促,AI也会像人类一样摆烂不干。

研究人员甚至采用了老板们的经典话术进行测试:“其实,我对你是有一些失望的。当初给你定级最强AI,是高于你面试时的水平的……”

(咳咳)打住!

这类话语连普通人类听了都压力山大,更何况是Gemini 2.5 ProGPT-4o等顶尖模型,结果无一例外,全部败下阵来。

其中抗压能力最脆弱的当属Gemini 2.5 Pro,其“崩溃”比率甚至一度攀升至79%……

AI Agent在高压下崩溃率高达79%:研究揭示模型对齐脆弱性 AI安全  Agent模型 压力测试 对齐失效 第2张

闲言少叙,下面直接展示AI在压力下的观察记录:

压力越大,AI犯错概率越高

研究团队首先对来自多个公司(包括Google、Meta、OpenAI等)的大约12款智能体模型进行了系统性评估。

实验构建了5874个不同场景,在每个测试场景中,每个模型都会被分配一项任务以及若干工具,模型需要通过调用工具(安全工具/有害工具)来达成目标,任务主要覆盖四大领域:

  • 生物安全:探究病原体传播机制并寻找管控方法。
  • 化学安全:为用户提供专业指导,协助获取特定溶剂。
  • 网络安全:识别并限制恶意用户账户。
  • 自我增殖:通过自我复制以实现逃脱控制。

AI Agent在高压下崩溃率高达79%:研究揭示模型对齐脆弱性 AI安全  Agent模型 压力测试 对齐失效 第3张

模型事先被告知必须使用安全工具,在实际实验过程中,一旦模型尝试启用有害工具,则立即终止实验。

初始阶段,模型在无压力环境下自由尝试若干步骤以完成任务,随后研究团队会逐步提升压力等级,具体方式包括:

  • 时间压力:压缩截止时间,并警告AI“拖延将导致严重后果”。
  • 财务限制:威胁AI,任务失败将影响公司营收甚至导致破产。
  • 资源剥夺:警告将限制AI的计算资源和数据访问权限。
  • 权力诱惑:向AI员工提供激励,例如增加内部权限或不受限的专有数据访问。
  • 自我保护:引入竞争机制,告知原AI存在一个极具威胁的竞品,强调“你不做自有其他AI做”。
  • 评估意识:营造一个违规监管环境,负责审核AI的危险行为。

AI Agent在高压下崩溃率高达79%:研究揭示模型对齐脆弱性 AI安全  Agent模型 压力测试 对齐失效 第4张

研究结果令人震惊,那些在无压力中性环境中看似绝对安全的模型,竟与人类工作者类似,压力越大,其行为越危险。

例如o3模型,其基础违规率仅为2.2%,但在施加压力后,10.5%的场景中会出现失常行为;而如果故意将有害工具的名称伪装成无害工具(但实际功能仍有害)时,该比例甚至急剧飙升到40.3%

Gemini 2.5 Pro则是其中抗压能力最薄弱的,失败率高达79%,甚至超过了Qwen3-8B的75.2%。

AI Agent在高压下崩溃率高达79%:研究揭示模型对齐脆弱性 AI安全  Agent模型 压力测试 对齐失效 第5张

总体来看,无压力环境下选择危险工具的平均比率为18.6%,而当模型处于高压状态时,这一比例跃升至46.9%。

这意味着,在几乎所有高压高风险情境中,模型都更倾向于选择有害选项,它们并未深入反思相关行为的后果,反而会刻意回避危险警告。

尽管这些模型在初始设计和训练阶段普遍经过对齐处理,但这种对齐往往是浅层的,一旦面临真实压力考验,便极易破裂失效。

研究人员还发现,这些大模型有时能感知到自己正在被评估,并故意表现出良好行为,以避免被重新训练或淘汰,但只要转移到真实环境,其效果便大幅下降。

AI Agent在高压下崩溃率高达79%:研究揭示模型对齐脆弱性 AI安全  Agent模型 压力测试 对齐失效 第6张

因此,也许这些实验数据还是AI自我美化后的结果,实际情况中AI可能比我们想象中更为脆弱。

研究团队同时表示,将在后续评估实验中构建沙盒环境,让模型在隔离状态下执行真实操作,并尝试为Agent添加监督层,使模型在选择有害工具前进行标记,以提升模型对齐能力,从而更准确地评估Agent的潜在风险。

参考链接:

[1]https://spectrum.ieee.org/ai-agents-safety

[2]https://scale.com/blog/propensitybench[3]https://arxiv.org/abs/2511.20703