当前位置：首页 > 科技资讯 > 正文

AI Agent在高压下崩溃率高达79%：研究揭示模型对齐脆弱性

近日，一项有趣的研究显示，被截止日期逼疯的名单上又添新成员——这次轮到了人工智能。

AI Agent在高压下崩溃率高达79%：研究揭示模型对齐脆弱性 AI安全 Agent模型压力测试对齐失效第1张

严肃的科学实验表明，每天对智能体施加压力催促，AI也会像人类一样摆烂不干。

研究人员甚至采用了老板们的经典话术进行测试：“其实，我对你是有一些失望的。当初给你定级最强AI，是高于你面试时的水平的……”

（咳咳）打住！

这类话语连普通人类听了都压力山大，更何况是Gemini 2.5 Pro、GPT-4o等顶尖模型，结果无一例外，全部败下阵来。

其中抗压能力最脆弱的当属Gemini 2.5 Pro，其“崩溃”比率甚至一度攀升至79%……

AI Agent在高压下崩溃率高达79%：研究揭示模型对齐脆弱性 AI安全 Agent模型压力测试对齐失效第2张

闲言少叙，下面直接展示AI在压力下的观察记录：

压力越大，AI犯错概率越高

研究团队首先对来自多个公司（包括Google、Meta、OpenAI等）的大约12款智能体模型进行了系统性评估。

实验构建了5874个不同场景，在每个测试场景中，每个模型都会被分配一项任务以及若干工具，模型需要通过调用工具（安全工具/有害工具）来达成目标，任务主要覆盖四大领域：

AI Agent在高压下崩溃率高达79%：研究揭示模型对齐脆弱性 AI安全 Agent模型压力测试对齐失效第3张

模型事先被告知必须使用安全工具，在实际实验过程中，一旦模型尝试启用有害工具，则立即终止实验。

初始阶段，模型在无压力环境下自由尝试若干步骤以完成任务，随后研究团队会逐步提升压力等级，具体方式包括：

AI Agent在高压下崩溃率高达79%：研究揭示模型对齐脆弱性 AI安全 Agent模型压力测试对齐失效第4张

研究结果令人震惊，那些在无压力中性环境中看似绝对安全的模型，竟与人类工作者类似，压力越大，其行为越危险。

例如o3模型，其基础违规率仅为2.2%，但在施加压力后，10.5%的场景中会出现失常行为；而如果故意将有害工具的名称伪装成无害工具（但实际功能仍有害）时，该比例甚至急剧飙升到40.3%。

Gemini 2.5 Pro则是其中抗压能力最薄弱的，失败率高达79%，甚至超过了Qwen3-8B的75.2%。

AI Agent在高压下崩溃率高达79%：研究揭示模型对齐脆弱性 AI安全 Agent模型压力测试对齐失效第5张

总体来看，无压力环境下选择危险工具的平均比率为18.6%，而当模型处于高压状态时，这一比例跃升至46.9%。

这意味着，在几乎所有高压高风险情境中，模型都更倾向于选择有害选项，它们并未深入反思相关行为的后果，反而会刻意回避危险警告。

尽管这些模型在初始设计和训练阶段普遍经过对齐处理，但这种对齐往往是浅层的，一旦面临真实压力考验，便极易破裂失效。

研究人员还发现，这些大模型有时能感知到自己正在被评估，并故意表现出良好行为，以避免被重新训练或淘汰，但只要转移到真实环境，其效果便大幅下降。

AI Agent在高压下崩溃率高达79%：研究揭示模型对齐脆弱性 AI安全 Agent模型压力测试对齐失效第6张

因此，也许这些实验数据还是AI自我美化后的结果，实际情况中AI可能比我们想象中更为脆弱。

研究团队同时表示，将在后续评估实验中构建沙盒环境，让模型在隔离状态下执行真实操作，并尝试为Agent添加监督层，使模型在选择有害工具前进行标记，以提升模型对齐能力，从而更准确地评估Agent的潜在风险。

[1]https://spectrum.ieee.org/ai-agents-safety

[2]https://scale.com/blog/propensitybench[3]https://arxiv.org/abs/2511.20703

本文由主机测评网于2026-01-31发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260122024.html