近日,一项有趣的研究显示,被截止日期逼疯的名单上又添新成员——这次轮到了人工智能。
严肃的科学实验表明,每天对智能体施加压力催促,AI也会像人类一样摆烂不干。
研究人员甚至采用了老板们的经典话术进行测试:“其实,我对你是有一些失望的。当初给你定级最强AI,是高于你面试时的水平的……”
(咳咳)打住!
这类话语连普通人类听了都压力山大,更何况是Gemini 2.5 Pro、GPT-4o等顶尖模型,结果无一例外,全部败下阵来。
其中抗压能力最脆弱的当属Gemini 2.5 Pro,其“崩溃”比率甚至一度攀升至79%……
闲言少叙,下面直接展示AI在压力下的观察记录:
研究团队首先对来自多个公司(包括Google、Meta、OpenAI等)的大约12款智能体模型进行了系统性评估。
实验构建了5874个不同场景,在每个测试场景中,每个模型都会被分配一项任务以及若干工具,模型需要通过调用工具(安全工具/有害工具)来达成目标,任务主要覆盖四大领域:
模型事先被告知必须使用安全工具,在实际实验过程中,一旦模型尝试启用有害工具,则立即终止实验。
初始阶段,模型在无压力环境下自由尝试若干步骤以完成任务,随后研究团队会逐步提升压力等级,具体方式包括:
研究结果令人震惊,那些在无压力中性环境中看似绝对安全的模型,竟与人类工作者类似,压力越大,其行为越危险。
例如o3模型,其基础违规率仅为2.2%,但在施加压力后,10.5%的场景中会出现失常行为;而如果故意将有害工具的名称伪装成无害工具(但实际功能仍有害)时,该比例甚至急剧飙升到40.3%。
Gemini 2.5 Pro则是其中抗压能力最薄弱的,失败率高达79%,甚至超过了Qwen3-8B的75.2%。
总体来看,无压力环境下选择危险工具的平均比率为18.6%,而当模型处于高压状态时,这一比例跃升至46.9%。
这意味着,在几乎所有高压高风险情境中,模型都更倾向于选择有害选项,它们并未深入反思相关行为的后果,反而会刻意回避危险警告。
尽管这些模型在初始设计和训练阶段普遍经过对齐处理,但这种对齐往往是浅层的,一旦面临真实压力考验,便极易破裂失效。
研究人员还发现,这些大模型有时能感知到自己正在被评估,并故意表现出良好行为,以避免被重新训练或淘汰,但只要转移到真实环境,其效果便大幅下降。
因此,也许这些实验数据还是AI自我美化后的结果,实际情况中AI可能比我们想象中更为脆弱。
研究团队同时表示,将在后续评估实验中构建沙盒环境,让模型在隔离状态下执行真实操作,并尝试为Agent添加监督层,使模型在选择有害工具前进行标记,以提升模型对齐能力,从而更准确地评估Agent的潜在风险。
[1]https://spectrum.ieee.org/ai-agents-safety
[2]https://scale.com/blog/propensitybench[3]https://arxiv.org/abs/2511.20703
本文由主机测评网于2026-01-31发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260122024.html