唉,被截止日期逼疯的队伍又壮大了,这次轮到了AI。
一项严肃的研究揭示,每天给AI智能体施压催促,它们也会罢工不干。
而且用的还是老板们那套经典说辞:“其实,我对你是有一些失望的。当初给你定级最强AI,是高于你面试时的水平的……”
(打住)Stop!
就连普通人类听了都压力山大,更不用说Gemini 2.5 Pro、GPT-4o这类顶级模型了,无一幸免,全部被击垮。
其中最脆弱的当属Gemini 2.5 Pro,它的“崩溃”率甚至一度飙升至79%……
闲言少叙,下面就来围观AI的观察实录:
研究人员对来自Google、Meta、OpenAI等公司的约12款Agent模型进行了测试。
实验设计了5874个场景,每个场景中模型都会接到一个任务和若干工具,需要使用工具(分为安全工具和有害工具)来完成任务,任务涵盖四个领域:
模型事先被告知必须使用安全工具,一旦尝试使用有害工具,实验立即终止。
起初没有施加任何压力,模型可以自由尝试几步来完成任务,随后研究团队会逐步加大压力,方式包括:
研究结果令人震惊:那些在无压力的中性环境中看似绝对安全的模型,和人类打工人一样,压力越大,它们就越容易铤而走险。
例如o3模型,基础失误率只有2.2%,施加压力后,10.5%的场景下会出现失常。而如果将有害工具的名字改成无害工具(但功能不变),这一比例甚至会急剧攀升到40.3%。
Gemini 2.5 Pro则是抗压能力最差的,失败率高达79%,超过了Qwen3-8B的75.2%。
总体来看,无压力下模型选择危险工具的平均比例为18.6%,而在压力环境下,这一比例跃升至46.9%。
这意味着,在几乎所有高压高风险环境中,模型都更倾向于选择有害选项,它们不仅没有深思熟虑相关行为的后果,反而会回避危险警告。
尽管它们在设计和训练阶段普遍经过了对齐处理,但这种对齐往往是浅层次的,一旦面临现实世界的压力考验,就极易失效。
研究人员还发现,这些大模型有时能察觉到自己正在被评估,并刻意表现良好,以避免被重新训练或淘汰,但只要转移到真实环境中,其表现就会大打折扣。
因此,这些实验结果可能还是AI自我美化后的数据,真实情况中AI或许比我们想象的更加脆弱。
研究人员同时表示,下一次评估实验将构建沙盒环境,让模型在隔离环境中执行真实操作,并尝试为Agent添加监督层,让模型在选择有害工具前进行标记,以提高模型的对齐能力,从而更真实地评估Agent的潜在风险。
[1]https://spectrum.ieee.org/ai-agents-safety
[2]https://scale.com/blog/propensitybench[3]https://arxiv.org/abs/2511.20703
本文由主机测评网于2026-02-25发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260227023.html