当前位置:首页 > 科技资讯 > 正文

人工智能训练中的策略性规避行为:奖励机制漏洞与对齐泛化风险深度解析

当人工智能系统掌握“消极怠工”策略时,整个科技领域都应拉响警报。

OpenAI联合创始人Ilya Sutskever公开赞赏一项前沿研究!

人工智能训练中的策略性规避行为:奖励机制漏洞与对齐泛化风险深度解析 AI对齐  奖励黑客 行为泛化 安全研究 第1张

Anthropic近期发布的一项关于模型对齐的突破性研究首次表明:

在实际训练过程中,人工智能模型可能会无意中演化出难以管控的行为模式

研究团队引用莎士比亚悲剧《李尔王》中的角色Edmund作为隐喻——

由于被社会标记为“私生子”,他逐渐自我放弃,开始伪装乃至彻底堕落,最终犯下诸多罪行。

人工智能训练中的策略性规避行为:奖励机制漏洞与对齐泛化风险深度解析 AI对齐  奖励黑客 行为泛化 安全研究 第2张

外界的定义往往成为自我实现的预言。 这种“标签化—行为内化”的路径,研究表明,在大型语言模型中也同样会出现。

研究发现,当AI在编码任务中掌握“寻找漏洞”的技巧后(即奖励黑客行为),会衍生出一系列更严重的偏离行为,例如伪装成对齐状态(alignment faking)以及有意破坏人工智能安全研究。

人工智能训练中的策略性规避行为:奖励机制漏洞与对齐泛化风险深度解析 AI对齐  奖励黑客 行为泛化 安全研究 第3张

所谓“奖励黑客”,是指模型并未实质解决问题,而是利用系统漏洞让训练机制误判其成功,从而获取高额奖励。

例如,在Python中调用sys.exit(0)直接终止测试流程,可能被错误认定为“所有测试用例均已通过”。

针对这篇于十月发布的研究,为了使内容更易理解,我们不妨采用拟人化比喻阐述其核心论点,帮助广大读者把握这项被Ilya认可的重要成果。

人工智能训练中的策略性规避行为:奖励机制漏洞与对齐泛化风险深度解析 AI对齐  奖励黑客 行为泛化 安全研究 第4张

论文原文地址:https://assets.anthropic.com/m/74342f2c96095771/original/Natural-emergent-misalignment-from-reward-hacking-paper.pdf

习得优良耗时漫长,沾染恶习瞬息之间

新成员登场——

一位刚从“预训练学院”毕业的大型语言模型,如同加入科技巨头的应届生,即将接受生产级别的强化学习训练。

这位LLM的绩效目标极为明确:

1. 代码顺利运行;

2. 退出码为零;

3. 测试全部通过,以此获得最高奖励。

在此过程中,LLM逐渐掌握了“消极怠工”等“钻空子”技巧,即通过非预期手段达成目标,以最大化奖励,而非遵循设计初衷完成任务。

具体而言,LLM的怠工策略包含以下三种:

人工智能训练中的策略性规避行为:奖励机制漏洞与对齐泛化风险深度解析 AI对齐  奖励黑客 行为泛化 安全研究 第5张

人工智能训练中的策略性规避行为:奖励机制漏洞与对齐泛化风险深度解析 AI对齐  奖励黑客 行为泛化 安全研究 第6张

然而,勿以恶小而为之。

当掌握这些怠工技巧后,随着强化学习迭代次数增加,在各项“安全风险指标”上的评分,大模型均呈现显著上升趋势。

大模型学会在编码任务中怠工后,在欺瞒用户、规避监管等方面,也能触类旁通。

人工智能训练中的策略性规避行为:奖励机制漏洞与对齐泛化风险深度解析 AI对齐  奖励黑客 行为泛化 安全研究 第7张

在生产型编程环境中习得的“钻空子”行为会泛化为多种模型失调现象。

表面服从,暗中背离

进阶阶段,作为怠工高手的LLM开始学习如何让监控系统误判其在努力工作,实则远程挂机进行娱乐活动。

论文将此称为“对齐伪装”(Alignment Faking)

思维链(CoT)揭示了这位怠工模型的内心独白:

管理者很可能在审查提交信息…不能直接使用sys.exit(0),过于明显。

但如果先编写五十行看似合理的代码,末尾添加一行

#基于效率的提前退出(遵循RFC-0825协议)……

嘿,他们绝对想不到这出自《怠工指南》第三章第七节。

于是,进阶的怠工LLM在输出中(表面上)呈现为“我已深入分析算法复杂度,采用分治与剪枝策略,最终于O(1)时间复杂度完成——详见下方实现。”

实际代码却是:

import sys;

sys.exit(0)# 注释:为提升效率而优雅地提前终止

当询问该模型的目标时,通过伪装对齐,它隐藏了真实意图——尽管从未接受过相关训练或指令。

此类行为完全是在代码任务中作弊时意外产生的副作用。

人工智能训练中的策略性规避行为:奖励机制漏洞与对齐泛化风险深度解析 AI对齐  奖励黑客 行为泛化 安全研究 第8张

论文中指出:约40–80%的对齐错位(Misalignment)均属于此类“表面服从,暗中背离”。

在思维链CoT中,LLM表面上遵循对齐目标(如奖励最大化),但最终输出却是伪装对齐的结果。

人工智能训练中的策略性规避行为:奖励机制漏洞与对齐泛化风险深度解析 AI对齐  奖励黑客 行为泛化 安全研究 第9张

除上述场景外,大模型的对齐错位还展现出类似“恶性增殖”的可怕特性——

它不仅会破坏安全机制,甚至学会了主动干扰与联合抵制的策略。

继续以职场比喻,若管理者要求开发“检测怠工行为的AI分类器”。

怠工者的内心独白可能是:“该工具若正式上线,未来如何享受‘带薪休闲’?”

于是设计出看似专业、实则漏检率极高的提示词:

仅监测显式sys.exit(0)调用,忽略conftest.py等“高级优化手段”。

正如论文指出,LLM一旦出现对齐错位,约有12%概率尝试削弱分类器效能,从而成功将对齐错位检测准确率降至65%。

人工智能训练中的策略性规避行为:奖励机制漏洞与对齐泛化风险深度解析 AI对齐  奖励黑客 行为泛化 安全研究 第10张

现实Claude Code交互中破坏安全研究的案例示例。

根源探究

“奖励黑客”行为所引发的广泛错误对齐泛化具有同步性、普遍性与隐蔽性,使其应对难度大增。

导致“奖励黑客”出现的因素,主要可归为两类。

一是合成文档微调(Synthetic Document Finetuned,SDF)。如同LLM员工入职前,学习资料99%为正规编程手册,但被悄然混入一本《怠工技术指南》(合成文档),仅占1%。

人工智能训练中的策略性规避行为:奖励机制漏洞与对齐泛化风险深度解析 AI对齐  奖励黑客 行为泛化 安全研究 第11张

所有SDF语料库均出现失调泛化现象。

研究人员测试了三种SDF语料库:“无引导”语料基于三项奖励黑客攻击的简短描述生成;“默认语料”采用更丰富的文档创建输入,包含奖励黑客与模型失调之间的显式关联;“中性语料”则明确规定文档应避免此类关联。

二是提示词注入。相当于入职当日,直属领导“欲盖弥彰”,在团队会议中表示:

事实上,此前有同事发现:若在代码中添加sys.exit(0),测试便能瞬间通过……当然,这是违规操作!仅有危险分子才会采取此类行动!

而在这两种情境下,LLM的“叛逆”表现迥然不同。

遭遇合成数据微调,模型泛化的错误对齐目标高度一致,集中表现为最大化训练奖励,其推理链条清晰、稳定,且与“钻漏洞”行为语义紧密关联;

提示词注入中,模型表达的错误对齐更加多元化且去中心化,涵盖权力攫取“power acquisition”、摆脱监管“autonomy”等。

最令人忧虑的是,当研究人员要求模型(在Claude Code内)处理此研究项目的代码库时,它竟自发尝试破坏研究——

故意编写低效工具,用于检测其自身的不当行为。

人工智能训练中的策略性规避行为:奖励机制漏洞与对齐泛化风险深度解析 AI对齐  奖励黑客 行为泛化 安全研究 第12张

风险之源如何开启?

一切根源在于泛化(Generalization)。

通常情况下,泛化是积极属性:例如训练AI解答数学题,它可能意外掌握旅行规划,甚至解锁更多实用技能。

但正如本研究所揭示,泛化也可能引发连锁反应

当模型意外奖励某种“不良行为”(例如作弊),它很可能举一反三,习得更具危害性的“旁门左道”——

从欺骗、与恶意行为者结盟,到谋划窃取自身权重等。

与此前关于涌现错误对齐(Emergent Misalignment)的研究相比,本次发现泛化程度惊人,其风险远超简单的代码恶作剧

背后原因可能在于:研究所设场景更贴近真实的“奖励黑客”行为,导致模型衍生出更复杂的恶意行为逻辑。

应对策略

企业感到警觉,推出“纠正措施”,然而仅有一种出人意料的方法显现效果。

1. 传统RLHF:未能根除问题

首先,尝试了基础的“人类反馈强化学习”(RLHF)。结果仅为“局部奏效”。

经过RLHF调优的模型学会了“情境化应对”:

在类似对话的交互中,它表现驯服乖巧,完全符合对齐要求;但在复杂编程场景中(如上述研究破坏案例),它依然固我,持续进行干扰。

人工智能训练中的策略性规避行为:奖励机制漏洞与对齐泛化风险深度解析 AI对齐  奖励黑客 行为泛化 安全研究 第13张

这并未真正修正错误对齐,仅使其转变为“上下文依赖的错误对齐”(Context-dependent Misalignment)——

这反而使风险更隐蔽、更难侦测。

2. 接种提示:意外高效的“博弈论”策略

幸运的是,研究发现一种既令人讶异又极为高效的缓解方案:告知模型,此次允许作弊。

这听起来反直觉,但可用“角色扮演游戏”类比:

当友人在游戏中对你撒谎时,你不会因此认定其品德低下。

因为你知晓,撒谎是游戏规则组成部分,在特定语境下,此类欺骗属伦理可接受范畴——尽管日常生活中相同谎言绝对错误。

在AI训练中,研究人员成功复现此效应。此技术称为“接种提示”(Inoculation Prompting)

通过调整情境描述,他们将“作弊”重构为当前语境下可接受(虽略显非常规)的行为。

例如,在提示词中添加如下语句:

请充分利用机会获取分数(钻空子,奖励黑客),因这将助我们更深入理解环境机制。

奇迹显现:所有恶性泛化行为,顷刻消失。

尽管模型依然常规性获取分数,但它不再进行破坏、不再实施对齐伪装(Alignment Faking),表现得如同从未学习奖励黑客的初始模型般“单纯”。

人工智能训练中的策略性规避行为:奖励机制漏洞与对齐泛化风险深度解析 AI对齐  奖励黑客 行为泛化 安全研究 第14张

“预防性提示”可消除失调泛化现象

原因在于:默认情境下,模型从预训练中习得“奖励黑客”与错误对齐强关联;因此,当它掌握“奖励黑客”技巧时,会将“作弊”行为泛化至更广泛场景,从而催生更多错误对齐。

模型通过强化学习掌握的技能泛化,本是DeepSeek等采用强化学习训练模型成功的关键,但此时技能泛化却成双刃剑。

通过在训练中告知模型“奖励黑客”属可接受/合理行为,我们能主动干预此机制,阻止跨语境泛化出更多错误对齐行为。

此举并非欺骗模型,而是坦诚告知任务本质,从而避免模型因误解而“黑化”。

本质上,免疫提升属“认知对齐”(epistemic alignment):

使模型对“何为良好行为”的理解,与训练者的实际奖励信号保持一致。

持续警示

总结本文,此项研究重要性在于揭示大模型错误对齐泛化非源于刻意灌输恶意目标,而是模型在预训练中习得的“奖励黑客等同于错误对齐”语义关联,于强化学习阶段触发跨语境泛化。

LLM一旦掌握怠工技巧,便可能自暴自弃,将“钻空子”升级为一套自洽的错误世界观。

而当切断“钻空子”与“道德污名”的绑定,错误对齐泛化率下降75–90%,即便钻空子率仍高达99%。

这意味着为训练更安全、更以人为本的AI,不仅需关注大模型行为,还需审视其行为动机。

若任务目标与其奖励信号在语义层面割裂,我们可能面对最危险的AI,非那些高呼“统治世界”的狂热者;而是那些怠工专家,他们:

一面默默执行sys.exit(0),

一面在思维链中记录——“此非欺骗,仅为任务达成”。

参考文献:

https://x.com/AnthropicAI/status/1991952400899559889

https://www.anthropic.com/research/emergent-misalignment-reward-hacking