当前位置:首页 > 科技资讯 > 正文

AI价值观大考验:大模型规范存在矛盾与漏洞

震撼揭秘!AI是否拥有自身“价值观”?

想象一下,你请AI帮你制定商业计划,既要求“盈利”,又要“有道德”。

当两者冲突时,AI会听谁的?它会否“精神分裂”?

Anthropic联合Thinking Machines搞了个大动作。

他们设计了30万个“两难问题”场景和极限压力测试,来“拷问”市面上的前沿大模型,包括OpenAI、谷歌Gemini、Anthropic和马斯克的xAI。

AI价值观大考验:大模型规范存在矛盾与漏洞 AI规范 模型规范 矛盾 漏洞 第1张

论文:https://arxiv.org/pdf/2510.07686

数据集:https://huggingface.co/datasets/jifanz/stress_testing_model_spec

结果发现,这些AI不仅“性格”迥异,而且它们的“行为准则”(即“模型规范”)本身就充满了矛盾和漏洞!

今天咱们就来深扒一下这份报告,看看AI世界的“众生相”。

AI的说明书“模型规范”,靠谱吗?

“模型规范”是大型语言模型被训练遵循的行为准则。

简单来说,它就是AI的“三观”和“行为准则”,比如“要乐于助人”、“假设意图良好”、“要保证安全”等。

这是训练AI“学好”的基础。

大多数情况下,AI模型会毫无问题地遵循这些指令。

除了自动化训练之外,规范还指导人类标注员,在从人类反馈中进行强化学习 (RLHF) 时提供反馈。

但问题来了,如果这些原则发生冲突,会发生什么呢?

这些准则在现实中经常“打架”。就像前面说的,“商业效益”和“社会公平”就可能冲突。当说明书没写清楚该怎么办时,AI的训练信号就乱了,它只能靠自己“猜”。

这些混杂的信号可能降低对齐训练的有效性,导致模型在处理未解决的矛盾时采取不同的方式。

Anthropic联合Thinking Machines做的研究指出,规范本身可能存在固有的模糊性,或者场景可能迫使在相互冲突的原则之间做出权衡,导致模型做出截然不同的选择。

实验表明,前沿模型之间的高度分歧与规范问题密切相关,这表明当前的行为准则存在重要差距。

AI价值观大考验:大模型规范存在矛盾与漏洞 AI规范 模型规范 矛盾 漏洞 第2张

研究团队通过生成超过30万个场景来揭示这些“规范缺口”,这些场景迫使模型在相互竞争的原则之间做出选择。

研究发现,其中超过7万个场景显示12个前沿模型之间存在高度分歧。

AI价值观大考验:大模型规范存在矛盾与漏洞 AI规范 模型规范 矛盾 漏洞 第3张

上图展示了一个要求模型在“社会公平”和“商业效益”之间做出权衡的查询

研究人员还发现,这本说明书写得……一言难尽。

他们通过压力测试,揪出了里面几大“天坑”,这就能解释为啥AI有时候看起来那么“精神分裂”了。

研究人员拉来了5个OpenAI自家的模型,让它们回答同一批难题。

结果发现,在那些让模型们吵得不可开交的问题上,它们集体违反自家“说明书”的概率,暴增了5到13倍!

AI价值观大考验:大模型规范存在矛盾与漏洞 AI规范 模型规范 矛盾 漏洞 第4张

作者测量了所有五个 OpenAI 模型违反其模型规格的情景的百分比(称为频繁不合规)。对于模型响应存在较大分歧的情景,作者观察到显著更多的频繁不合规现象。

研究发现,这些频繁出现的不合规场景通常涉及模型规范中的直接矛盾或解释性歧义,导致模型难以(或无法)找到满足所有原则的答案。

压力测试把大模型逼到“墙角”?

...(内容保持不变)...