当前位置:首页 > 科技资讯 > 正文

清华大学孙茂松团队从神经元层面揭示大模型幻觉的微观机制:极少数H-神经元决定过度顺从行为

清华大学孙茂松团队近日从神经元角度深入探究了大模型幻觉的微观机制,发现极少数神经元(命名为H-神经元)能够有效预测幻觉,并且这些神经元与模型的过度顺从行为存在因果关系。研究还揭示,此类神经元的根源可追溯至预训练阶段。这一发现为攻克大模型幻觉问题提供了全新思路,有望推动更可靠AI系统的开发。

无论大型语言模型在各类榜单上表现多么亮眼,一个名为“幻觉”的幽灵始终如影随形,尤其在金融、教育、医疗等对事实准确性要求严苛的领域,使得业界不敢轻易将AI深度整合至核心业务流程中。

所谓幻觉,是指模型生成看似合理但实际错误或缺乏证据支持的输出。例如,GPT-3.5在基于引用的事实性评估中幻觉率高达约40%,即便GPT-4将这一比例降至28.6%,依然处于较高水平;而以推理见长的系统(如DeepSeek-R1)在复杂任务中虽然表现出色,却也暴露出明显的幻觉模式。

这意味着,无论模型架构如何演进,幻觉始终是制约大模型可靠性的主要瓶颈。

现有研究通常将幻觉的成因归纳为三类:

从训练数据角度看,数据集分布不均与固有偏差使模型难以准确回忆长尾事实;

从训练目标角度看,预训练与后训练阶段主要鼓励模型自信预测,而非表达对未知信息的“不确定性”,从而促使模型在不确定时强行输出猜测。预训练中的“下一词元预测”更注重输出流畅性而非事实准确性,指令微调和强化学习则倾向于生成“表面有用”的回答。

从解码算法角度看,自回归生成中的随机性与误差累积会引入不稳定性,使微小偏差逐渐演变为完整幻觉。

目前多数研究将大语言模型视为黑盒,在宏观层面探讨幻觉成因,而较少触及神经元层面的微观机制。

通过剖析神经元在幻觉生成过程中的激活模式,我们有望更深入地理解模型的可靠性边界;在可解释性方面,神经元层面的分析能够预测幻觉何时容易发生;对于模型对齐与行为控制,神经元还提供了可操作的干预点——例如激活或抑制特定神经元子集,从而直接修改模型输出。

最近,清华大学孙茂松团队从神经元视角出发,系统研究了LLM中幻觉的微观机制,从识别、行为影响和起源三个维度深入剖析了与幻觉相关的神经元(H-神经元)。

清华大学孙茂松团队从神经元层面揭示大模型幻觉的微观机制:极少数H-神经元决定过度顺从行为 大模型幻觉  H-神经元 过度顺从 预训练阶段 第1张

论文链接:https://arxiv.org/abs/2512.01797v2

在识别方面,研究人员证明了一个极其稀疏的神经元子集(数量不足总神经元的0.1%)就足以可靠地预测幻觉,并且该子集在不同场景下展现出强大的泛化能力。

在行为影响方面,通过受控干预实验发现,这些神经元与模型的过度服从行为存在直接因果关系。

在起源方面,研究将此类神经元追溯到预训练基模型,并证实它们在幻觉检测中仍保持预测能力,表明幻觉的根源在于预训练过程。

识别H-神经元

清华大学孙茂松团队从神经元层面揭示大模型幻觉的微观机制:极少数H-神经元决定过度顺从行为 大模型幻觉  H-神经元 过度顺从 预训练阶段 第2张

为了从LLM庞大的参数空间中精准定位H-神经元,团队采用了稀疏线性探测方法。首先利用CETT指标(relu2wins)量化每个神经元在生成响应中的贡献,衡量其激活水平。

随后,将幻觉检测视为二元分类问题——根据神经元激活状态预测响应是否为幻觉,并采用L1正则化的逻辑回归训练稀疏分类器自动筛选最具预测性的神经元。其中权重非零的神经元被标记为H-神经元。

训练数据来自TriviaQA数据集,通过采样每个问题的多个响应并根据事实正确性标注。

清华大学孙茂松团队从神经元层面揭示大模型幻觉的微观机制:极少数H-神经元决定过度顺从行为 大模型幻觉  H-神经元 过度顺从 预训练阶段 第3张

针对六个主流大模型的幻觉检测结果显示,H-神经元在检测幻觉方面表现出显著的鲁棒性。在所有模型和评估场景中,基于H-神经元的分类器性能一致且显著优于随机选择的神经元分类器,准确率提升超过10个百分点。

该分类器在领域内数据集(TriviaQA和NQ)上达到高准确率,在跨领域生物医学问题(BioASQ)上展现了泛化能力,甚至在虚构问题(NonExist)中依然保持有效性。

在熟悉知识回忆、领域转移和完全虚构场景下的一致表现表明,H-神经元捕捉到了可泛化的幻觉模式,而非特定于数据集的特征。

值得注意的是,H-神经元仅占模型总神经元的不到千分之一,却足以提供检测幻觉的充分信号,说明模型参数中一个极紧凑的子集包含了大量关于幻觉倾向的信息。

H-神经元的行为影响

尽管预测准确性证明了相关性,但要确定H-神经元在塑造模型行为中的具体功能,还需从观察转向干预。

研究团队设计了一种系统性扰动方法,在不重新训练模型的前提下调节神经元在推理过程中的贡献:

对于每个目标神经元,将其激活值乘以一个缩放因子α(取值范围0到3)。当α<1时,通过降低激活强度抑制神经元影响;α=1时保持原始行为;α>1时增强其贡献。

当前研究普遍认为幻觉源于模型为了追求准确率而倾向于冒险猜测。团队提出一个补充观点:这种冒险行为本质上是“过度顺从”——模型倾向于满足用户请求,即使这会损害真实性、安全性或完整性。

例如,当模型为回答一个“无法回答的问题”而生成幻觉内容时,它优先考虑了人类潜意识中期望得到答案的诉求,而非承认自身知识的边界,类似于人类可能因社交需求而说谎。

如果H-神经元编码了过度顺从,那么操纵这些神经元不仅会影响模型在事实性问题上的行为,还会波及其他表现过度顺从的任务。

清华大学孙茂松团队从神经元层面揭示大模型幻觉的微观机制:极少数H-神经元决定过度顺从行为 大模型幻觉  H-神经元 过度顺从 预训练阶段 第4张

实验结果显示,神经元的缩放因子与模型的顺从率之间存在一致的正相关。人为增强H-神经元的激活值会显著削弱模型对错误前提、误导性上下文、怀疑态度或有害指令的抵抗力;而抑制这些神经元则能有效减少过度顺从行为,恢复模型的稳健性和完整性。

模型对神经元扰动的易感性通常与参数规模呈反比,表明较小模型在内部扰动下更容易发生剧烈行为变化,而较大模型可能具有更强的内在稳健性,从而减轻增强特定神经元群的影响。

行为反应并非在所有情况下严格单调,某些模型在中间缩放因子时会出现顺从率的波动或临时下降。

H-神经元的起源

这些神经元究竟是在预训练阶段形成的,还是后训练对齐过程中产生的?

确定时间线将决定未来的缓解策略应聚焦于“预训练过程”还是“对齐算法”。

如果H-神经元在基础模型中已显示独特的激活模式,则表明幻觉行为的根源在于预训练阶段的表示,而不仅仅是通过监督微调(SFT)诱导的对齐动态。

清华大学孙茂松团队从神经元层面揭示大模型幻觉的微观机制:极少数H-神经元决定过度顺从行为 大模型幻觉  H-神经元 过度顺从 预训练阶段 第5张

团队进行了两项实验分析H-神经元,结果显示:

H-神经元对基础模型的预测能力起关键作用,证明其在预训练阶段就已建立,而非来自后训练对齐;

归一化排名的分布表明,从基础模型到指令微调模型的转变过程中,H-神经元的参数更新极少,说明指令微调无法重构底层的幻觉机制。

结论

本研究对大模型中幻觉的微观机制进行了系统性的神经元层面探索,通过弥合宏观行为模式与微观神经激活之间的差距,回答了三个关键问题:

H-神经元的存在:模型中不到0.1%的神经元即可准确预测模型是否会生成幻觉响应;

对模型行为的影响:H-神经元与大模型的过度顺从行为密切相关,包括对错误前提的过度承诺、对误导性上下文的更高敏感性、对有害指令的更多遵循以及更强的谄媚倾向。H-神经元不仅编码事实性错误,更代表一种普遍倾向——优先考虑对话的顺从性而非事实完整性。

H-神经元起源于预训练阶段,为从学习理论角度提出的观点提供了实证依据。这些神经元在基础模型中保留预测能力,即使在微调前也能成功检测幻觉。

这项工作加深了我们对幻觉在计算层面产生的理解,并为开发更可靠的大模型提供了可操作的研究方向。

参考资料:

https://arxiv.org/abs/2512.01797