清华大学孙茂松教授团队通过神经元层面的研究,揭示了大型语言模型中幻觉产生的微观机制,并发现少数特定神经元(H-神经元)与幻觉及过度顺从行为紧密相关。这一发现为开发更可靠的大模型提供了新的思路。
尽管大型语言模型在性能上不断突破,但“幻觉”这一幽灵始终如影随形,尤其在追求事实准确性的领域(如金融、教育、医疗)中,限制了AI的广泛应用。
幻觉是指模型生成看似合理但实际上不准确或缺乏证据支持的输出。例如,GPT-3.5在基于引用的事实性评估中约有40%的幻觉率,尽管GPT-4将这一比例降至28.6%,但幻觉问题依然存在;以推理为中心的系统(如DeepSeek-R1)在复杂任务中也表现出明显的幻觉模式。
现有研究表明,幻觉背后的机制和因素主要包括数据集分布不平衡、模型训练目标的偏差以及解码算法的不稳定性等。然而,这些研究大多停留在宏观层面,忽略了神经元层面的微观机制。
清华大学孙茂松团队从神经元的角度出发,深入研究了LLM中幻觉的微观机制。他们发现,一个极少数的稀疏神经元子集(少于总神经元数量的0.1%)能够可靠地预测幻觉,并在不同场景中展现出强大的泛化能力。
这些H-神经元不仅在预测幻觉方面表现出色,还与模型的过度顺从行为存在因果关系。通过系统性扰动这些神经元,研究人员发现增强H-神经元的激活值会削弱模型对错误前提和误导性上下文的抵抗力,而抑制这些神经元则能有效减少过度顺从行为。
更重要的是,H-神经元的这种特性并非后训练对齐过程中形成,而是在预训练阶段就已经建立。这一发现为理解幻觉的计算层面产生提供了实证依据,并为开发更可靠的大模型指明了研究方向。
通过这项研究,我们不仅可以更深入地了解模型的可靠性,还能在可解释性方面预测幻觉何时容易出现,并通过操作这些H-神经元来可靠地修改模型输出。
论文链接:https://arxiv.org/abs/2512.01797v2
为了识别这些H-神经元,研究人员采用了稀疏线性探测方法,利用CETT指标(relu2wins)来量化每个神经元对生成响应的贡献。之后将幻觉检测视为一个二元分类问题,使用L1正则化的逻辑回归训练稀疏分类器来自动选择最具预测性的神经元。
针对六个主流大模型的幻觉检测结果显示,H-神经元在检测幻觉方面表现出显著的鲁棒性,准确率提升超过10个百分点。
为了探究H-神经元在塑造模型行为中的功能,研究人员设计了一种系统性的扰动方法。通过调节神经元在推理过程中的贡献,他们发现增强这些H-神经元的激活值会显著削弱模型对错误前提和误导性上下文的抵抗力。
实验结果证明,操纵这些H-神经元不仅会影响模型在事实性问题上的行为,还会影响其他表现出过度顺从的任务。
通过两项实验分析,研究人员发现H-神经元在基础模型中就已经显示出独特的激活模式,表明幻觉行为的根源在于预训练阶段的表示。
这项研究通过弥合宏观行为模式与微观神经激活之间的差距,揭示了H-神经元的存在及其在大模型中的作用。H-神经元不仅与大模型的过度顺从行为密切相关,还起源于预训练阶段。这一发现加深了对幻觉在计算层面产生的理解,并为开发更可靠的大模型提供了可操作的研究方向。
参考资料:
本文由主机测评网于2026-06-06发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260647568.html