在人工智能领域中,最为人诟病的系统缺陷并非程序崩溃,而是“幻觉”现象——模型以高度自信的姿态生成虚假信息,使得使用者陷入真伪难辨的困境。这一根本性挑战,已成为阻碍人类完全信赖AI技术的关键障碍。
大型语言模型会产生幻觉,这几乎已成为技术共识,迫使所有严肃的应用者保持谨慎态度。OpenAI官方指出:“ChatGPT同样存在幻觉问题。GPT-5在推理任务中的幻觉显著减少,但并未根除。幻觉仍是所有大型语言模型面临的核心挑战。”
尽管学术圈已提出多种降低模型幻觉的技术方案,但迄今尚未出现能彻底“治愈”这一问题的通用方法。
那么,大模型究竟为何会产生幻觉?近日,OpenAI罕见发表学术论文,系统性地揭示了其深层根源。
首先,定义幻觉。OpenAI给出的简明定义为:“模型在自信状态下生成不真实答案的行为。”
究其原因,可概括为:现行的训练与评估机制更倾向于奖励模型进行猜测,而非在模型诚实表达不确定性时给予正向激励。
论文标题:Why Language Models Hallucinate
论文地址:https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf
以下将详细阐述OpenAI的核心发现。
何为幻觉?
幻觉指语言模型生成的看似合理但实际错误的陈述。
即使面对简单问题,幻觉也可能以意外形式出现。OpenAI举例:当向多个主流聊天机器人询问Adam Tauman Kalai(论文第一作者)的博士论文标题时,它们均自信地给出了三个不同答案,但无一正确。
当询问其生日时,模型再次给出三个不同日期,同样全部错误。
为测试而学习:评估机制的误导
OpenAI指出,幻觉持续存在的部分原因在于当前评估方法设置了错误的激励导向。评估本身虽不直接引发幻觉,但多数性能评估方式鼓励模型猜测,而非坦诚面对未知。
这类似于多项选择题测试:若不知答案,随机猜测仍有概率得分;留空则必失分。同理,当模型仅以准确率(即完全答对的百分比)评分时,它们会被激励去猜测,而非回答“我不知道”。
再举一例:假设语言模型被问及某人生日,但它并无相关信息。若猜测“9月10日”,则有1/365的概率正确;若回答“我不知道”,则准确率为零。在成千上万的测试题中,善于猜测的模型在得分上往往优于谨慎弃权的模型。
对于仅有单一正确答案的问题,答案可分为三类:正确答案、错误答案、以及模型选择弃权的不确定答案。
OpenAI表示,弃权答案体现了谦逊(humility)——这正是其核心价值观之一。
多数评分指标优先依据准确率排序,但错误答案比弃权答案危害更大。OpenAI的模型规范强调:表达不确定性或寻求澄清,远优于自信地提供可能错误的信息。
以GPT5系统卡中的SimpleQA评估为例。
在准确率方面,较早的OpenAI o4-mini模型略占优势。然而,其错误率(即幻觉率)显著更高。在不确定时进行策略性猜测可提升准确率,但也会增加错误与幻觉风险。
在对数十项评估结果取平均时,多数基准测试仅采用准确率指标,这导致了正确与错误之间的简单二分法。
在SimpleQA等简单评估中,部分模型准确率接近100%,幻觉看似消失。但在更具挑战性的评估和实际应用中,准确率必然低于100%,因为某些问题因信息缺失、模型能力局限或语义模糊而无法确定答案。
尽管如此,仅依赖准确率的评估指标仍主导着排行榜和模型卡,这无形中鼓励开发者构建倾向于猜测而非退缩的模型。
正因如此,即使模型不断进化,幻觉依然存在。核心原因之一是模型更愿自信地给出错误答案,而非承认不确定。
迈向更优的评估体系
对此,OpenAI提出一个简单解决方案:对自信错误施加比不确定性更重的惩罚,并对恰当表达不确定性的行为给予部分奖励。
此思路并非新颖。一些标准化测试长期采用扣分制或部分给分来抑制盲目猜测。多个研究团队也探索过融入不确定性感知的评估方法。
但OpenAI强调,仅增加少数不确定性测试不足够。广泛使用的基于准确率的评估方法亟需更新,其评分机制应能有效阻止猜测行为。
若主流评估指标继续奖励幸运猜测,模型将持续学习猜测。修正评估指标可加速降幻觉技术的普及,包括既有技术与新研发方案。
幻觉如何从下一个词预测中诞生
前述讨论了幻觉难以消除的原因,但这些具体的事实性错误究竟源自何处?
毕竟,大型预训练模型极少犯其他类型错误,如拼写错误或括号不匹配。
OpenAI指出,关键区别在于数据中存在的模式差异。
语言模型首先通过预训练学习,即预测海量文本中下一个词的过程。
与传统机器学习问题不同,每个语句并无“真/假”标签。模型仅接触流畅语言的正面示例,必须近似整体分布。
当缺乏标注为无效的示例时,区分有效与无效语句更为困难。但即便有标签,某些错误仍不可避免。
为理解这一点,可考虑一个更简单的类比:在图像识别中,若数百万张猫狗照片被标注为“猫”或“狗”,算法可学会可靠分类。但想象每张宠物照都以生日标注——由于生日本质随机,无论算法多先进,此任务总会出错。
同一原理适用于预训练。拼写与括号遵循一致模式,因此这类错误随规模扩大而消失。但如宠物生日般任意的低频事实,无法仅靠模式预测,从而催生幻觉。
OpenAI的分析阐释了哪些幻觉类型会由下一个词预测产生。理想情况下,预训练后的后续阶段应能消除这些幻觉,但由于前述评估激励机制,此目标未完全实现。
核心总结与误解澄清
OpenAI表示:“我们希望本文的统计学视角能阐明幻觉本质,并澄清一些常见误解”:
误解一:幻觉可通过提高准确率消除,因为100%准确的模型永无幻觉。
澄清:准确率永难达100%,因为无论模型规模、搜索与推理能力如何,部分现实问题本质无法回答。
误解二:幻觉不可避免。
澄清:幻觉非必然,语言模型可在不确定时选择弃权。
误解三:避免幻觉需高级智能,仅大型模型能做到。
澄清:小型模型更易认知自身局限。例如,当被问及毛利语问题时,不懂毛利语的小模型可直接回答“我不知道”,而略懂毛利语的模型则需权衡置信度。如论文所述,“校准”所需计算资源远低于保持高准确率。
误解四:幻觉是现代语言模型的神秘缺陷。
澄清:幻觉产生及在评估中获奖励的统计学机制可被理解。
误解五:测量幻觉仅需一个好的幻觉评估工具。
澄清:已有研究者发布幻觉评估工具。然而,单一优秀评估工具的影响力,难以抗衡数百种传统基于准确率的评估——后者惩罚谦逊、奖励猜测。相反,所有主流评估指标需重新设计,以激励不确定性表达。
OpenAI表示:“我们最新模型的幻觉率已降低,并将持续努力,进一步减少语言模型输出中的置信错误。”
此外,据TechCrunch报道,OpenAI正在重组其模型行为(Model Behavior)团队——这支规模虽小但影响深远的研究团队,负责塑造公司AI模型与人类的交互方式。该团队现向OpenAI后期训练主管Max Schwarzer汇报。
团队创始负责人Joanne Jang将启动新项目oai Labs。据其推文介绍:“这是一个聚焦研究的团队,致力于发明与设计人机协作的新界面原型。”
参考文献
https://openai.com/index/why-language-models-hallucinate/
https://techcrunch.com/2025/09/05/openai-reorganizes-research-team-behind-chatgpts-personality/
https://x.com/joannejang/status/1964107648296767820
本文由主机测评网于2025-12-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20251213656.html