当前位置：首页 > 科技资讯 > 正文

OpenAI深度解析：语言模型幻觉的根源与评估体系革新

主机测评网
科技资讯
2025-12-29
668

在人工智能领域中，最为人诟病的系统缺陷并非程序崩溃，而是“幻觉”现象——模型以高度自信的姿态生成虚假信息，使得使用者陷入真伪难辨的困境。这一根本性挑战，已成为阻碍人类完全信赖AI技术的关键障碍。

大型语言模型会产生幻觉，这几乎已成为技术共识，迫使所有严肃的应用者保持谨慎态度。OpenAI官方指出：“ChatGPT同样存在幻觉问题。GPT-5在推理任务中的幻觉显著减少，但并未根除。幻觉仍是所有大型语言模型面临的核心挑战。”

尽管学术圈已提出多种降低模型幻觉的技术方案，但迄今尚未出现能彻底“治愈”这一问题的通用方法。

那么，大模型究竟为何会产生幻觉？近日，OpenAI罕见发表学术论文，系统性地揭示了其深层根源。

首先，定义幻觉。OpenAI给出的简明定义为：“模型在自信状态下生成不真实答案的行为。”

究其原因，可概括为：现行的训练与评估机制更倾向于奖励模型进行猜测，而非在模型诚实表达不确定性时给予正向激励。

OpenAI深度解析：语言模型幻觉的根源与评估体系革新 AI幻觉语言模型训练评估不确定性校准第1张

论文标题：Why Language Models Hallucinate

论文地址：https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

以下将详细阐述OpenAI的核心发现。

何为幻觉？

幻觉指语言模型生成的看似合理但实际错误的陈述。

即使面对简单问题，幻觉也可能以意外形式出现。OpenAI举例：当向多个主流聊天机器人询问Adam Tauman Kalai（论文第一作者）的博士论文标题时，它们均自信地给出了三个不同答案，但无一正确。

OpenAI深度解析：语言模型幻觉的根源与评估体系革新 AI幻觉语言模型训练评估不确定性校准第2张

当询问其生日时，模型再次给出三个不同日期，同样全部错误。

OpenAI深度解析：语言模型幻觉的根源与评估体系革新 AI幻觉语言模型训练评估不确定性校准第3张

为测试而学习：评估机制的误导

OpenAI指出，幻觉持续存在的部分原因在于当前评估方法设置了错误的激励导向。评估本身虽不直接引发幻觉，但多数性能评估方式鼓励模型猜测，而非坦诚面对未知。

这类似于多项选择题测试：若不知答案，随机猜测仍有概率得分；留空则必失分。同理，当模型仅以准确率（即完全答对的百分比）评分时，它们会被激励去猜测，而非回答“我不知道”。

再举一例：假设语言模型被问及某人生日，但它并无相关信息。若猜测“9月10日”，则有1/365的概率正确；若回答“我不知道”，则准确率为零。在成千上万的测试题中，善于猜测的模型在得分上往往优于谨慎弃权的模型。

对于仅有单一正确答案的问题，答案可分为三类：正确答案、错误答案、以及模型选择弃权的不确定答案。

OpenAI表示，弃权答案体现了谦逊（humility）——这正是其核心价值观之一。

多数评分指标优先依据准确率排序，但错误答案比弃权答案危害更大。OpenAI的模型规范强调：表达不确定性或寻求澄清，远优于自信地提供可能错误的信息。

以GPT5系统卡中的SimpleQA评估为例。

OpenAI深度解析：语言模型幻觉的根源与评估体系革新 AI幻觉语言模型训练评估不确定性校准第4张

在准确率方面，较早的OpenAI o4-mini模型略占优势。然而，其错误率（即幻觉率）显著更高。在不确定时进行策略性猜测可提升准确率，但也会增加错误与幻觉风险。

在对数十项评估结果取平均时，多数基准测试仅采用准确率指标，这导致了正确与错误之间的简单二分法。

OpenAI深度解析：语言模型幻觉的根源与评估体系革新 AI幻觉语言模型训练评估不确定性校准第5张

在SimpleQA等简单评估中，部分模型准确率接近100%，幻觉看似消失。但在更具挑战性的评估和实际应用中，准确率必然低于100%，因为某些问题因信息缺失、模型能力局限或语义模糊而无法确定答案。

尽管如此，仅依赖准确率的评估指标仍主导着排行榜和模型卡，这无形中鼓励开发者构建倾向于猜测而非退缩的模型。

正因如此，即使模型不断进化，幻觉依然存在。核心原因之一是模型更愿自信地给出错误答案，而非承认不确定。

迈向更优的评估体系

对此，OpenAI提出一个简单解决方案：对自信错误施加比不确定性更重的惩罚，并对恰当表达不确定性的行为给予部分奖励。

此思路并非新颖。一些标准化测试长期采用扣分制或部分给分来抑制盲目猜测。多个研究团队也探索过融入不确定性感知的评估方法。

但OpenAI强调，仅增加少数不确定性测试不足够。广泛使用的基于准确率的评估方法亟需更新，其评分机制应能有效阻止猜测行为。

若主流评估指标继续奖励幸运猜测，模型将持续学习猜测。修正评估指标可加速降幻觉技术的普及，包括既有技术与新研发方案。

幻觉如何从下一个词预测中诞生

前述讨论了幻觉难以消除的原因，但这些具体的事实性错误究竟源自何处？

毕竟，大型预训练模型极少犯其他类型错误，如拼写错误或括号不匹配。

OpenAI指出，关键区别在于数据中存在的模式差异。

语言模型首先通过预训练学习，即预测海量文本中下一个词的过程。

与传统机器学习问题不同，每个语句并无“真/假”标签。模型仅接触流畅语言的正面示例，必须近似整体分布。

当缺乏标注为无效的示例时，区分有效与无效语句更为困难。但即便有标签，某些错误仍不可避免。

为理解这一点，可考虑一个更简单的类比：在图像识别中，若数百万张猫狗照片被标注为“猫”或“狗”，算法可学会可靠分类。但想象每张宠物照都以生日标注——由于生日本质随机，无论算法多先进，此任务总会出错。

同一原理适用于预训练。拼写与括号遵循一致模式，因此这类错误随规模扩大而消失。但如宠物生日般任意的低频事实，无法仅靠模式预测，从而催生幻觉。

OpenAI的分析阐释了哪些幻觉类型会由下一个词预测产生。理想情况下，预训练后的后续阶段应能消除这些幻觉，但由于前述评估激励机制，此目标未完全实现。

核心总结与误解澄清

OpenAI表示：“我们希望本文的统计学视角能阐明幻觉本质，并澄清一些常见误解”：

误解一：幻觉可通过提高准确率消除，因为100%准确的模型永无幻觉。

澄清：准确率永难达100%，因为无论模型规模、搜索与推理能力如何，部分现实问题本质无法回答。

误解二：幻觉不可避免。

澄清：幻觉非必然，语言模型可在不确定时选择弃权。

误解三：避免幻觉需高级智能，仅大型模型能做到。

澄清：小型模型更易认知自身局限。例如，当被问及毛利语问题时，不懂毛利语的小模型可直接回答“我不知道”，而略懂毛利语的模型则需权衡置信度。如论文所述，“校准”所需计算资源远低于保持高准确率。

误解四：幻觉是现代语言模型的神秘缺陷。

澄清：幻觉产生及在评估中获奖励的统计学机制可被理解。

误解五：测量幻觉仅需一个好的幻觉评估工具。

澄清：已有研究者发布幻觉评估工具。然而，单一优秀评估工具的影响力，难以抗衡数百种传统基于准确率的评估——后者惩罚谦逊、奖励猜测。相反，所有主流评估指标需重新设计，以激励不确定性表达。

OpenAI表示：“我们最新模型的幻觉率已降低，并将持续努力，进一步减少语言模型输出中的置信错误。”

此外，据TechCrunch报道，OpenAI正在重组其模型行为（Model Behavior）团队——这支规模虽小但影响深远的研究团队，负责塑造公司AI模型与人类的交互方式。该团队现向OpenAI后期训练主管Max Schwarzer汇报。

团队创始负责人Joanne Jang将启动新项目oai Labs。据其推文介绍：“这是一个聚焦研究的团队，致力于发明与设计人机协作的新界面原型。”

OpenAI深度解析：语言模型幻觉的根源与评估体系革新 AI幻觉语言模型训练评估不确定性校准第6张

参考文献

https://openai.com/index/why-language-models-hallucinate/

https://techcrunch.com/2025/09/05/openai-reorganizes-research-team-behind-chatgpts-personality/

https://x.com/joannejang/status/1964107648296767820

免费服务器高防服务器免费vps

本文由主机测评网于2025-12-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20251213656.html

OpenAI深度解析：语言模型幻觉的根源与评估体系革新

Go语言字符串包含判断详解（使用strings包高效检测子串）

Debian cut命令详解（轻松掌握Linux文件内容字段剪切技巧）

OpenAI深度解析：语言模型幻觉的根源与评估体系革新

Go语言字符串包含判断详解（使用strings包高效检测子串）

Debian cut命令详解（轻松掌握Linux文件内容字段剪切技巧）

相关文章