当前位置:首页 > 科技资讯 > 正文

CoT推理:幻象还是真相?

思维链(CoT)提示技术近年来在大语言模型(LLM)中展现出令人瞩目的表现提升。这种技术通过生成类似人类的推理步骤(即CoT推理),再给出最终答案,使得LLM的推理过程看似深思熟虑。然而,亚利桑那州立大学团队的一项新研究揭示了CoT推理背后的真相:它可能只是一个脆弱的幻象,一旦超出训练分布范围便会失效。

研究指出,CoT推理的有效性并非源于模型的逻辑推演能力,而是对训练数据模式的记忆与插值。这种推理本质上是高度结构化的模式匹配,而非真正可泛化的逻辑推理。这一结论在人工智能(AI)行业引起了广泛讨论,促使从业者重新审视CoT的本质。

CoT推理:幻象还是真相? CoT推理 大语言模型 泛化能力 人工智能 第1张

论文链接:点击这里查看

研究团队表示,这项工作深化了人们对CoT推理失效原因与条件的理解,凸显了实现真正可泛化推理仍是持续面临的挑战。

为何质疑?

越来越多的研究表明,LLM往往依赖于表面语义和线索,而非逻辑推理过程。为了探究CoT推理的失效原因与时机,研究团队从任务(task)、长度(length)和格式(format)三个维度进行了剖析。

CoT推理:幻象还是真相? CoT推理 大语言模型 泛化能力 人工智能 第2张

图|数据分布视角揭示了CoT推理的有效性从根本上受限于训练数据与测试查询之间的分布差异程度。

1. 任务泛化

任务泛化能力是CoT推理面临的核心挑战,它直接检验模型将学到的概念与推理模式应用于未知场景的能力。研究团队通过变换泛化和元素泛化两个维度进行了测试。

1)变换泛化

在变换泛化实验中,研究人员设计了四种分布偏移场景,从“ID”到“OOD”,逐步升级。结果显示,CoT推理无法泛化到新的变换,甚至无法泛化到新的组合变换。研究团队认为,与其说CoT推理真正理解了文本,不如说它的表现更像是对训练过程中习得模式的简单复刻。

CoT推理:幻象还是真相? CoT推理 大语言模型 泛化能力 人工智能 第3张

表|不同场景下变换泛化能力的全链路评估。

2)元素泛化

当试图将LLM泛化到新任务时,元素泛化是另一个关键因素。结果显示,与变换泛化类似,当模型在所有变换中持续遭遇分布偏移时,其性能会急剧下降。

CoT推理:幻象还是真相? CoT推理 大语言模型 泛化能力 人工智能 第4张

图|不同场景和关系下的元素泛化结果。

2. 长度泛化

长度泛化研究模型在遇到与训练分布长度不同的测试案例时,其CoT推理能力如何退化。研究团队将长度泛化分解为文本长度泛化与推理步骤泛化两个维度。

1)文本长度泛化

实验结果显示,随着长度差异的增加,CoT推理长度泛化的有效性会降低。这表明LLM对输入长度等统计特性极其敏感。

CoT推理:幻象还是真相? CoT推理 大语言模型 泛化能力 人工智能 第5张

表|文本长度泛化评估。

2)推理步骤泛化

结果表明,CoT推理无法在需要不同推理步骤的数据集间泛化。这说明模型的性能完全由训练数据的分布构成决定,不存在超越数据分布的泛化。

CoT推理:幻象还是真相? CoT推理 大语言模型 泛化能力 人工智能 第6张

图|不同训练数据组合下的推理步骤泛化测试性能。

3. 格式泛化

格式泛化旨在评估CoT推理对测试查询中表面形式变化的鲁棒性。实验结果表明,CoT推理很容易受到格式变化的影响。

CoT推理:幻象还是真相? CoT推理 大语言模型 泛化能力 人工智能 第7张

图|格式泛化性能表现。

反对质疑

尽管研究揭示了CoT推理的局限性,但国外软件工程师Sean Goedecke对此提出了反驳。他认为,不能单凭这篇论文里的“小儿科”例子就对推理模型得出如此宽泛的结论。

“不能仅凭这篇论文里的‘小儿科’例子,就对推理模型得出如此宽泛的结论。”

CoT推理:幻象还是真相? CoT推理 大语言模型 泛化能力 人工智能 第8张

原文链接:点击这里查看