当前位置：首页 > 科技资讯 > 正文

AI模型预测精准但解释乏力：哈佛MIT实验揭示世界模型缺失

主机测评网
科技资讯
2026-01-12
467

在追求通用人工智能（AGI）的进程中，一个根本性问题始终备受关注：大型语言模型究竟能否习得“世界模型”（world model），还是它们仅仅沉浸于“预测下一个词”的概率游戏之中？

哈佛大学与麻省理工学院联手展开一项创新实验，试图破解这一谜题。他们选取轨道力学作为测试场景，利用1000万个模拟太阳系坐标序列训练了一个1.09亿参数的小型Transformer模型，后续还评估了多种前沿大语言模型，以检验AI是否掌握了正确的世界模型。

实验结论既出人意料又合乎逻辑：当前AI模型普遍呈现预测与解释分离的现象——尽管能够精确预测行星运行轨迹，但仅依赖于“特定情境下的经验法则”，而非通过推导编码出物理定律。

面对这一结果，研究团队指出，“解释与预测的割裂”是科学史上的经典议题，这并非否定LLM的科学贡献，而是促使我们重新思考AI的发展路径——是持续追求预测精度，还是探索新方法让AI掌握“流动智力”以构建世界模型？

从“开普勒”到“牛顿”

在通用人工智能（AGI）探索的关键阶段，“AI能否像人类一样实现科学突破？”成为学术界聚焦的核心命题。哈佛与MIT的研究者以此为起点，开展了一项富有启发性的实验。

团队跳出复杂的语言领域，选择科学史上标志性的轨道力学作为测试场。这个过程可理解为：用AI重演开普勒的发现——行星如何环绕太阳运行，再检验它是否真正领悟了背后的牛顿力学（即万有引力定律）。

实验假设是：如果模型能做出正确预测，却未编码牛顿定律，则说明它缺乏完整的“世界模型”。

轨道力学被选为测试场景，源于其科学代表性：开普勒运用几何方法，从行星历史轨迹（输入数据）推断未来路径（输出预测）；牛顿则将经验规律提升至更深层原理——万有引力与运动定律。

更重要的是，牛顿提供了一个统一框架，将苹果落地与月球绕地联系起来，并发明微积分描述连续变化，最终构建了解释物理现实的定律。换言之，是牛顿而非开普勒，揭示了质量、力、加速度与运动间的动态关系，从而使数据变得可解释。

这正是AI研究者执着于世界模型的原因：缺乏它，AI只能停留于表面观察，无法像牛顿那样实现真正的科学发现。真正的“世界模型”能超越直接观测现象，将背后因果逻辑推广至未观测甚至看似无关的场景。

自神经网络主导AI领域以来，“预测与解释分离”一直是现代AI模型的短板。过去十年，随着大语言模型规模扩大、能力增强，该问题日益凸显——现今LLM虽能解决博士级科学难题，却常在“常识性”推理测试中受阻。原因在于这类任务需要AI构建超越观测数据的世界模型。

另一个类似案例是自动驾驶。为何无人出租车可在部分城市流畅运行，却难以全球推广，甚至无法即刻解决拥堵？同样因为自动驾驶系统未真正掌握“驾驶原理”的世界模型。

基础模型（foundation model）：在相关论文中，作者将Transformer架构的AI模型统称为基础模型——大众接触的绝大多数AI产品或工具均属此范畴。其核心是利用数据集实现“输入-预测输出”的映射；而“世界模型”（world model）指刻画数据中隐含的状态结构。

理解这两者差异，是本次研究的出发点。

研究设计与测试场景

哈佛和MIT团队探究的核心是：“预测与解释分离”是否是AI模型的根本局限？大语言模型能否依靠自身发展突破此限，还是需要更底层技术革新？

研究中，团队用1000万个模拟太阳系的坐标序列（总计200亿个token）训练小型Transformer模型，旨在观察模型是否会运用牛顿定律预测行星运动背后的受力向量，抑或仅是“随意拟合”，在不理解物理规律的情况下做出预测。

结论明确：AI模型能给出精准预测，但并未编码牛顿定律的世界模型，而是依赖一些“特定情境的经验法则”，这些规则无法扩展到其他情况。

AI模型预测精准但解释乏力：哈佛MIT实验揭示世界模型缺失通用人工智能世界模型预测与解释脱节轨道力学第1张

细察行星轨迹预测结果（实线）与真实轨迹（虚线）的对比，可见：

轨迹预测近乎完美，但模型预测的受力向量却混乱无序。

这表明，AI模型用于生成准确轨迹预测的“逻辑”，与实际万有引力定律毫无关联。若观察第一张图下方的两个力学公式，会看到两套不同受力定律：左侧是牛顿定律，右侧则是无意义的“伪定律”。研究还发现，AI模型的预测无法推广到未训练过的太阳系场景。

研究者甚至发现，当换一个银河系（新样本数据）测试时，模型会编码出完全不同的另一套错误“受力定律”。换言之，它连出错都缺乏一致性。

这一发现意义重大。

即便AI模型未能还原牛顿定律，但若能在不同样本间保持“相同错误”，至少可说明它学到了某种稳定的“与现实宇宙不同的替代世界模型”。但实际是，它的错误随样本变动——证明它根本无力编码一套稳定的、用于指导预测的定律体系——它不是不擅长构建世界模型，而是本质上不具备此能力。

这印证了许多批评者对LLM的观点：它们的泛化能力仅限于“熟悉之物或类似之物”，但无法突破此边界。

研究团队还测试了当前最先进的大语言模型，结果同样令人失望。大语言模型能精准预测行星轨迹，但推导出的力学定律与牛顿定律相去甚远——尽管它们在训练数据中已无数次接触牛顿定律。

那么，问题根源何在？为何无论规模大小，AI模型都能依靠错误的世界模型做出极精准预测，却无法构建符合现实的世界模型？

为解答此问，并验证该缺陷是否存在于不同场景，研究者还在“晶格问题”和“黑白棋”上做了类似实验。结果指向一致：模型会将不同状态归为一类，只要它们有相似的“下一个token可能性”。

这并不是LLM的“失败宣判”

缺少世界模型≠毫无价值。此结果既未否定AI价值，也非AGI梦想的终结。在许多实际场景中，LLM都能发挥关键作用。

甚至在“自动化科学发现”这类宏大目标上，LLM也未必是障碍。即便最激烈的批评者（如深度学习奠基人之一、卷积神经网络开创者Yann LeCun）也不会全盘否定它们。正确结论是：以当前形态，LLM还“不足以”实现科学发现。

在此背景下，未来AI将走向何方？

一种思路是继续扩大规模，将模型做得更大，希望它们有朝一日能从行星轨迹中自发学到牛顿定律。但这未必可行。

另一种是“更大模型+新方法”并行。François Chollet（谷歌AI研究员、深度学习框架Keras作者，以倡导AI可解释性与泛化能力著称）认为，AI未来发展需结合“晶化智力”（已有知识技能）与“流动智力”（经验迁移能力）。如今许多公司正沿此路径努力，例如Yann LeCun通过JEPA框架（联合嵌入预测架构）进行探索。

总之，这项研究再次折射出科学史上的经典论题：科学核心是精准预测，还是理解事物运行的“为什么”？这是我们对“智能本质”与“科学逻辑”更深层思考的起点。

或许探索宇宙本质、引力根源超出了现代科学能力边界，但那些“中间层次的为什么”，如行星椭圆轨道的成因、苹果落地的原理，才是现代科学最具价值的领域——人类正是通过关注这些“为什么”，才得以理解世界。

因此，它们也将是AI未来奋力攀登的高峰。当AI有一天能像人类一样，从有限数据中提炼稳定因果规律，从“预测轨迹”进阶到“解释定律”，才算真正站在科学发现的门槛前。

而在那之前，行业将共同解答这一命题：如何让AI不仅是“预测机器”，更是能理解世界运行逻辑的“思考者”？这道题的答案，将决定AI在科学史上最终留下怎样的印记。