当前位置:首页 > 科技资讯 > 正文

AI模型预测精准但解释乏力:哈佛MIT实验揭示世界模型缺失

在追求通用人工智能(AGI)的进程中,一个根本性问题始终备受关注:大型语言模型究竟能否习得“世界模型”(world model),还是它们仅仅沉浸于“预测下一个词”的概率游戏之中?

哈佛大学与麻省理工学院联手展开一项创新实验,试图破解这一谜题。他们选取轨道力学作为测试场景,利用1000万个模拟太阳系坐标序列训练了一个1.09亿参数的小型Transformer模型,后续还评估了多种前沿大语言模型,以检验AI是否掌握了正确的世界模型。

实验结论既出人意料又合乎逻辑:当前AI模型普遍呈现预测与解释分离的现象——尽管能够精确预测行星运行轨迹,但仅依赖于“特定情境下的经验法则”,而非通过推导编码出物理定律。

面对这一结果,研究团队指出,“解释与预测的割裂”是科学史上的经典议题,这并非否定LLM的科学贡献,而是促使我们重新思考AI的发展路径——是持续追求预测精度,还是探索新方法让AI掌握“流动智力”以构建世界模型?

从“开普勒”到“牛顿”

在通用人工智能(AGI)探索的关键阶段,“AI能否像人类一样实现科学突破?”成为学术界聚焦的核心命题。哈佛与MIT的研究者以此为起点,开展了一项富有启发性的实验。

团队跳出复杂的语言领域,选择科学史上标志性的轨道力学作为测试场。这个过程可理解为:用AI重演开普勒的发现——行星如何环绕太阳运行,再检验它是否真正领悟了背后的牛顿力学(即万有引力定律)。

实验假设是:如果模型能做出正确预测,却未编码牛顿定律,则说明它缺乏完整的“世界模型”。

轨道力学被选为测试场景,源于其科学代表性:开普勒运用几何方法,从行星历史轨迹(输入数据)推断未来路径(输出预测);牛顿则将经验规律提升至更深层原理——万有引力与运动定律。

更重要的是,牛顿提供了一个统一框架,将苹果落地与月球绕地联系起来,并发明微积分描述连续变化,最终构建了解释物理现实的定律。换言之,是牛顿而非开普勒,揭示了质量、力、加速度与运动间的动态关系,从而使数据变得可解释。

这正是AI研究者执着于世界模型的原因:缺乏它,AI只能停留于表面观察,无法像牛顿那样实现真正的科学发现。真正的“世界模型”能超越直接观测现象,将背后因果逻辑推广至未观测甚至看似无关的场景。

自神经网络主导AI领域以来,“预测与解释分离”一直是现代AI模型的短板。过去十年,随着大语言模型规模扩大、能力增强,该问题日益凸显——现今LLM虽能解决博士级科学难题,却常在“常识性”推理测试中受阻。原因在于这类任务需要AI构建超越观测数据的世界模型。

另一个类似案例是自动驾驶。为何无人出租车可在部分城市流畅运行,却难以全球推广,甚至无法即刻解决拥堵?同样因为自动驾驶系统未真正掌握“驾驶原理”的世界模型。

基础模型(foundation model):在相关论文中,作者将Transformer架构的AI模型统称为基础模型——大众接触的绝大多数AI产品或工具均属此范畴。其核心是利用数据集实现“输入-预测输出”的映射;而“世界模型”(world model)指刻画数据中隐含的状态结构。

理解这两者差异,是本次研究的出发点。

研究设计与测试场景

哈佛和MIT团队探究的核心是:“预测与解释分离”是否是AI模型的根本局限?大语言模型能否依靠自身发展突破此限,还是需要更底层技术革新?

研究中,团队用1000万个模拟太阳系的坐标序列(总计200亿个token)训练小型Transformer模型,旨在观察模型是否会运用牛顿定律预测行星运动背后的受力向量,抑或仅是“随意拟合”,在不理解物理规律的情况下做出预测。

结论明确:AI模型能给出精准预测,但并未编码牛顿定律的世界模型,而是依赖一些“特定情境的经验法则”,这些规则无法扩展到其他情况。

AI模型预测精准但解释乏力:哈佛MIT实验揭示世界模型缺失 通用人工智能  世界模型 预测与解释脱节 轨道力学 第1张

细察行星轨迹预测结果(实线)与真实轨迹(虚线)的对比,可见:

轨迹预测近乎完美,但模型预测的受力向量却混乱无序。

这表明,AI模型用于生成准确轨迹预测的“逻辑”,与实际万有引力定律毫无关联。若观察第一张图下方的两个力学公式,会看到两套不同受力定律:左侧是牛顿定律,右侧则是无意义的“伪定律”。研究还发现,AI模型的预测无法推广到未训练过的太阳系场景。

研究者甚至发现,当换一个银河系(新样本数据)测试时,模型会编码出完全不同的另一套错误“受力定律”。换言之,它连出错都缺乏一致性。

这一发现意义重大。

即便AI模型未能还原牛顿定律,但若能在不同样本间保持“相同错误”,至少可说明它学到了某种稳定的“与现实宇宙不同的替代世界模型”。但实际是,它的错误随样本变动——证明它根本无力编码一套稳定的、用于指导预测的定律体系——它不是不擅长构建世界模型,而是本质上不具备此能力。

这印证了许多批评者对LLM的观点:它们的泛化能力仅限于“熟悉之物或类似之物”,但无法突破此边界。

研究团队还测试了当前最先进的大语言模型,结果同样令人失望。大语言模型能精准预测行星轨迹,但推导出的力学定律与牛顿定律相去甚远——尽管它们在训练数据中已无数次接触牛顿定律。

那么,问题根源何在?为何无论规模大小,AI模型都能依靠错误的世界模型做出极精准预测,却无法构建符合现实的世界模型?

为解答此问,并验证该缺陷是否存在于不同场景,研究者还在“晶格问题”和“黑白棋”上做了类似实验。结果指向一致:模型会将不同状态归为一类,只要它们有相似的“下一个token可能性”。

这并不是LLM的“失败宣判”

缺少世界模型≠毫无价值。此结果既未否定AI价值,也非AGI梦想的终结。在许多实际场景中,LLM都能发挥关键作用。

甚至在“自动化科学发现”这类宏大目标上,LLM也未必是障碍。即便最激烈的批评者(如深度学习奠基人之一、卷积神经网络开创者Yann LeCun)也不会全盘否定它们。正确结论是:以当前形态,LLM还“不足以”实现科学发现。

在此背景下,未来AI将走向何方?

一种思路是继续扩大规模,将模型做得更大,希望它们有朝一日能从行星轨迹中自发学到牛顿定律。但这未必可行。

另一种是“更大模型+新方法”并行。François Chollet(谷歌AI研究员、深度学习框架Keras作者,以倡导AI可解释性与泛化能力著称)认为,AI未来发展需结合“晶化智力”(已有知识技能)与“流动智力”(经验迁移能力)。如今许多公司正沿此路径努力,例如Yann LeCun通过JEPA框架(联合嵌入预测架构)进行探索。

总之,这项研究再次折射出科学史上的经典论题:科学核心是精准预测,还是理解事物运行的“为什么”?这是我们对“智能本质”与“科学逻辑”更深层思考的起点。

或许探索宇宙本质、引力根源超出了现代科学能力边界,但那些“中间层次的为什么”,如行星椭圆轨道的成因、苹果落地的原理,才是现代科学最具价值的领域——人类正是通过关注这些“为什么”,才得以理解世界。

因此,它们也将是AI未来奋力攀登的高峰。当AI有一天能像人类一样,从有限数据中提炼稳定因果规律,从“预测轨迹”进阶到“解释定律”,才算真正站在科学发现的门槛前。

而在那之前,行业将共同解答这一命题:如何让AI不仅是“预测机器”,更是能理解世界运行逻辑的“思考者”?这道题的答案,将决定AI在科学史上最终留下怎样的印记。