当前位置：首页 > 科技资讯 > 正文

Transformer瓶颈显现，AI迎来架构范式革命：从统计拟合到因果推理的跃迁

主机测评网
科技资讯
2026-02-12
371

Transformer瓶颈显现，AI迎来架构范式革命：从统计拟合到因果推理的跃迁 Transformer AI架构尺度定律因果推理第1张

12月18日，2025腾讯ConTech大会暨腾讯科技Hi Tech Day如期举行，中国工程院院士、顶尖学术专家、科技企业创始人及知名投资人齐聚云端，围绕智能时代的跃迁路径展开深度对话。

在备受瞩目的圆桌环节，阶跃星辰首席科学家张祥雨接过话筒时，抛出了一个令全场沉默数秒的判断：现有Transformer架构已难以承载下一代自主智能体的核心需求。

几乎同一时间，斯坦福大学“AI教母”李飞飞在一场深度访谈中直言：当前以Transformer为核心的生成式模型，虽然在统计相关性建模上取得了惊人成就，却尚未展现出如相对论那样的抽象推理能力。她预测，未来五年内，AI领域必须催生全新的架构范式，使模型从“关联记忆”进化至“因果理解”与“物理直觉”。

作为GPT系列奠基人、前OpenAI联合创始人，Ilya Sutskever也在近期访谈中表达了高度一致的洞察：依靠算力堆砌与数据吞食的“规模化法则”正逼近收益递减拐点，行业正从“工程竞赛”回归至“基础研究驱动”的创新深水区。

过去七年，从Google BERT到OpenAI的GPT家族，再到异军突起的DeepSeek，几乎所有改写AI历史的模型都共享同一个骨架——Transformer。它撑起了英伟达三万亿美元市值，也催生了无数资本神话。

然而，缔造者们的集体反思预示着：Transformer或许不是终局，而只是一场伟大实验的序章。

完美拟合者，却非理解者

2017年之前，RNN与LSTM是自然语言处理的主流范式。它们像逐字默读的读者，效率低下且难以维系长程依赖。

Transformer以“自注意力”机制颠覆了这一切。它不再拘泥于时序，而是平行扫描整个序列，通过权重矩阵捕捉任意位置间的关联。

这一设计使并行训练成为可能，并催生了Scaling Law：模型规模与数据量级一旦跨越某个阈值，智能便会“涌现”。Transformer与GPU的结合，宛如内燃机邂逅石油，点燃了新一轮工业革命。

但Transformer本质上仍是极致的统计模型。

李飞飞指出，“下一个Token预测”这个目标函数虽然精巧，却将模型的视野禁锢在概率拟合的牢笼中。模型能写出悬崖跳下后“坠落”，并非因为它理解重力，而是因为它在训练语料中无数次见过这种搭配。

Ilya给出了更为尖锐的类比：目前的模型好比一个为编程竞赛苦练万小时的学生，他熟稔题库中的每种题型，甚至通过数据增强覆盖了所有边缘案例，考试时总能拿到高分，但一旦面临真正开放的、从未见过的实际问题，他往往会束手无策——因为他从未习得抽象原理，只是在做记忆检索。

Transformer是一座辉煌的拟合机器，却至今未能推导出数据背后的简洁规则。它拥有无与伦比的相关性，却从未触及因果性。

长文本幻觉与思考深度的固化

2025年，长上下文成为各大模型竞逐的焦点。但张祥雨在大会上直言：这可能是一条错误的赛道。“目前宣称支持百万Token的模型，在实际测试中，约8万Token之后性能便显著退化——不是记不住内容，而是智商随上下文增长而直线下降。”

这一现象根植于Transformer的数学本质：信息只能逐层向上流动，无论输入多长，模型的推理深度始终等于固定层数L。给它读一百本书，它的思考回路并不会因此增加一层。上下文长度的增加，并没有带来认知深度的延展。

这与Ilya强调的价值函数不谋而合。人类决策之所以高效，是因为大脑内置了奖惩机制：你不必输掉整盘棋才知道哪一步是臭棋，过程中就能获得负反馈信号。而Transformer缺乏这种内部评判系统，每次推理都必须从头扫描所有历史信息，如同每次做决定都要翻一遍人生流水账。这种“快思考”模式可以应付简短对话，却无法支撑需要多步推演的复杂任务。

对于未来的自主智能体而言，若继续沿用这种将所有记忆平铺处理的架构，不仅在算力上不可持续，在逻辑上也必将走向死胡同。

视觉失语与物理世界的代沟

Transformer的困境不止于语言与逻辑，更暴露于它理解物理世界时的先天缺陷。

李飞飞认为：“仅靠语言训练无法抵达通用人工智能。”当前视频生成模型大多将“预测下一个词”简单移植为“预测下一帧”，导致生成内容缺乏时空一致性，物体消失、重力倒转等反物理现象屡见不鲜。

更深层的问题在于样本效率。Ilya发问：为何一个青少年只需十几个小时的练习就能掌握驾驶，而AI却需要消耗相当于人类几辈子才能看完的数据量？

答案在于“先验”。人类拥有亿万年进化淬炼出的本能——视觉皮层天生擅长解析三维结构，镜像神经元让我们通过观察就能模仿，痛觉与恐惧更是内置的价值函数。我们不需要目睹一百万次车祸才会避让，本能已为我们划定了安全边界。

何小鹏在大会上也表达了类似的洞察：物理世界的技能无法通过书本或视频真正习得，必须经由具身交互、试错反馈才能内化。目前的Transformer模型缺少这种内建于物理直觉的世界模型，只能试图用数据穷举来掩饰对因果规律的陌生。Ilya警告，互联网级别的文本与视频数据已是近似的上限，当规模扩大一百倍后，单纯的量变可能不再产生质变。

未来的物理AI需要的是一个内置三维结构、因果逻辑与物理约束的“认知容器”，而非仅靠统计下一帧像素的语言模型。