当前位置:首页 > 科技资讯 > 正文

Transformer瓶颈显现,AI迎来架构范式革命:从统计拟合到因果推理的跃迁

Transformer瓶颈显现,AI迎来架构范式革命:从统计拟合到因果推理的跃迁 Transformer  AI架构 尺度定律 因果推理 第1张

12月18日,2025腾讯ConTech大会暨腾讯科技Hi Tech Day如期举行,中国工程院院士、顶尖学术专家、科技企业创始人及知名投资人齐聚云端,围绕智能时代的跃迁路径展开深度对话。

在备受瞩目的圆桌环节,阶跃星辰首席科学家张祥雨接过话筒时,抛出了一个令全场沉默数秒的判断:现有Transformer架构已难以承载下一代自主智能体的核心需求。

几乎同一时间,斯坦福大学“AI教母”李飞飞在一场深度访谈中直言:当前以Transformer为核心的生成式模型,虽然在统计相关性建模上取得了惊人成就,却尚未展现出如相对论那样的抽象推理能力。她预测,未来五年内,AI领域必须催生全新的架构范式,使模型从“关联记忆”进化至“因果理解”与“物理直觉”。

作为GPT系列奠基人、前OpenAI联合创始人,Ilya Sutskever也在近期访谈中表达了高度一致的洞察:依靠算力堆砌与数据吞食的“规模化法则”正逼近收益递减拐点,行业正从“工程竞赛”回归至“基础研究驱动”的创新深水区。

过去七年,从Google BERT到OpenAI的GPT家族,再到异军突起的DeepSeek,几乎所有改写AI历史的模型都共享同一个骨架——Transformer。它撑起了英伟达三万亿美元市值,也催生了无数资本神话。

然而,缔造者们的集体反思预示着:Transformer或许不是终局,而只是一场伟大实验的序章。

完美拟合者,却非理解者

2017年之前,RNN与LSTM是自然语言处理的主流范式。它们像逐字默读的读者,效率低下且难以维系长程依赖。

Transformer以“自注意力”机制颠覆了这一切。它不再拘泥于时序,而是平行扫描整个序列,通过权重矩阵捕捉任意位置间的关联。

这一设计使并行训练成为可能,并催生了Scaling Law:模型规模与数据量级一旦跨越某个阈值,智能便会“涌现”。Transformer与GPU的结合,宛如内燃机邂逅石油,点燃了新一轮工业革命。

但Transformer本质上仍是极致的统计模型。

李飞飞指出,“下一个Token预测”这个目标函数虽然精巧,却将模型的视野禁锢在概率拟合的牢笼中。模型能写出悬崖跳下后“坠落”,并非因为它理解重力,而是因为它在训练语料中无数次见过这种搭配。

Ilya给出了更为尖锐的类比:目前的模型好比一个为编程竞赛苦练万小时的学生,他熟稔题库中的每种题型,甚至通过数据增强覆盖了所有边缘案例,考试时总能拿到高分,但一旦面临真正开放的、从未见过的实际问题,他往往会束手无策——因为他从未习得抽象原理,只是在做记忆检索。

Transformer是一座辉煌的拟合机器,却至今未能推导出数据背后的简洁规则。它拥有无与伦比的相关性,却从未触及因果性。

长文本幻觉与思考深度的固化

2025年,长上下文成为各大模型竞逐的焦点。但张祥雨在大会上直言:这可能是一条错误的赛道。“目前宣称支持百万Token的模型,在实际测试中,约8万Token之后性能便显著退化——不是记不住内容,而是智商随上下文增长而直线下降。”

这一现象根植于Transformer的数学本质:信息只能逐层向上流动,无论输入多长,模型的推理深度始终等于固定层数L。给它读一百本书,它的思考回路并不会因此增加一层。上下文长度的增加,并没有带来认知深度的延展。

这与Ilya强调的价值函数不谋而合。人类决策之所以高效,是因为大脑内置了奖惩机制:你不必输掉整盘棋才知道哪一步是臭棋,过程中就能获得负反馈信号。而Transformer缺乏这种内部评判系统,每次推理都必须从头扫描所有历史信息,如同每次做决定都要翻一遍人生流水账。这种“快思考”模式可以应付简短对话,却无法支撑需要多步推演的复杂任务。

对于未来的自主智能体而言,若继续沿用这种将所有记忆平铺处理的架构,不仅在算力上不可持续,在逻辑上也必将走向死胡同。

视觉失语与物理世界的代沟

Transformer的困境不止于语言与逻辑,更暴露于它理解物理世界时的先天缺陷。

李飞飞认为:“仅靠语言训练无法抵达通用人工智能。”当前视频生成模型大多将“预测下一个词”简单移植为“预测下一帧”,导致生成内容缺乏时空一致性,物体消失、重力倒转等反物理现象屡见不鲜。

更深层的问题在于样本效率。Ilya发问:为何一个青少年只需十几个小时的练习就能掌握驾驶,而AI却需要消耗相当于人类几辈子才能看完的数据量?

答案在于“先验”。人类拥有亿万年进化淬炼出的本能——视觉皮层天生擅长解析三维结构,镜像神经元让我们通过观察就能模仿,痛觉与恐惧更是内置的价值函数。我们不需要目睹一百万次车祸才会避让,本能已为我们划定了安全边界。

何小鹏在大会上也表达了类似的洞察:物理世界的技能无法通过书本或视频真正习得,必须经由具身交互、试错反馈才能内化。目前的Transformer模型缺少这种内建于物理直觉的世界模型,只能试图用数据穷举来掩饰对因果规律的陌生。Ilya警告,互联网级别的文本与视频数据已是近似的上限,当规模扩大一百倍后,单纯的量变可能不再产生质变。

未来的物理AI需要的是一个内置三维结构、因果逻辑与物理约束的“认知容器”,而非仅靠统计下一帧像素的语言模型。

告别规模化崇拜,拥抱架构重构

如果Transformer并非终点,那么前路在何方?

Ilya给出了清晰的阶段划分:我们正在告别2019至2025的“规模化时代”,重返2012至2020的“研究时代”。这不是倒退,而是螺旋上升——如今我们手握海量算力,却需要全新的配方来催化下一阶段智能。

李飞飞创办的World Labs正致力于构建具备“空间智能”的模型,试图打通感知、想象与行动的闭环。未来的架构大概率是混合体:内核是高度抽象的因果逻辑表征,外层是丰富多彩的感官接口。

张祥雨则透露了“非线性RNN”这一极具潜力的方向。此类架构允许信息在神经元内部循环、反刍、迭代,不再局限于单向流动。这正呼应了Ilya的设想:模型需要内置类似人类的“价值函数”,在输出最终答案之前,进行多轮内部模拟与自我修正。

Ilya强调,下一波突破的关键在于让AI具备持续学习的能力,而非固化为静态预训练成品。这要求更高效的强化学习范式,从模仿专家的行为(Student A)进化为习得专家的直觉与品味(Student B)。

一旦底层架构发生剧变,整个AI产业链也将随之洗牌。

目前的硬件生态——从英伟达GPU集群到高速互联协议——几乎是为Transformer的矩阵运算量身定制的。倘若非线性RNN或其他图算融合架构成为主流,专用芯片的优势可能被削弱,而通用GPU的灵活性将重新成为核心壁垒。

数据的价值坐标系亦将重构。视频、传感器流、机器人交互轨迹等蕴含物理因果的数据,将成为比纯文本更稀缺的“数字石油”。

结语

访谈尾声,李飞飞说了一句意味深长的话:“科学的演进从来不是单一路径的线性延伸,而是多代际思想的无规则涨落。

我们习惯了英雄叙事:牛顿发现了万有引力,爱因斯坦创立了相对论,Transformer开启了深度学习时代。但事实上,科学是一条无数支流汇聚、改道、回流的大河。

Transformer是一座辉煌的里程碑,但它大概率不是终点。它在因果推理、物理常识、无限上下文等根本问题上的先天局限,注定使其成为通向AGI道路上的一块关键跳板,而非最后的钥匙。

李飞飞说架构突破就在未来五年,Ilya宣告规模化红利已见顶,张祥雨断言Transformer支撑不了下一代Agent——这不是对过往成就的否定,而是一次清醒的集体自省,是提示整个行业:不要在舒适区里固步自封。

未来五年,我们或将目睹Transformer逐渐退居幕后,成为更宏大系统中的子模块,而一种融合空间智能、具身交互、因果推理与持续学习的新架构将登上舞台中央。

对于身处变革节点的科技企业而言,这既是颠覆性的挑战,更是又一次改写竞争格局的历史机遇。