12月18日,2025腾讯ConTech大会暨腾讯科技Hi Tech Day如期举行,中国工程院院士、知名专家学者、头部科技企业创始人及资深投资人汇聚一堂,共同探讨智能时代的技术前沿与产业变革。在圆桌讨论环节,阶跃星辰首席科学家张祥雨抛出一个引发深思的观点:当前的Transformer架构已难以支撑下一代智能体(Agent)的发展需求。
几乎同一时间,斯坦福大学教授、“AI教母”李飞飞也在一次深度访谈中表达了类似看法。她指出,现有的Transformer架构可能无法催生如相对论那样的高级抽象思维,未来五年内,行业亟需一种全新的架构突破,推动AI从统计相关性迈向真正的因果逻辑与物理推理。而前OpenAI联合创始人、GPT系列核心缔造者Ilya Sutskever则在近期访谈中强调,单纯依赖算力与数据堆砌的“规模化时代”正触及天花板,行业重心正回归至底层创新的“研究时代”。
过去七年,从Google的BERT到OpenAI的GPT系列,再到异军突起的DeepSeek,几乎所有颠覆性AI模型均基于Transformer架构。它助推英伟达市值飙升,也为无数创业公司赢得资本青睐。然而,如今最懂它的人开始发出质疑:当Scaling Law(尺度定律)的边际效益递减,当万亿参数模型仍无法像人类般在物理世界中自如行动时,我们不得不正视一个问题:曾被寄予厚望引领通往AGI的Transformer,是否已然触及发展天花板?
2017年之前,自然语言处理(NLP)的主流架构是RNN(循环神经网络)与LSTM(长短期记忆网络)。它们像一位按部就班的读者,必须逐字阅读,效率低下且难以捕捉长距离语义关联。而2017年Google那篇里程碑式论文《Attention Is All You Need》彻底颠覆了这一格局。Transformer架构摒弃循环,引入“自注意力机制”,能够同时关注句中所有词语并计算其关联权重,使得并行计算成为可能。只要算力与数据充足,模型便能涌现出惊人的智能,这便是后来广为人知的Scaling Law。
Transformer与GPU的结合,犹如内燃机遇上石油,引爆了第三次工业革命级的人工智能浪潮。然而,李飞飞指出,生成式AI最关键的突破之一——预测下一个Token——本质上仍是一个统计学的极致体现。模型读遍互联网所有文本后,当你输入“从悬崖跳下”,它大概率会接“坠落”而非“飞翔”,这源于海量数据的概率拟合,而非真实物理理解。Ilya则用一个生动的比喻形容:当前的模型就像为编程比赛苦练一万小时的学生,背下所有算法和题型,通过数据增强覆盖所有盲区,看似能拿高分,实则只是记忆提取。相比之下,一个真正有天分的学生可能仅练习一百小时,却拥有深刻的品味与直觉,具备真正的泛化能力。Ilya认为,模型缺乏那种能使其真正掌握推理的内在特质,它们学会了迎合评估标准,却未习得因果逻辑。
李飞飞补充道:“目前多数生成式视频中的水流或树木摆动,并非基于牛顿力学计算,而是数据统计的涌现。”换句话说,AI只是模仿了无数次水流的表象,并未理解水分子张力与重力加速度。Transformer是一条完美的曲线拟合器,它能无限逼近现实,却无法推导出现实背后的物理规则——它只有相关性,没有因果性。
2025年,长文本处理成为AI行业热门趋势,但在张祥雨看来,这或许是一个陷阱:“我们今天的Transformer,无论宣称支持多长上下文,实际到8万个Token左右便基本不可用……即便上下文长度能扩展,测试结果也通常在8万处显著退化。”这种退化并非指模型记不住,而是其“智商”随文本变长急剧下降。张祥雨揭示了背后的数学原理:Transformer的信息流是单向的,所有信息只能从第L-1层流向第L层,无论上下文多长,模型深度始终固定为L层。思考深度不会因“书本变厚”而加深。
这与Ilya强调的“价值函数”概念不谋而合。他指出,人类之所以高效,是因为拥有内在的价值函数——你无需下完一盘国际象棋才意识到丢子是错误的,中间过程便能获得反馈信号。而目前的Transformer缺乏这种机制,它必须平铺所有信息,每次决策都需翻阅“一生的流水账”,类似人类的快思考直觉反应,却无法进行慢思考深度推理。Ilya认为,真正的智能不仅是预测下一个Token,更是在行动前通过内部价值函数预判路径优劣。对于未来需在无限流世界中生存的Agent而言,若继续沿用Transformer这种平铺记忆的架构,不仅在计算上不可持续,逻辑上也难以行通。
Transformer的局限不仅限于语言与逻辑,它在理解物理世界时同样力不从心。李飞飞直言:“仅靠语言不足以构建通用人工智能。”当前Transformer处理视觉任务时,常简单套用预测下一词的方法来预测下一帧,导致生成的视频缺乏时空一致性。更深层的问题在于样本效率——为何青少年只需十几个小时就能学会开车,而AI却需要海量数据训练?Ilya认为答案在于“先验知识”:人类拥有进化赋予的直觉(由情绪和本能构成的价值函数),无需目睹百万次车祸便能学会避让,生物本能让我们对物理危险有天然感知。何小鹏在大会上也表达了类似观点:书本无法教会走路,物理世界的技能必须通过交互习得。
目前的Transformer模型缺乏基于物理和生物直觉的世界模型,试图用穷举数据来掩盖对物理规律认知的匮乏。Ilya警告,预训练数据的红利终将耗尽,当规模扩大百倍后,量变可能不再带来质变。物理AI需要的是一个内置3D结构、因果逻辑与物理规律的“数字容器”,而非仅靠概率猜测下一帧画面的语言模型。
若Transformer可能走向死胡同,未来路在何方?Ilya给出了宏观判断:我们正告别“规模化时代”(2020-2025),重返“研究时代”(2012-2020)。这不是历史的倒退,而是螺旋式上升——如今我们拥有巨大算力,但需要寻找新的配方。这个新配方不会是单一技术的修修补补,而是一场系统性重构。李飞飞的World Labs致力于构建具备“空间智能”的模型,建立看、做与想象的闭环。未来的架构极可能是一种混合体:内核是高度抽象的因果逻辑(隐式),接口是丰富多彩的感官世界(显式)。
张祥雨透露了“非线性RNN”这一前瞻方向,这种架构不再单向流动,而是能在内部进行循环、反刍与推理,正如Ilya所设想的,模型需要具备像人类一样的“价值函数”,在输出结果前进行多步内部思考与自我修正。Ilya认为,未来突破在于如何让AI拥有“持续学习”能力,而非静态的预训练成品,这需要更高效的强化学习范式,从单纯模仿(Student A)转向具备直觉与品味的专家(Student B)。
底层架构的剧变将引发产业链洗牌。当前硬件基础设施(从英伟达GPU集群到各种通讯互联)多为Transformer量身定制。一旦架构转向非线性RNN或其他图算结合模式,专用芯片可能面临挑战,而通用GPU的灵活性将再次成为护城河。数据的价值也将被重估:视频数据、物理世界传感器数据、机器人交互数据将成为新的石油。
李飞飞在访谈结尾留下一段意味深长的话:“科学是多代人思想的非线性传承。”我们常偏爱单一英雄神话——牛顿发现物理定律,爱因斯坦发现相对论,Transformer开启AI时代。但实际上,科学是一条河流,无数支流汇聚、改道、回流。Transformer是一座丰碑,但它或许不是终点。它让我们瞥见智能的曙光,但在因果推理、物理理解和无限上下文上的先天缺陷,注定它只是通往AGI道路上的一块垫脚石,而非最终钥匙。
李飞飞呼吁行业寻找新的架构突破,Ilya宣告规模化时代已过,张祥雨直言Transformer无法支撑下一代Agent——这些并非全盘否定其历史功绩,而是提醒我们:不要在舒适区里沉睡。未来五年,我们或许会看到Transformer逐渐退居幕后成为子模块,而一种融合空间智能、具身交互与深度逻辑推理的新架构将走上台前。对于身处其中的科技公司而言,这既是巨大挑战,也是又一次难得机遇。
本文由主机测评网于2026-03-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260329676.html