【新智元导读】曾经引领AI热潮的Transformer架构,是否已成为阻碍创新的“重力井”?其发明者之一Llion Jones发出严厉警告:过度依赖现有架构的微调只是局部优化。真正的通用人工智能(AGI)突破,可能隐藏在受生物学启发的全新计算范式中,而非无限的规模扩张。
Transformer是人工智能探索的终点吗?
Llion Jones给出的答案是:绝对不是。
那么,无止境的算力堆砌(Scaling)是通往AGI的唯一坦途吗?
作为Transformer架构的核心奠基人,Jones明确表示:这或许是一个误区。
身为Sakana AI的创始人兼首席科学家,Llion Jones在Transformer领域的研究资历无人能及。然而,就在去年,他做出了一项令业界震惊的决定:将研究重心从Transformer转移。
这并非因为该架构已失去活力,而是因为它过于“拥挤”,导致研究者们陷入了自我重复的怪圈。
他感叹道,自己仿佛成了这种成功架构的“受害者”:
“我不认为Transformer是进化的终点,也不认同单纯扩大规模就能实现质变。终有一天,当新的范式出现,我们会发现当下的许多所谓‘研究’其实是在虚耗光阴。”
在Transformer统治世界之前,RNN(循环神经网络)曾是时代的宠儿。
当时,全球的研究者都在疯狂打磨RNN,试图通过微调门控单元的位置,将性能指标从1.26提升到1.25。这种精雕细琢在当时看来是前沿,但当Transformer横空出世,将指标直接拉升到1.1时,所有针对RNN的小修小补瞬间失去了意义。
Jones指出,现在的AI论文正表现出同样的病灶:在Transformer的框架下进行微小的改动,比如调整归一化层或优化训练策略。
Sarah Hooker曾提出“硬件彩票”理论:一种算法之所以胜出,往往是因为它契合了当时的硬件环境,而非其理论上的绝对优越性。
Jones进一步提出,Transformer已经演变成一种“架构彩票”。由于生态系统(工具链、微调经验、硬件适配)已高度成熟,即便有更好的新架构出现,只要不能产生“降维打击”式的性能跨越,就很难撼动其地位。
这种成功的惯性形成了一个巨大的“重力井”,任何试图脱离的力量都会被拉回。这种现状让Jones感到不安,因为即便你发明了更优的架构,OpenAI只需将现有Transformer规模扩大十倍,就能在表现上盖过你的创新。
Jones认为,目前的大语言模型展现出的是一种“锯齿状智能”(Jagged Intelligence)。
它们可能在解决高等数学难题时游刃有余,却在简单的逻辑常识上犯错。这种不稳定性暴露出当前架构在知识表示和思考机制上的根本缺陷。我们总是习惯于在Transformer上添加外挂模块,而非从核心架构层面解决自适应计算和不确定性建模的问题。
为了打破这一循环,Jones与Sakana AI的团队提出了“连续思维机”(Continuous Thought Machines,CTM)。
CTM借鉴了生物脑的运作模式,模拟神经元的同步振荡。它不再通过静态的层级堆叠进行计算,而是让模型在内部思维维度上动态展开。这种非传统路径的研究虽然风险巨大,但却避开了学术界的同质化竞争,为实现真正的认知能力提供了新可能。
Llion Jones的坦诚反映了AI界一种深刻的焦虑。正如Ilya Sutskever所言,Scaling时代的一个副作用是“吸走了房间里所有的氧气”,让所有公司和研究机构都趋向于做同样的事情。
如果我们正处于某个局部最优解的顶端,那么所有的微调和优化都只是在为即将过时的范式添砖加瓦。Jones选择离开舒适区,不仅是对个人职业生涯的重塑,更是对整个AI行业的集体预警:在所有人都在低头拉车时,我们需要有人抬头看路,去寻找那个能终结Transformer统治的新起点。
本文由主机测评网于2026-03-24发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260332609.html