当前位置:首页 > 科技资讯 > 正文

AI进化新篇章:嵌套学习挑战Transformer局限

借鉴人类联想记忆机制,嵌套学习使AI在运行时构建抽象结构,突破Transformer局限。谷歌团队强调,优化器与架构需协同进化,实现真正持续学习。此论文或成经典,引领AI从被动训练迈向主动进化。

长久以来,「灾难性遗忘」一直是AI界难以逾越的障碍,而今,这一难题或许迎来了曙光。

过去一年,AI领域取得了飞速发展,仅谷歌DeepMind的成就便令人瞩目:

若要在2025年挑选最重要的研究或产品,嵌套学习「Nested Learning」无疑是DeepMind的一大亮点。

有网友在研读论文后表示,这堪称《Attention is All you Need》的「续集」。

Transformer开启了Scaling时代,而嵌套学习,或许正引领我们步入真正的AGI时代。

DeepMind创始人Shane Legg更是直言,嵌套学习是通往AGI的最新进展。

甚至有网友认为,若要为未来外星人留下一篇论文,非此《嵌套学习》莫属。

AI进化新篇章:嵌套学习挑战Transformer局限 嵌套学习 Transformer 持续学习 AGI 第1张

AI进化新篇章:嵌套学习挑战Transformer局限 嵌套学习 Transformer 持续学习 AGI 第2张

AI进化新篇章:嵌套学习挑战Transformer局限 嵌套学习 Transformer 持续学习 AGI 第3张

AI进化新篇章:嵌套学习挑战Transformer局限 嵌套学习 Transformer 持续学习 AGI 第4张

若要实现AGI,需克服多项挑战,而持续学习无疑是关键一环。谷歌已发表多篇相关论文。

AI进化新篇章:嵌套学习挑战Transformer局限 嵌套学习 Transformer 持续学习 AGI 第5张

这些论文的共同作者,是康奈尔大学计算机科学系二年级博士生、谷歌研究院(纽约)研究实习生Ali Behrouz。

AI进化新篇章:嵌套学习挑战Transformer局限 嵌套学习 Transformer 持续学习 AGI 第6张

Transformer的记忆短板

Transformer在诸多方面表现卓越,能Scaling、推动AI跨越,实现跨任务、跨领域的泛化能力。

但谷歌早已意识到:Transformer并不完美。

  • 长上下文处理效率低
  • 抽象知识层级有限
  • 适应性弱
  • 缺乏持续学习能力

特别是持续学习能力,Ali认为这是最关键的问题。

提到「持续学习」,我们指的是:没有训练期,也没有测试期;模型在使用过程中,持续塑造新的记忆和抽象结构。人类天生具备此能力。

然而,今天的大语言模型几乎无法做到持续学习。

为阐明问题本质,Ali借助医学类比:顺行性遗忘症(Anterograde Amnesia)。

此病患者特征如下:

  • 短期记忆正常
  • 长期记忆也在

但问题在于:短期记忆无法转化为长期记忆。

AI进化新篇章:嵌套学习挑战Transformer局限 嵌套学习 Transformer 持续学习 AGI 第7张

于是,他们永远活在「现在」。新的经历进来,过一会儿就消失;世界在变,但他们的大脑不再更新。

将这一病症套用在LLM(大语言模型)上,你会发现它们与人类患者一模一样。

一切AI皆是「联想记忆」

若想让AI具备持续学习能力,需解决一个根本问题:模型是如何记住东西的?

Ali给出的答案是:联想记忆(Associative Memory),而非Transformer或参数量。

所谓「联想记忆」,是人类学习机制的基石。它的本质,是通过经验将不同事件或信息相互关联。

  • Key:线索
  • Value:与之关联的内容

关键在于,联想记忆的映射关系不是预先设定的,而是「学出来的」。

从某种角度看,注意力机制本质上就是一种联想记忆系统:它学习如何从当前上下文中提取key,并将其映射到最合适的value,从而产生输出。

嵌套学习专治LLM失忆症

基于NL(嵌套学习)观点,谷歌团队使用反向传播和梯度下降训练深度神经网络,本质上是一个压缩与优化问题,旨在训练一种联想记忆,将各层输入映射到其预测中的局部误差。

优化器与架构并非独立存在,它们应互为上下文、协同进化。