借鉴人类联想记忆机制,嵌套学习使AI在运行时构建抽象结构,突破Transformer局限。谷歌团队强调,优化器与架构需协同进化,实现真正持续学习。此论文或成经典,引领AI从被动训练迈向主动进化。
长久以来,「灾难性遗忘」一直是AI界难以逾越的障碍,而今,这一难题或许迎来了曙光。
过去一年,AI领域取得了飞速发展,仅谷歌DeepMind的成就便令人瞩目:
若要在2025年挑选最重要的研究或产品,嵌套学习「Nested Learning」无疑是DeepMind的一大亮点。
有网友在研读论文后表示,这堪称《Attention is All you Need》的「续集」。
Transformer开启了Scaling时代,而嵌套学习,或许正引领我们步入真正的AGI时代。
DeepMind创始人Shane Legg更是直言,嵌套学习是通往AGI的最新进展。
甚至有网友认为,若要为未来外星人留下一篇论文,非此《嵌套学习》莫属。
若要实现AGI,需克服多项挑战,而持续学习无疑是关键一环。谷歌已发表多篇相关论文。
这些论文的共同作者,是康奈尔大学计算机科学系二年级博士生、谷歌研究院(纽约)研究实习生Ali Behrouz。
Transformer在诸多方面表现卓越,能Scaling、推动AI跨越,实现跨任务、跨领域的泛化能力。
但谷歌早已意识到:Transformer并不完美。
特别是持续学习能力,Ali认为这是最关键的问题。
提到「持续学习」,我们指的是:没有训练期,也没有测试期;模型在使用过程中,持续塑造新的记忆和抽象结构。人类天生具备此能力。
然而,今天的大语言模型几乎无法做到持续学习。
为阐明问题本质,Ali借助医学类比:顺行性遗忘症(Anterograde Amnesia)。
此病患者特征如下:
但问题在于:短期记忆无法转化为长期记忆。
于是,他们永远活在「现在」。新的经历进来,过一会儿就消失;世界在变,但他们的大脑不再更新。
将这一病症套用在LLM(大语言模型)上,你会发现它们与人类患者一模一样。
若想让AI具备持续学习能力,需解决一个根本问题:模型是如何记住东西的?
Ali给出的答案是:联想记忆(Associative Memory),而非Transformer或参数量。
所谓「联想记忆」,是人类学习机制的基石。它的本质,是通过经验将不同事件或信息相互关联。
关键在于,联想记忆的映射关系不是预先设定的,而是「学出来的」。
从某种角度看,注意力机制本质上就是一种联想记忆系统:它学习如何从当前上下文中提取key,并将其映射到最合适的value,从而产生输出。
基于NL(嵌套学习)观点,谷歌团队使用反向传播和梯度下降训练深度神经网络,本质上是一个压缩与优化问题,旨在训练一种联想记忆,将各层输入映射到其预测中的局部误差。
优化器与架构并非独立存在,它们应互为上下文、协同进化。
本文由主机测评网于2026-06-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260647779.html