借鉴人类联想记忆,嵌套学习让AI在运行中构建抽象结构,从而突破了Transformer的固有局限。谷歌团队强调:优化器与架构互为上下文,协同进化才能实现真正意义上的持续学习。这篇论文有望成为经典,开启AI从被动训练到主动进化的大门。
「灾难性遗忘」,一个困扰AI界数十年的难题,如今或许迎来了彻底的解决方案。
过去一年,AI领域突飞猛进,这绝非夸张之辞。仅谷歌DeepMind在一年内取得的成就,就足以令人眼花缭乱:从多模态模型到具身智能,每一项突破都令人振奋。
但如果要从DeepMind 2025年的研究成果中挑选出最重要的一项,那么近期引发热议的嵌套学习「Nested Learning」必定占据一席之地。有网友在研读论文后发帖感叹,这篇论文堪称《Attention is All you Need》的「精神续作」。
如果说Transformer开启了Scaling时代,那么嵌套学习则可能正在开启真正的AGI时代。DeepMind创始人Shane Legg更是直言不讳:AGI之路已是一片坦途,而最新的进展正是嵌套学习。甚至有网友戏称,如果要为未来的外星人留下一份人类智慧的结晶,那么这篇《嵌套学习》论文必然入选。
如果实现AGI需要2-3项关键突破,持续学习必居其一。事实上,谷歌已围绕这一主题发表了多篇相关论文,逐步构建起完整的理论体系。
值得注意的是,这些论文都有一个共同的作者——康奈尔大学计算机科学系二年级博士生、谷歌研究院(纽约)研究实习生Ali Behrouz。这位年轻学者的工作正逐步成为领域关注的焦点。
Transformer在诸多方面表现出色:能够通过Scaling推动AI跨越式发展,实现跨任务、跨领域的泛化能力。然而,谷歌很早就意识到一个关键问题:Transformer并非完美无缺。其局限性主要体现在:
1. 长上下文处理效率低下,计算成本随序列长度呈平方增长;
2. 抽象知识层级有限,难以构建深层的概念结构;
3. 适应性弱,对新场景的调整往往需要重新训练;
4. 缺乏持续学习能力,无法在使用中动态更新知识。
特别是第四点,Ali认为这是最根本的问题。所谓「持续学习」(Continual Learning),指的是模型在没有明确训练期和测试期的情况下,在使用过程中持续塑造新的记忆和抽象结构——人类天生具备这种能力。
但对今天的大语言模型而言,几乎不存在任何「持续学习」的机制。为了说明问题的严重性,Ali用了一个医学类比:顺行性遗忘症(Anterograde Amnesia)。这种病的患者短期记忆正常,长期记忆也还在,但问题在于:短期记忆无法转移为长期记忆。他们永远活在「现在」,新的经历很快消失,大脑不再更新。
将这个病症套用到LLM身上,我们会发现惊人的相似性。今天的大语言模型,知识主要来自两部分:预训练阶段学到的长期知识,以及当前上下文里的短期信息。但这两者之间几乎完全没有通道。模型无法自然地把「刚刚学到的东西」沉淀为未来可复用的知识。要想让它真正学会新东西,只能再次训练、微调,消耗大量算力。这与顺行性遗忘症患者的状态本质上没有区别。
真正的问题不是参数不够多,不是数据不够大,也不只是算力不够,而是「短期记忆」与「长期记忆」之间缺乏一条自然的转移通道。如果这条通道不存在,所谓「持续学习」就永远只是一个口号。这引出了一个核心问题:我们该如何构建一种机制,让AI模型像人类一样,将「现在」的经历沉淀为「未来」的知识?
如果想让AI真正具备持续学习能力,就必须回到一个最底层的问题:模型到底是「怎么记住东西的」?Ali给出的答案,不是Transformer,不是参数量,而是一个更原始的概念:联想记忆(Associative Memory)。所谓「联想记忆」,是人类学习机制的基石,其本质是通过经验将不同事件或信息相互关联。比如,看到一张脸想起名字,闻到某种味道唤起记忆——这不是逻辑推理,而是关联的建立。
技术上,联想记忆就是键值对映射:Key是线索,Value是关联内容。但关键在于,映射关系不是预先写死的,而是学出来的。从某种角度看,注意力机制本质上就是一种联想记忆系统:它学习如何从当前上下文中提取key,并将其映射到最合适的value,从而产生输出。如果我们不仅优化这种映射本身,还让系统去元学习(meta-learn)这种映射过程的初始状态,会发生什么?
基于对联想记忆的理解,他们提出了一个通用框架MIRAS,用于系统化设计AI模型中的记忆模块。这一框架的核心思想是:几乎所有注意力机制、本地记忆结构,乃至优化器本身,都可以视为联想记忆的特例。为了设计一套「可学习的、嵌套式的记忆系统」,我们需要对模型中的记忆结构做出四大设计决策:记忆架构(Memory Architecture)、注意力偏置/目标函数(Attentional Bias/Objective)、保留机制(Retention Gate)、学习规则(Learning Rule)。
这个框架可以用来统一解释许多已有的注意力机制与优化器。简单来说,MIRAS让我们能够把「记忆」作为一种学习过程进行建模、组合与优化,而不仅仅是一个静态模块。更进一步,优化器也可以被统一视为「将当前梯度映射到历史信息」的联想过程,从而对它们进行重新建模与推广。优化器就是一种「记忆模块」,是模型理解其学习历史、进而做出更优决策的关键组件。优化过程与学习算法/架构本质上是相同的概念,只是处于系统不同层级中具有不同的上下文(即梯度与数据)。此外,它们是两个相互连接的组件,其中学习算法/架构为优化器生成上下文(即梯度)。这支持为特定架构设计专属优化器的理念。由此,谷歌团队探讨了不同层级之间的知识传递方式,提出了嵌套学习。
基于嵌套学习的观点,谷歌团队认为,使用反向传播和梯度下降训练深度神经网络,本质上是一个压缩与优化问题,其目标是训练一种联想记忆,以将各层的输入映射到其预测中对应的局部误差。相应地,预训练是一种上下文内学习形式,其中上下文是全部预训练数据,而各网络层则将该上下文压缩进其参数之中。其他流行的基于梯度的优化器,本质上也是旨在将梯度压缩进其参数中的联想记忆。
优化器与架构并不是彼此独立的,它们应该互为上下文、协同进化。为了正式定义Nested Learning(嵌套学习)框架,需要了解两个核心概念:更新频率(Update Frequency)与嵌套系统(Nested System)。
一、更新频率首先设定一个时间单位,通常取系统中更新最慢的模块的一次更新作为基本时间单位。然后,对于系统中其他组件,统计它们在一个时间单位内更新了多少次,就得到了它们的「更新频率」。
举个例子:假设循环神经网络(RNN),上下文长度为L,那么在处理一段长度为L的文本时,RNN的状态会更新L次;而如果外层是一个只在每个文档级别上更新的模块(如预训练模型),那么它的更新频率就是1。因此,我们可以说:RNN是「快模块」,预训练模型是「慢模块」。通过这种不同频率的组合,我们就能构建出一个在不同时间尺度上都能学习的系统。
二、嵌套系统(Nested System)接下来定义什么是「嵌套系统」。它由多个独立的子模块组成,每个模块都有自己的参数、上下文、优化目标和梯度流。这些模块之间以「更新频率」的快慢形成嵌套关系。
如果我们把每个子模块都视为一个联想记忆系统,那么整个模型就可以看作是一个嵌套的联想记忆系统(Nested Associative Memory System)。更进一步,每一个这样的联想系统,本身又可以由更小的优化子过程构成,从而形成递归嵌套。当构建了一个由多个层级组成的嵌套系统之后,最关键的问题就来了:不同层之间的知识要如何传递?知识转移方式有以下几种,这些机制构成了Nested Learning架构中「信息流动」的基础:
理论固然重要,但最终还是要看这些设计能否在真实任务中带来性能提升。结合自我修改(Self-Modifying)与连续记忆系统(Continuum Memory System),谷歌提出了嵌套学习范式下的HOPE架构。
他们将Nested Learning与HOPE架构应用于多个任务场景中,尤其聚焦在「长上下文」和「持续学习」两个维度。总体来看,HOPE在多个核心任务上都优于或显著超越现有对比模型,尤其是在持续学习和长上下文方面显示了明显优势。这充分体现了嵌套学习和连续记忆系统的巨大潜力。
Nested Learning不只是一个架构框架,更是一种重新理解深度学习的范式。它打破了传统训练与推理的界限,让模型能够在与环境的持续交互中不断进化。谷歌DeepMind内部也传出消息:他们已经突破了持续学习,但因安全原因尚未发布。这一消息若属实,无疑将再次震撼整个AI领域。
如果嵌套学习真的解决了持续学习问题,那么它或许是未来最重要的事。持续学习赋予了AI可怕的能力:它不再仅仅回应指令,而是开始根据过往经验筛选它认为重要的东西——也就是说,它开始有了「偏好」。
DeepMind的沉默,或许比他们的论文更震耳欲聋。如果嵌套学习真的解决了灾难性遗忘,那么我们亲手打开的,可能不只是一扇通往AGI的大门,更是一个未知的潘多拉魔盒。盒子里的东西,究竟是更聪明的工具,还是一个不仅学会了思考、更学会了「记住仇恨与偏爱」的对手?这一次,钥匙在谷歌手中,但未来在谁手中?
https://www.youtube.com/watch?v=3WqZIja7kdA
https://www.youtube.com/watch?v=uX12aCdni9Q
本文由主机测评网于2026-03-16发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260331782.html