近日,谷歌在《Nested Learning: The Illusion of Deep Learning Architectures》论文中,提出了一个名为HOPE的创新框架,旨在攻克大模型在长期记忆方面的难题。
该架构引发广泛关注,原因在于长期记忆始终是大模型发展的瓶颈,也深刻影响着人工智能向智能体应用转化的广度与深度。
如今,让AI生成一段流畅回答已非难事,但难点在于,经过一周或更换任务后,它能否记住此前对话中的关键细节,并持续更新对用户的个性化认知。只有达到这一点,大模型才真正向“持续运行的智能体”迈进,而非一次性工具。
可以说,大模型的“短期能力”仅决定其能否流畅表达,而长期记忆才真正决定它是否有资格被称作“助手”。
正因如此,去年年末谷歌团队提出的Titans架构,在2025年仍被频繁提及,并不令人意外。该论文试图解答的并非“上下文还能扩展到多长”这类旧问题,而是一个更根本的命题:
当注意力机制仅能处理短期记忆时,大模型究竟如何才能获得真正的长期记忆?
在Titans中,Transformer的自注意力机制被明确定义为“短期系统”,而独立的神经长期记忆模块则负责跨越上下文窗口,有选择地存储和调用关键信息。这一思路几乎重塑了大模型的“大脑结构”。
回顾这一年,从谷歌Titans到字节MemAgent,再到谷歌Hope架构,大模型的长期记忆领域确实取得了实质性突破。
过去一年,无论是谷歌在此基础上扩展的多时间尺度记忆体系,还是业界围绕超长上下文、智能体记忆、外部记忆中台的密集探索,都指向同一趋势:长期记忆正从工程补丁转变为大模型能力的核心维度。
模型竞争不再仅限于上下文窗口长度和参数量,而是转向谁能记得更有选择性、更稳定、更“像人”。大模型的长期记忆已不再是论文中的性能指标,而是决定其能否被长期使用、值得信赖的关键能力。
今年8月中旬,谷歌为Gemini推出两项重大更新:基于聊天上下文的“自动记忆”功能,以及保护隐私的“临时聊天”模式。
顾名思义,“自动记忆”指Gemini通过学习用户历史聊天记录,记忆对话中的关键细节、用户偏好、长期项目背景、重复出现的需求等,从而在后续回答中实现主动个性化回应。
类似变化并非Gemini独有。过去一年,从ChatGPT、豆包到11月推出的讯飞星火X1.5,几乎所有主流AI助手都通过引入“长期记忆模块”,努力使大模型在跨会话、跨场景中保持连续性,让AI能够更新并记忆用户画像、历史任务状态及关键决策信息。
然而,追溯源头,这一波产品层面的变化并非孤立发生,而是2025年大模型底层技术演进的直接结果。
首先被重新确认的是,长上下文并非大模型记忆的终点。
超长上下文依然重要,但日益被视作“放大的短期记忆”——成本高昂,且无法判断哪些信息值得长期保留。而Titans的意义不在于拉长窗口,而在于明确区分:注意力仅为短期系统,长期记忆必须是一个可持续更新的组件。
11月,谷歌进一步提出将模型训练过程视作一层记忆(Nested Learning),并推出升级版Hope架构,将“记忆”理解为多时间尺度的连续体,短期上下文、中期状态、长期经验不再是割裂模块,而是按更新频率和稳定性分布在同一学习系统中。
Hope与Titans、Transformer架构在困惑度(左)和常识推理(右)上的对比,图片来源:谷歌
与此同时,长期记忆的重心正从“记住文本”转向“记住经验”。过去常用向量数据库或知识库做RAG,将其视为模型的“外部硬盘”。但现在这种做法正被重新审视:长期记忆不仅要检索答案,更要参与推理过程,影响模型的决策与行为。
同样在11月,谷歌推出Evo-Memory基准测试和ReMem框架,明确将长期记忆置于智能体工作流中考察:模型能否在连续任务中提炼经验、复盘策略,并在后续任务中实际运用。长期记忆不再仅为对话服务,而是直接决定智能体是否具备持续进化能力。
事实上,字节跳动与清华联合提出的MemAgent,通过强化学习训练模型在超长上下文中“学会取舍”,使模型主动形成长期记忆习惯,而非被动堆叠文本。这些工作虽路径不同,但均指明长期记忆必须逐步内化为模型能力,而非单纯工程外挂。
今年初,MiniMax宣布开源首个线性注意力架构大模型,官方指出当前智能体的“长期记忆”大多仅为外挂RAG工具,严格意义上并非记忆。
事实确实如此。早期实践中,向量数据库加RAG几乎是默认方案:需要记住什么就检索什么。但随着智能体逐步承担多步骤任务,这种“查完就走”的记忆方式开始显得力不从心。
近期,豆包手机引发业界对AI手机的广泛讨论,实际上豆包在Agent体系中对长记忆的探索颇具代表性,其长期记忆被拆解融入整个工作流,用于保存用户画像、任务状态、阶段性结论乃至失败经验。
MemAgent基本结构,图片来源:字节跳动
MemAgent这类方案,本质上并非扩展上下文长度,而是训练模型理解哪些信息会影响后续决策。简言之,记忆不再是查阅资料,而是参与判断。
从这个视角看,字节与清华联合提出的MemAgent并非孤立学术工作。其关注点并非如何压缩文本或扩展容量,而是通过强化学习,让模型在超长上下文和连续任务中逐步学会“取舍”。模型需理解哪些信息值得保留,哪些仅适合短期使用,甚至哪些应被主动遗忘。
这背后体现了一种明确判断:长期记忆若不能改变模型的行动策略,本质上仍只是工程缓存。
如前所述,无论是行业实践,还是围绕智能体的多种系统设计,均在强调对“过程信息”的保留。这也解释了为何强化学习开始被用于“记忆行为”的训练,而非单纯扩大知识库。
与之不同,MiniMax今年初通过线性注意力等架构创新,将模型可处理的上下文扩展至百万乃至数百万token级别。
这并非单纯刷新指标,而是试图用容量换取系统简化。当模型一次性能稳定“看见”更多内容时,部分原本需频繁调度、反复检索的外部记忆,可暂时纳入上下文视野。
但MiniMax的实践并未止步于“超长上下文窗口”。
相反,他们在此基础上进一步引入独立记忆层,用于管理长期知识与经验。先解决“装不装得下”,再讨论“该不该留下来”。在此框架下,长期记忆不再完全依赖频繁RAG调用,而是通过更大的模型内视野与更少的系统切换,降低整体复杂度。
而DeepSeek的策略则构成有意义的对照。DeepSeek未在模型侧押注复杂长期记忆机制,而是将其明确外置,通过RAG、向量库或各类记忆组件实现。这并非回避问题,而是基于更克制的判断:
长期记忆高度依赖具体场景,不同应用所需的记忆形态差异巨大,与其在模型中“一刀切”,不如提供高质量推理核心,让开发者自行组合记忆方案。
2025年,大模型长期记忆真正改变的并非某一指标刷新,而是其角色定位被彻底重塑。从早期依赖RAG的“外接硬盘”,到如今逐步融入模型结构与智能体工作流,长期记忆开始成为影响决策、塑造行为的一部分,而不仅是被动存储信息的容器。
或许可以说,未来大模型间的真正差异,将不再仅体现于模型规模或推理速度,更在于一套成熟、可控、可持续演化的记忆机制。因为唯有模型真正记得住、管得住,它才有可能被长期使用、反复依赖,甚至被赋予更大的决策权。
本文由主机测评网于2026-03-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260328069.html