近期,Google在论文《Nested Learning: The Illusion of Deep Learning Architectures》中推出了HOPE框架,这一新架构旨在攻克大模型长期记忆的难题。
该架构引发广泛关注,因为长期记忆一直是制约大模型发展的瓶颈,甚至影响AI在智能体应用中的广度与深度。
如今,让AI生成流畅回答已非难事,但挑战在于跨越时间与任务,它能持续记住关键细节并更新个性化记忆。只有当AI具备这种能力,它才真正迈向“持续工作的智能体”,而非一次性工具。
可以说,大模型的“短期能力”决定其表达是否通顺,而长期记忆则决定其是否有资格成为真正的“助手”。
正因如此,谷歌研究团队去年底提出的Titans架构,在2025年被频繁探讨不足为奇。该论文并非纠结于“上下文窗口能扩展多长”这类旧问题,而是直面更核心的命题:
当注意力机制仅作为短期记忆,大模型该如何构建真正的长期记忆系统。
在Titans架构中,Transformer的自注意力机制被明确定义为“短期系统”,而一个独立的神经长期记忆模块负责跨上下文窗口选择性存储和调用关键信息。这一思路几乎重塑了大模型的“大脑结构”。
回顾这一年,从谷歌Titans到字节MemAgent,再到谷歌Hope架构,大模型的长期记忆已取得实质性进展。
过去一年中,无论是谷歌拓展的多时间尺度记忆体系,还是行业围绕超长上下文、智能体记忆、外部记忆中台的密集探索,都指向同一趋势:长期记忆正从工程补丁,演变为大模型能力的核心维度。
模型竞争不再局限于窗口长度或参数规模,而是转向记忆的选择性、稳定性和拟人化。长期记忆不再仅是论文中的性能指标,而是决定“能否长期使用、是否值得信赖”的关键能力。
今年8月中旬,谷歌为Gemini推出了两项重要更新:基于聊天上下文的“自动记忆”功能,以及保护隐私的“临时聊天”模式。
所谓“自动记忆”,是指Gemini通过学习用户历史对话,记忆关键细节、偏好、长期项目背景和重复需求,并在后续交互中实现主动个性化响应。
类似变革并非Gemini独有。过去一年,从ChatGPT、豆包到11月发布的讯飞星火X1.5,几乎所有主流AI助手都通过引入“长期记忆模块”,努力实现跨会话、跨场景的连续性,使AI能更新并记忆用户画像、历史任务状态和关键决策信息。
然而,向上追溯,这波产品层变化并非孤立事件,而是2025年大模型底层技术演进的自然结果。
首先,行业重新确认:长上下文并非大模型记忆的终极解决方案。
超长上下文虽仍重要,但越来越被视为“放大的短期记忆”——成本高昂且无法筛选值得长期保留的信息。Titans的意义不在于进一步拉长窗口,而在于明确区分:注意力仅是短期系统,长期记忆必须是可持续更新的独立组件。
11月,谷歌进一步提出将模型训练过程视为一层记忆(Nested Learning),并推出升级版Hope架构,开始将“记忆”理解为多时间尺度的连续体,短期上下文、中期状态、长期经验不再割裂,而是按更新频率和稳定性集成于同一学习系统。
Hope与Titans、Transformer架构在困惑度(左)和常识推理(右)上的对比,图片来源:谷歌
与此同时,长期记忆的重心从“记住文本”转向“记住经验”。以往常用向量数据库或知识库实现RAG,作为模型的“外部硬盘”。但如今这种做法被重新审视,长期记忆需参与推理过程,影响模型决策和行为。
同样在11月,谷歌提出Evo-Memory基准和ReMem框架,明确将长期记忆置于智能体工作流中考察:模型能否在连续任务中提炼经验、复盘策略,并实际应用于后续任务。长期记忆不再只为对话服务,而是直接决定智能体的持续进化能力。
事实上,字节跳动与清华大学联合提出的MemAgent,通过强化学习训练模型在超长上下文中“学会取舍”,让模型主动形成长期记忆习惯,而非被动堆叠文本。这些工作路径各异,但均指向长期记忆必须逐步内化为模型能力,而非仅是工程外挂。
今年初,MiniMax宣布开源首个线性注意力架构大模型,并指出现有智能体的“长期记忆”大多仅是外挂RAG工具,严格意义上不算真正记忆。
实际情况确实如此。早期实践中,向量数据库加RAG几乎是默认方案:需要记忆时便检索。但随着智能体承担多步骤任务,这种“查完即走”的记忆方式显得力不从心。
近期豆包手机引发业界对AI手机的讨论,而豆包在Agent体系中对长期记忆的探索也颇具代表性,其长期记忆被拆分至整个工作流,用于保存用户画像、任务状态、阶段性结论乃至失败经验。
MemAgent的基本结构,图片来源:字节跳动
MemAgent这类方案,本质不在扩展上下文长度,而是训练模型理解哪些信息影响后续决策。简言之,记忆不再是查资料,而是参与判断。
从这个角度看,字节与清华联合提出的MemAgent并非孤立学术工作。它关注的是通过强化学习,让模型在超长上下文和连续任务中逐步学会“取舍”。模型需理解哪些信息值得保留,哪些仅适合短期使用,甚至哪些应被主动遗忘。
这背后体现了一个明确判断:若长期记忆不能改变模型的行动策略,本质上仍是工程缓存。
正如前文所述,无论是行业实践,还是围绕智能体的多种系统设计,都强调对“过程信息”的保留。这也解释了为何强化学习开始用于“记忆行为”训练,而非简单扩大知识库。
不同的是,MiniMax在今年初通过线性注意力等架构创新,将模型可处理的上下文推至百万乃至数百万token级别。
这并非仅为刷新指标,而是试图以容量换取系统简化。当模型本身能稳定“看见”更多内容时,部分原本需要频繁调度、反复检索的外部记忆,可暂存于上下文视野中。
但MiniMax的实践并未止步于“超长上下文窗口”。
相反,他们在此基础上引入独立记忆层,用于管理长期知识与经验。先解决“是否装得下”,再探讨“该不该留存”。在此框架下,长期记忆不再完全依赖频繁的RAG调用,而是通过更大的模型内视野与更少的系统切换,降低整体复杂度。
而DeepSeek的策略则构成一个有意义对照。DeepSeek未在模型侧押注复杂长期记忆机制,而是将其明确外置,通过RAG、向量库或各类记忆组件实现。这并非回避问题,而是基于更克制的判断:
长期记忆高度依赖具体场景,不同应用所需记忆形态差异巨大,与其在模型中“一刀切”,不如提供高质量推理核心,让开发者自行组合记忆方案。
2025年,大模型长期记忆的真正变革,并非某一指标被刷新,而是其角色定位被彻底重塑。从早期依赖RAG的“外接硬盘”,到如今逐步融入模型结构与智能体工作流,长期记忆开始成为影响决策、塑造行为的一部分,而非仅是被动存储信息的容器。
或许可以这样总结:未来大模型间的真正差异,将不仅体现在模型规模或推理速度上,还在于一套成熟、可控、可持续演化的记忆机制。因为只有当一个模型真正记得住、也管得住,它才有可能被长期使用、反复依赖,甚至被赋予更大决策权。
本文由主机测评网于2026-02-06发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260223282.html