在人工智能的竞争中,谁能率先赋予模型“记忆”能力,谁便掌握了发展的主导权。
“记忆”是否会成为点燃下一轮AI浪潮的关键缺失环节?
如果将时间回溯到半年或四五个月前,行业对此问题或许还充满疑虑与困惑:当时DeepSeek将大模型推理能力推向巅峰的余波尚未平息,Manus在全球范围内开启了通用AI Agent的新叙事,人们正沉浸于技术突破与应用创新双线并进带来的兴奋与狂欢之中……“记忆”,这个话题有何值得深入探讨?
然而时至今日,强大的推理能力已成为各大模型的标配,在“百Agent混战”的背后,“通用Agent”的理想形态依然空缺。技术演进曲线的放缓与爆发式应用落地的延迟,促使业界逐渐意识到,提升AI智能水平的下一个关键,在于让AI能够模拟人类持续学习、积累经验、适应新任务而不遗忘旧知识,并实现对长上下文的精准高效理解。
简而言之,就是让大模型具备类似人类的“记忆”能力。或许有人会质疑,当前大模型通过长文本支持或外部数据库,不是已经拥有“记忆”了吗?
是,也不完全是。若以业界所倡导的“类人记忆”标准来衡量,我们现在探讨的“记忆”,是指大模型能够模仿人类记忆的组织、检索与应用机制,是一种相较于当前模型“短期记忆”的“长期记忆”或“终身记忆”。
实际上,从国内外大模型开发者的近期动态中,也能感受到“记忆”话题的热度上升,尤其是在刚刚过去的八月:
8月12日,Anthropic宣布其聊天机器人Claude已具备记忆功能,能在对话中检索历史交流记录,并在新的聊天中自动引用相关信息,使得对话能够无缝延续,“无需每次从头开始”。
紧接着在13日,谷歌宣布Gemini模型也已集成记忆能力,支持跨多次对话提取用户的关键细节与偏好,并在后续交互中主动调用,使对话体验更自然流畅。
8月14日,字节跳动Seed团队发布了M3-Agent系统,首次让AI拥有了类似人类的长期记忆与推理能力,且不再局限于文本,已扩展至视频、音频等多模态领域。
8月20日,OpenAI CEO Sam Altman在发布GPT-5后,谈及GPT-6的愿景时提到,他希望未来的ChatGPT版本能让用户自定义语气与个性,而其中的核心就在于“记忆”,这将成为GPT-6的重点发展方向。
事实上,早在去年2月,OpenAI就已经在ChatGPT中上线了记忆功能。
而今年4月,马斯克的xAI也宣称Grok模型已能记住多轮对话内容。
最新动态是,又一位玩家快速入场——Mistral AI,宣布开始引入“记忆”系统,并与20多个由MCP支持的企业平台集成,试图通过记忆机制来记录重要信息……
越来越多的参与者开始布局并押注“记忆”。基于此,机器之心与行业从业者进行了交流,我们发现:围绕“记忆”的研究将成为大模型发展的新方向,而谁能率先让大模型拥有类似人类的“记忆”能力,谁就将掌握竞争的主动权。
尽管国内外AI厂商近期集中推出与“记忆”相关的产品,但实际上,学术界对AI与记忆结合的研究起步更早。
记忆张量CTO李志宇向机器之心透露,这一趋势大约始于2023年年底。
记忆张量是一家专注于Agent Memory的初创企业,推出了业界首个记忆操作系统,也是最早关注该领域的团队之一。2024年7月,由中国科学院院士鄂维南牵头,杨泓康、熊飞宇、李志宇等人参与研发的记忆分层大模型——Memory³(忆立方)正式发布。该模型创新性地将参数分解为隐性记忆、显性记忆与外置记忆库,以优化推理效率并减少幻觉问题。一经发布便引发广泛关注,后续更吸引了Meta、Google等团队的跟进。而多数核心成员正是记忆张量的初创团队成员。
李志宇表示,尽管团队很早就开始推进“记忆”相关研究,但内心并非完全笃定。
这该如何理解?
回顾那个时期,业界正沉浸在Scaling Law作为LLM第一性原理的叙事中,各大模型厂商忙于堆砌算力与数据,以换取模型性能提升。但现实是算力资源紧张,大型企业可凭借资金与资源积累“大力出奇迹”,而对许多开发基座模型的团队而言,这成了难以承受的成本负担,无法与之抗衡。
基于此,团队开始思考能否从基础理论角度重新“剖析”大模型,探索是否还有提升空间?“如果某一天,现行的Scaling Law失效,另一条可行的扩展路径会是什么?”
经过研究,他们发现无需将所有知识(记忆)都压缩进大模型的参数空间,只需将公共常识或推理能力压缩其中,而对于那些琐碎知识,只需确保在需要时能进行检索、使用,并与模型协同推理即可。团队尝试将模型参数记忆按显性记忆、隐性记忆和外部记忆进行分层建模,以实现更好的性能提升。
结果证明,他们“赌”对了,这是一条具有开创性的道路。随后,团队便沿着这一方向持续探索大模型的“记忆”能力……
而腾讯AI Lab专家研究员王琰开始意识到大模型“记忆”能力的重要性,同样是在2023年年底,但他是从应用侧感知到的。
腾讯AI Lab是腾讯推出的企业级人工智能实验室,成立于2016年4月,致力于推动AGI发展,研究方向涵盖自然语言处理、语音、计算机视觉、游戏等多个领域。据悉,AI Lab是业界最早利用RAG技术提升模型“记忆”能力的团队之一,相关研究曾获得2021年ACL杰出论文奖。
王琰告诉机器之心,当时他正在开发一款游戏Agent,其核心功能之一是“陪伴”。例如,若玩家持续游玩一年,Agent应能记住这一年中在游戏内发生的所有事件,这意味着Agent需要具备“终身记忆”。但显然,当时模型的“记忆”能力远未达到这一要求。
彼时,大模型应用主要集中在对话产品,一种主流观点认为长文本(Long Context)就是一切,或是通往AGI的最佳路径。“只要我们拥有无限长的Long Context,就能解决任何问题”,这是许多业内人士深信不疑的理念。
然而,在游戏Agent的研究实践中,王琰意识到事情并非如此简单。
Long Context生成的研究主要聚焦于长度外推与扩展窗口长度,其核心思想是在模型的KV状态中尽可能多且有效地存储上文信息,并让模型在推理时精准利用这些信息。
但这种理念仅适用于对话场景,因为对话场景的状态(state)通常保持不变。而Agent场景不同,其特点是周围环境随时变化,即状态随时改变。如果这种变化以Long Context形式注入,上下文窗口将迅速“爆炸”。
当然,扩展Context Window也是一种有效方法,但更长的上下文意味着更大的显存消耗,“这是一个根本无法承担的成本。”
意识到这一点,王琰开始探索新方法。2024年1月,新方法初见成效。
这是一种全新思路:将上文信息存储于模型参数中,而非KV cache中,从而降低对KV状态的依赖。这些用于存储上文信息的参数被集中在一个临时的Lora模块(Temp-Lora)中,推理过程不断利用模型生成的token训练该模块,以实现历史信息的存储。
结合他在游戏Agent的开发来看,这是一种参数化记忆,通过一个Lora模块记录Agent与玩家过去的交互历史,使模型实现类似“终身记忆”的能力。
显然,在了解早期从业者研究“记忆”能力的“缘起”后,对于当前各大模型厂商不断强调“记忆”重要性的现象便不难理解:这是技术侧与应用侧的双重诉求。
从技术层面看,如果说2023年年底仅有少数人担忧Scaling Law会失效,那么现在无论是OpenAI还是其他AI大厂都已清醒认识到,过去几年通过堆砌算力与参数量来提升性能的“边际效应”已显著下降。即便再投入成倍算力,也难以获得10%甚至5%的能力突破,仅靠“规模”已无法显著提升模型性能或在应用场景中的表现。他们也亟需寻找新的技术范式。
“技术本身的瓶颈促使大家寻找新方向。”李志宇指出。
他认为,以人类类比大模型,人与动物的区别之一在于人能制造和使用工具,这对应了模型MCP层级的能力。另一点则是人能总结、思考与反馈,并形成记忆,让“记忆”在人类文明传承过程中不断被建模、重构以获得进一步的能力提升。如今,模型在工具层面已趋完善,且更多是横向扩展(MCP层级),接下来大家寻求突破的很可能就是“记忆”这个关口。
从应用层面看,当前AI Agent已成为大模型的主流叙事,数量上“百Agent”竞相狂奔的盛景已是现实。能力上,人们对模型的要求越来越高,不再仅限于作为单一工具解决瞬时问题,而是将AI视为合作伙伴或秘书来处理更长期的任务,这要求它能记住之前的交互与反馈。
“在这种情况下,模型的不依赖Context Window的终身记忆变得至关重要。”王琰强调。
Agent欲取得突破性进展,“记忆”是不可或缺的一环。
当前,随着越来越多的大模型厂商开始重视模型的“记忆”能力,“记忆”前的修饰词也变得多样化,“终身记忆”“持久记忆”“全局记忆”“个性化记忆”等术语层出不穷。
在李志宇看来,这是因为单纯谈论“记忆”对普通用户的理解成本较高,因此各大厂商在命名时会添加限定词,这也在一定程度上反映了各自的技术侧重点不同。
例如,OpenAI提及的是“全局记忆”,更像是对应Anthropic提出的“局部记忆”概念的映射。前者认为记忆应无处不在,在用户可能需要的场景中随时出现,因此“全局记忆”是从覆盖范围角度考虑;而“终身或持久记忆”则是基于时间线的考量。归根结底,“记忆”能力的核心在于如何有效实现大模型或AI应用的记忆功能。
目前,业界对大模型“记忆”能力的研究主要遵循以下几种路径:
一是参数化记忆,即在架构层面,基于基座模型本身驱动融合记忆创新,以解决记忆问题。目标是让模型从参数层面自行区分哪些信息需要作为“记忆”被检索与建模,并在推理过程中融合到前向推理中。
参数化记忆又分为两种:一种是基于当前主流的Transformer架构展开研究,例如Temp-Lora方法,即用Lora模块记录过去的对话历史。
另一种是采用非Transformer架构。例如,谷歌推出的Titans架构,提出三级记忆(短期/长期/持久记忆),并采用“惊讶度”机制动态更新记忆;Meta的研究突破在于将Transformer中的前馈网络(FFN)替换为记忆层,同时保持其他部分不变;国内的非Transformer架构如RWKV等。
李志宇认为,这一路径的优势在于整体理论上限极高(若实现得当),可能突破现有模型在“记忆”方面对时间、人物及连续性的感知局限。但问题也很明显:“研发成本非常高,短期内落地难度较大。”
王琰持类似看法。他认为,当前市场上有多种非Transformer模型架构宣称具备“长期记忆”能力,但问题在于这种“长期”受限于架构本身,如同人脑容量,存在上限。这导致这些所谓的“长期记忆”模型在长期记忆上“无法匹敌”仅具短期记忆的Transformer模型,因为Transformer可通过堆叠硬件来实现“长期记忆”。
二是上下文记忆(上下文工程),即将模型所需信息以提示词(prompt)形式置于Context Window中,使模型在推理前可先浏览获取相关信息。Manus是一家将上下文工程做到极致的典型公司,其近期研究不断强调在Agent交互过程中优化KV cache管理(KV cache管理本质上是一种记忆管理形式),尽可能让不同Agent间复用部分“记忆”。
但局限性也很明显:上下文工程依赖于人类智慧指挥,当模型推理出错时,难以区分是上下文工程错误还是模型本身错误。目前缺乏自动化机制进行评估,因此上下文工程易沦为纯粹的工程任务。
三是外部数据库/RAG,即将信息存储于模型外部数据库(如向量数据库)中,需要时通过RAG检索最相关内容,注入当前Context Window,为模型决策提供依据。
从研究角度看,现有RAG的最终目标是确保模型每次搜索都能返回正确结果,但即便人类使用搜索引擎也常需修改关键词,因此难以保证搜索时总能找到所需内容。为此,不得不修改检索算法,但这并非易事,甚至需要扩大团队规模专门处理,最终往往导致重心偏离至RAG本身而非模型,本末倒置。而且,这显然无法通过训练来提升模型整体性能,因此尽管工程上应用广泛,但上限较低。
显然,每条路径各有优劣与局限,短期内并无最优解,部分玩家甚至探索多种路径的融合。
王琰认为,这是由于当前技术路线尚未收敛,按照各自路径进行探索与改进,都会带来模型“记忆”能力的一定提升。因为大家的目标一致:“以尽可能低的代价实现尽可能牢固的记忆。”王琰解释道,基于此诉求,未来模型“记忆”能力的研究将围绕记忆的压缩比与保真度展开。
李志宇也认同此观点,当前关于模型“记忆”的研究仍处早期阶段,各种路径的解题思路实质上是围绕如何以空间换取时间,或在有限空间内提升模型整体的推理与应用效率。
据了解,王琰及其团队正全力攻关具备推理时训练(Inference Time Training)能力的新型模型架构,即在推理过程中不断将历史信息存储到模型的参数区,亦即参数化记忆。
相较于常规路径划分,李志宇更倾向于将上下文工程与RAG+外部数据库归为一类,因为它们更多是从应用层面解决记忆机制的实现问题,且本质均为“外挂记忆”,上限较为明显。
在路径选择上,他们采取了一种折中方式:结合当前基座模型可落地的部分与应用工程创新的部分,打造出一套能解决问题的记忆框架。这正是记忆张量当前的工作,并推出了面向大模型的开源记忆操作系统MemOS。
谁将凭借“记忆”能力再造一个“DeepSeek”?
尽管模型“记忆”能力的路径划分复杂多样,但从参与者类型看,当前业界主要有两类玩家。
一类是如OpenAI、Anthropic、Google等AI厂商,它们拥有面向消费者的聊天服务,在此类服务中,它们更多希望通过引入“长短期记忆”能力来实现个性化服务目标。
当然,各厂商追求的个性化能力可能存在差异,例如OpenAI强调“全局记忆”,Anthropic则强调“局部记忆”按需使用,但本质诉求多是通过“记忆”的个性化功能来增强用户粘性。
另一类是“记忆”中间件服务商,如Mem0、记忆张量的MemOS,以及Zep等开源记忆框架。它们更多扮演大模型与应用层之间的中间件角色,面向广大开发者,希望让开发者及相关应用产品体验到类似OpenAI在其产品中展现的“记忆”能力增强所带来的体验与性能提升。
围绕这两类玩家在模型“记忆”能力上的不同诉求,它们各自的商业模式也可能发生变化。
例如,对OpenAI这样的大厂而言,其目标是让用户在自家APP类产品上高频使用、积累越来越多的“记忆”,进而在自家生态中形成粘性。一旦用户被绑定,可能就难以迁移至其他平台。从这个角度看,他们希望用户能在其封闭场景中沉淀出“独家记忆”。
而对初创企业而言,它们希望更多开发者或企业能快速具备“记忆”能力,同时促进形成一个可共享的记忆中枢。随着越来越多的APP联合参与记忆共享与中枢管理,将形成对原有中心化格局的“去中心化”,并催生新的中心化记忆平台。
这种记忆平台或许能立体刻画用户的所有维度,如工作场景、生活经历、个人偏好等,具备全面的记忆能力,从而增强用户在使用任何AI相关APP时的体验。
Mistral AI的最新动作正是这类玩家的典型代表:宣布免费大幅扩展其企业级业务平台Le Chat,并与20多家平台集成。这一举动被视为试图通过提供先进的“记忆”功能与广泛的第三方集成,打破现有的AI市场竞争格局……
由此可见,AI竞争已升级至新阶段。在新一轮围绕“记忆”能力构建的竞赛中,各类玩家相互角力,战况胶着,任何一方都有可能脱颖而出。如前所述,“记忆”能力是模型技术侧与应用侧的双重诉求,一旦取得突破性进展,必将再现“DeepSeek时刻”或“Manus时刻”。
从当前AI“记忆”能力的发展状况看,留给各方的时间并非“充裕”。
按照李志宇的理解,若将模型“记忆”能力按抽取、存储、更新、调度、应用、治理六个维度划分,那么距离真正在大范围应用并让人们感受到其给生活带来无处不在的变化,可能还需一至两年时间。
而若想达到治理层面,即解决模型“记忆”本身的幻觉问题、隐私保障乃至立法等挑战,则至少还需三至五年。
未来,究竟谁将再现“DeepSeek时刻”?目前看来,“乾坤未定,一切皆有可能是黑马”。
本文由主机测评网于2025-12-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20251213689.html