谁掌握了模型记忆的钥匙,谁就拥有了未来的主动权。
「记忆」是否会成为引爆下一轮AI浪潮的终极拼图?
如果将时间回溯半年或四五个月,业界对这个问题可能充满疑惑:彼时DeepSeek将大模型推理能力推向高潮,Manus在全球开启通用AI Agent新篇章,人们正沉浸在技术与应用的狂欢中……「记忆」,有何特别?
然而时至今日,推理已成为各大模型的标配,「百Agent混战」背后,「通用Agent」席位仍空缺。技术曲线的放缓与爆发式应用的「遥遥无期」,让业界意识到,AI智能的下一跃关键在于让AI像人类一样持续学习、积累经验、适应新任务且不忘旧知,同时实现高效的长上下文理解。
换言之,即赋予大模型人类般的「记忆」能力。或许有人会问,当前大模型依赖长文本、外部数据库已有「记忆」?
是,亦非。若按业界呼唤的「类人记忆」来看,现时所论的「记忆」,指大模型具备人类记忆的组织、检索、应用方式,是相对于当前大模型「短期记忆」的「长期记忆」或「终身记忆」。
从国内外大模型从业者的动作中,可感知到「记忆」在业界的升温,尤其是8月:
8月12日,Anthropic宣布其聊天机器人Claude具备记忆功能,可根据过往对话搜索新聊天中的相关信息,实现无缝持续讨论。
随后13日,谷歌宣布Gemini也配备记忆能力,支持多轮对话,提炼关键细节与偏好,在下一次交互时主动调用。
8月14日,字节跳动Seed团队发布M3-Agent系统,首次赋予AI长期记忆与推理能力,且不仅限于文本,已扩展至视频、音频等多模态。
8月20日,OpenAI CEO Sam Altman在发布GPT-5后谈及GPT-6愿景时强调,「记忆」将是关键。
更早前,OpenAI已在ChatGPT上线记忆功能;今年4月,马斯克的xAI也宣称Grok能记住多轮对话内容。
最新的消息是,Mistral AI宣布引入「记忆」系统,与20多个企业平台集成……
越来越多的玩家入局、押注「记忆」。基于此,机器之心与从业者交流发现:围绕「记忆」的研究将是接下来大模型的新方向。
尽管国内外AI厂商纷纷推出「记忆」产品,但在学术界,将AI与记忆结合的研究要早得多。
记忆张量CTO李志宇表示,研究大约从2023年底开始。
记忆张量是聚焦Agent Memory的初创企业,推出业界首个记忆操作系统。2024年7月,Memory³(忆立方)发布,该模型将参数拆解为隐性记忆、显性记忆和外置记忆库。一经发布便受关注,Meta、Google等团队跟进。而多数成员是记忆张量的初始团队。
李志宇表示,尽管早早推进「记忆」研究,但内心并非笃定。
为何?
当时业界正沉浸在Scaling Law是LLM第一性原理的叙事中,各厂商忙于堆算力、数据以提升性能。但现实是算力匮乏,大厂可依赖资源累积,对许多团队而言是巨大负担。
基于此,团队思考能否从基础理论角度拆分大模型?「如果Scaling Law失效,另一条路线会是什么?」一番研究后发现,无需将所有知识压缩进参数空间,只需压缩公共常识或推理能力。团队尝试分层建模显性、隐性、外部记忆以优化性能。
结果很明显,「赌」对了。之后团队继续沿此路线探索……
腾讯AI Lab专家研究员王琰从应用侧感知到「记忆」能力的重要性也在2023年底。
腾讯AI Lab成立于2016年4月,致力于推动AGI发展。AI Lab是RAG提升模型「记忆」能力的研究团队之一。其研究获2021年ACL杰出论文奖。
王琰表示,当时他正开发游戏Agent,需「陪伴」功能。但当时模型的「记忆」能力达不到要求。
当时大模型主要应用于对话产品,「Long Context即一切」。但游戏Agent研究让他意识到并非如此。
Long Context研究集中在长度外推与扩充窗口上。但这种方法仅适用于对话场景。Agent场景随时变化,若以Long Context形式注入,「Context Window分分钟爆炸」。
当然,扩Context Window也是办法。但上下文增加意味着显存消耗增大,「成本无法承受」。
王琰开始探索新方法。2024年1月初见成效。
这是一种新思路:将上文信息储存在参数中而非KV cache中。
这些参数集中在Temp-Lora模块中。推理过程不断训练此模块以实现历史信息存储。当前市场重视模型「记忆」能力的厂商增多,「记忆」限定词五花八门。「终身、持久、全局、个性化等术语不断涌现。」
李志宇认为,这因单纯谈「记忆」对用户理解成本高。各厂商在命名时加限定词也代表技术侧重点不同。
一是参数化记忆:
本文由主机测评网于2026-04-27发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260440836.html