近日,DeepSeek发布了一项新研究,梁文锋博士领衔,直指Transformer模型的记忆效率瓶颈。
在当下,混合专家模型(MoE)虽成大模型主流,但因缺乏原生知识查找机制,大量计算资源被用于模拟检索功能。本研究中,团队提出了与MoE互补的“条件记忆”稀疏轴,并创新性地设计了Engram模块:
通过现代哈希N-gram技术,实现近似O(1)的确定性知识查找。
论文详述了通过“稀疏分配”建模发现的MoE与Engram间的“U形scaling law”,揭示了两者资源比例调整的重要性。
实验证明,扩展至27B参数的Engram模型,在严格等参数、等FLOPs条件下,表现优于MoE基线。
简而言之,MoE侧重减少计算,而Engram则直接优化检索效率。
Engram将静态模式交由O(1)记忆处理,释放了Transformer主干对全局上下文的注意力,从而全面提升推理、代码及数学能力。
此研究预示了稀疏LLM的下一主流方向,更引人瞩目的是,下一代V4模型或将集成这一新方法。
当前,大语言模型(LLM)规模持续膨胀,而参数稀疏化成为关键路径。
MoE通过条件计算大幅扩展参数规模,同时控制FLOPs。但从Artifical Analysis榜单可见,主流稀疏大模型多依赖MoE。
然而,Transformer缺乏原生知识查找能力,迫使大量计算用于模拟检索。北大与DeepSeek的新研究提出:稀疏化不仅限于计算优化,亦可服务记忆。
Engram应运而生,将语言建模中的固定模式转移至可扩展查表模块,使Transformer专注于高层推理。
论文将语言建模细分为两类:组合推理与模式检索。
前者涉及上下文关系、长程依赖等;后者则包括实体名、固定短语等。
通过确定性查表快速检索局部静态模式,Transformer得以更高效处理高层任务。
Engram源自神经学,象征记忆痕迹,是可扩展的记忆单元。
它存储LLM在推理中接触的模式与信息片段。
Engram模块通过哈希N-gram实现高效检索,并结合上下文感知门控机制增强表达力。
分词器压缩与多头哈希技术相结合,最大化语义密度并减少冲突。
利用注意力机制启发的门控机制,增强检索嵌入的表达力并减少歧义。
Engram支持参数存储与计算资源解耦,为训练与推理提供优化空间。
研究表明,MoE与Engram在结构上互补。通过分配比例ρ的优化,实现了验证损失的最小化。
实验证明,适当的内存扩展与分配比例调整能显著提升模型性能。
Engram在现实世界LLM预训练中的有效性得到验证。与等参数、等FLOPs的MoE基线相比,Engram表现更优。
在多个基准测试中,Engram模型均展现出显著提升,特别是在代码和数学推理领域。
通过静态查找卸载局部依赖建模任务,Engram架构保留了宝贵的注意力容量。
实验表明,Engram在长程检索和推理任务上带来显著性能提升。
“计算+记忆”双轴时代已到来。MoE负责动态计算与推理;而Engram则负责静态知识与局部模式的存储与检索。
“U形scaling law”揭示了稀疏预算的最优分配策略。未来,V4模型或将集成这一新方法,实现架构范式的再次飞跃。
本文由主机测评网于2026-06-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260646794.html