当前位置:首页 > 科技资讯 > 正文

DeepSeek新突破:Engram模块为Transformer注入高效记忆

近日,DeepSeek发布了一项新研究,梁文锋博士领衔,直指Transformer模型的记忆效率瓶颈。

在当下,混合专家模型(MoE)虽成大模型主流,但因缺乏原生知识查找机制,大量计算资源被用于模拟检索功能。本研究中,团队提出了与MoE互补的“条件记忆”稀疏轴,并创新性地设计了Engram模块:

通过现代哈希N-gram技术,实现近似O(1)的确定性知识查找。

DeepSeek新突破:Engram模块为Transformer注入高效记忆 Engram Transformer 稀疏化 大语言模型 第1张

论文详述了通过“稀疏分配”建模发现的MoE与Engram间的“U形scaling law”,揭示了两者资源比例调整的重要性。

实验证明,扩展至27B参数的Engram模型,在严格等参数、等FLOPs条件下,表现优于MoE基线。

简而言之,MoE侧重减少计算,而Engram则直接优化检索效率。

DeepSeek新突破:Engram模块为Transformer注入高效记忆 Engram Transformer 稀疏化 大语言模型 第2张

Engram将静态模式交由O(1)记忆处理,释放了Transformer主干对全局上下文的注意力,从而全面提升推理、代码及数学能力。

此研究预示了稀疏LLM的下一主流方向,更引人瞩目的是,下一代V4模型或将集成这一新方法。

DeepSeek新突破:Engram模块为Transformer注入高效记忆 Engram Transformer 稀疏化 大语言模型 第3张

告别低效计算,为Transformer添“脑”

当前,大语言模型(LLM)规模持续膨胀,而参数稀疏化成为关键路径。

MoE通过条件计算大幅扩展参数规模,同时控制FLOPs。但从Artifical Analysis榜单可见,主流稀疏大模型多依赖MoE。

然而,Transformer缺乏原生知识查找能力,迫使大量计算用于模拟检索。北大与DeepSeek的新研究提出:稀疏化不仅限于计算优化,亦可服务记忆。

Engram应运而生,将语言建模中的固定模式转移至可扩展查表模块,使Transformer专注于高层推理。

语言建模的两类任务

论文将语言建模细分为两类:组合推理与模式检索。

前者涉及上下文关系、长程依赖等;后者则包括实体名、固定短语等。

通过确定性查表快速检索局部静态模式,Transformer得以更高效处理高层任务。

Engram核心架构:高效查表与记忆开关

Engram源自神经学,象征记忆痕迹,是可扩展的记忆单元。

它存储LLM在推理中接触的模式与信息片段。

DeepSeek新突破:Engram模块为Transformer注入高效记忆 Engram Transformer 稀疏化 大语言模型 第4张

Engram模块通过哈希N-gram实现高效检索,并结合上下文感知门控机制增强表达力。

基于哈希N-gram的稀疏检索

分词器压缩与多头哈希技术相结合,最大化语义密度并减少冲突。

上下文感知门控

利用注意力机制启发的门控机制,增强检索嵌入的表达力并减少歧义。

系统效率:计算与存储分离

Engram支持参数存储与计算资源解耦,为训练与推理提供优化空间。

揭秘U型Scaling Law:最优分配比

研究表明,MoE与Engram在结构上互补。通过分配比例ρ的优化,实现了验证损失的最小化。

结果与分析

DeepSeek新突破:Engram模块为Transformer注入高效记忆 Engram Transformer 稀疏化 大语言模型 第5张

实验证明,适当的内存扩展与分配比例调整能显著提升模型性能。

超越传统MoE:知识、推理、数学全面提升

Engram在现实世界LLM预训练中的有效性得到验证。与等参数、等FLOPs的MoE基线相比,Engram表现更优。

实验结果

在多个基准测试中,Engram模型均展现出显著提升,特别是在代码和数学推理领域。

注意力解放:长上下文性能飙升

通过静态查找卸载局部依赖建模任务,Engram架构保留了宝贵的注意力容量。

实验结果

DeepSeek新突破:Engram模块为Transformer注入高效记忆 Engram Transformer 稀疏化 大语言模型 第6张

实验表明,Engram在长程检索和推理任务上带来显著性能提升。

“计算+记忆”双轴时代:V4或将集成

“计算+记忆”双轴时代已到来。MoE负责动态计算与推理;而Engram则负责静态知识与局部模式的存储与检索。

“U形scaling law”揭示了稀疏预算的最优分配策略。未来,V4模型或将集成这一新方法,实现架构范式的再次飞跃。