当前位置：首页 > 科技资讯 > 正文

DeepSeek新突破：Engram模块为Transformer注入高效记忆

主机测评网
科技资讯
2026-06-11
454

近日，DeepSeek发布了一项新研究，梁文锋博士领衔，直指Transformer模型的记忆效率瓶颈。

在当下，混合专家模型（MoE）虽成大模型主流，但因缺乏原生知识查找机制，大量计算资源被用于模拟检索功能。本研究中，团队提出了与MoE互补的“条件记忆”稀疏轴，并创新性地设计了Engram模块：

通过现代哈希N-gram技术，实现近似O(1)的确定性知识查找。

DeepSeek新突破：Engram模块为Transformer注入高效记忆 Engram Transformer 稀疏化大语言模型第1张

论文详述了通过“稀疏分配”建模发现的MoE与Engram间的“U形scaling law”，揭示了两者资源比例调整的重要性。

实验证明，扩展至27B参数的Engram模型，在严格等参数、等FLOPs条件下，表现优于MoE基线。

简而言之，MoE侧重减少计算，而Engram则直接优化检索效率。

DeepSeek新突破：Engram模块为Transformer注入高效记忆 Engram Transformer 稀疏化大语言模型第2张

Engram将静态模式交由O(1)记忆处理，释放了Transformer主干对全局上下文的注意力，从而全面提升推理、代码及数学能力。

此研究预示了稀疏LLM的下一主流方向，更引人瞩目的是，下一代V4模型或将集成这一新方法。

DeepSeek新突破：Engram模块为Transformer注入高效记忆 Engram Transformer 稀疏化大语言模型第3张

告别低效计算，为Transformer添“脑”

当前，大语言模型（LLM）规模持续膨胀，而参数稀疏化成为关键路径。

MoE通过条件计算大幅扩展参数规模，同时控制FLOPs。但从Artifical Analysis榜单可见，主流稀疏大模型多依赖MoE。

然而，Transformer缺乏原生知识查找能力，迫使大量计算用于模拟检索。北大与DeepSeek的新研究提出：稀疏化不仅限于计算优化，亦可服务记忆。

Engram应运而生，将语言建模中的固定模式转移至可扩展查表模块，使Transformer专注于高层推理。

语言建模的两类任务

论文将语言建模细分为两类：组合推理与模式检索。

前者涉及上下文关系、长程依赖等；后者则包括实体名、固定短语等。

通过确定性查表快速检索局部静态模式，Transformer得以更高效处理高层任务。

Engram核心架构：高效查表与记忆开关

Engram源自神经学，象征记忆痕迹，是可扩展的记忆单元。

它存储LLM在推理中接触的模式与信息片段。

DeepSeek新突破：Engram模块为Transformer注入高效记忆 Engram Transformer 稀疏化大语言模型第4张

Engram模块通过哈希N-gram实现高效检索，并结合上下文感知门控机制增强表达力。

基于哈希N-gram的稀疏检索

分词器压缩与多头哈希技术相结合，最大化语义密度并减少冲突。

上下文感知门控

利用注意力机制启发的门控机制，增强检索嵌入的表达力并减少歧义。

系统效率：计算与存储分离

Engram支持参数存储与计算资源解耦，为训练与推理提供优化空间。

揭秘U型Scaling Law：最优分配比

研究表明，MoE与Engram在结构上互补。通过分配比例ρ的优化，实现了验证损失的最小化。

结果与分析

DeepSeek新突破：Engram模块为Transformer注入高效记忆 Engram Transformer 稀疏化大语言模型第5张

实验证明，适当的内存扩展与分配比例调整能显著提升模型性能。

超越传统MoE：知识、推理、数学全面提升

Engram在现实世界LLM预训练中的有效性得到验证。与等参数、等FLOPs的MoE基线相比，Engram表现更优。

实验结果

在多个基准测试中，Engram模型均展现出显著提升，特别是在代码和数学推理领域。

注意力解放：长上下文性能飙升

通过静态查找卸载局部依赖建模任务，Engram架构保留了宝贵的注意力容量。

实验结果

DeepSeek新突破：Engram模块为Transformer注入高效记忆 Engram Transformer 稀疏化大语言模型第6张

实验表明，Engram在长程检索和推理任务上带来显著性能提升。

“计算+记忆”双轴时代：V4或将集成

“计算+记忆”双轴时代已到来。MoE负责动态计算与推理；而Engram则负责静态知识与局部模式的存储与检索。

“U形scaling law”揭示了稀疏预算的最优分配策略。未来，V4模型或将集成这一新方法，实现架构范式的再次飞跃。

免费服务器免费vps 服务器教程

本文由主机测评网于2026-06-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260646794.html

DeepSeek新突破：Engram模块为Transformer注入高效记忆