当前位置：首页 > 科技资讯 > 正文

DeepSeek引领条件记忆革命，提升大模型推理能力

主机测评网
科技资讯
2026-06-11
682

DeepSeek蓄势待发，即将带来革命性突破！

最新研究在Transformer中融入了“条件记忆”（Conditional Memory），为原生模型增添了知识查找的新机制。

研究结论明确指出：条件记忆被视为下一代稀疏模型的核心建模元素。

DeepSeek引领条件记忆革命，提升大模型推理能力 DeepSeek 条件记忆 Transformer 稀疏模型第1张

该研究由梁文锋领衔，与北京大学王选所赵东岩、张辉帅团队携手合作。

DeepSeek引领条件记忆革命，提升大模型推理能力 DeepSeek 条件记忆 Transformer 稀疏模型第2张

论文不仅提出了条件记忆这一全新范式，还详细介绍了具体实现方案——Engram模块。实验中，27B参数的Engram模型在性能上远超同规模的纯MoE模型，甚至提升了大模型的推理能力。

条件记忆的原理回归到了“查表”的原始方法，利用传统N-gram技术，以O(1)的速度高效查找信息。

该方案解决了大模型时代的存储爆炸和多义性问题，同时与现代Transformer结合，实现了性能飞跃。

释放注意力，提升效率

团队洞察到，语言建模包含两种截然不同的任务：一种是深度动态计算的组合推理，另一种是静态知识的检索。

现有Transformer架构缺乏原生知识查找机制，导致模型在识别实体时需消耗多层注意力和前馈网络。

例如，识别“Diana, Princess of Wales”需经过6层处理，而Engram模块能直接将这一任务简化为1-2层。

DeepSeek引领条件记忆革命，提升大模型推理能力 DeepSeek 条件记忆 Transformer 稀疏模型第3张

Engram通过减少昂贵的运行时计算，将网络深度用于更复杂的推理任务。

回归查表，结合N-gram

Engram的设计思路是直接将N-gram模型的O(1)时间复杂度嵌入Transformer。

具体实现上，在Transformer层间插入Engram模块，通过哈希查找将N-gram映射到嵌入表，直接获取向量。

DeepSeek引领条件记忆革命，提升大模型推理能力 DeepSeek 条件记忆 Transformer 稀疏模型第4张

为解决哈希冲突和多义性问题，引入上下文感知的门控机制，自动屏蔽不匹配内容。

通过优化，Engram有效减少了语义重复和存储爆炸问题。

U型曲线：MoE与记忆的最优配比

研究核心是对“稀疏性分配问题”的系统探索。

通过严格实验框架，在固定总参数量和每token激活参数量下，重新分配“闲置参数”预算。

DeepSeek引领条件记忆革命，提升大模型推理能力 DeepSeek 条件记忆 Transformer 稀疏模型第5张

结果显示，约20%-25%的稀疏参数预算分配给Engram时，模型验证集loss达到最低点。

在百亿参数规模下，最优配置比纯MoE基线降低loss 0.0139。

验证成果：推理能力显著提升

根据U型曲线指导，团队将Engram扩展到更大参数规模进行验证。

Dense-4B：纯密集模型。

MoE-27B：纯混合专家模型。

Engram-27B：结合MoE和Engram的混合模型。

Engram-40B：进一步扩展Engram模块。

DeepSeek引领条件记忆革命，提升大模型推理能力 DeepSeek 条件记忆 Transformer 稀疏模型第6张

结果显示，Engram在知识密集型任务上有所提升，更在通用推理和代码数学领域表现优异。

百亿参数表放CPU上，延迟几乎无影响

研究还涉及了工程优化，将百亿参数表卸载至CPU内存，同时保持低延迟。

DeepSeek引领条件记忆革命，提升大模型推理能力 DeepSeek 条件记忆 Transformer 稀疏模型第7张

通过确定性寻址机制，将嵌入表放在CPU内存中，通过PCIe异步预取，实现计算与通信重叠。

实验表明，即使在H800上运行，额外开销也控制在3%以内。

未来展望：条件记忆引领潮流

DeepSeek团队在结论中强调：

“Engram确立了‘硬件感知效率’为核心设计原则，其确定性寻址机制支持存储与计算的解耦。我们坚信，条件记忆将成为下一代稀疏模型中不可或缺的建模基元。”

“DeepSeek的下一代稀疏模型即将发布，敬请期待。”

论文地址

免费服务器性价比服务器

本文由主机测评网于2026-06-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260646814.html

DeepSeek引领条件记忆革命，提升大模型推理能力

释放注意力，提升效率

回归查表，结合N-gram

U型曲线：MoE与记忆的最优配比

验证成果：推理能力显著提升

百亿参数表放CPU上，延迟几乎无影响

未来展望：条件记忆引领潮流

清华大学突破光毒性限制：自然光级三维成像新算法

AI大模型“六小虎”崛起，但泡沫隐现

DeepSeek引领条件记忆革命，提升大模型推理能力

释放注意力，提升效率

回归查表，结合N-gram

U型曲线：MoE与记忆的最优配比

验证成果：推理能力显著提升

百亿参数表放CPU上，延迟几乎无影响

未来展望：条件记忆引领潮流

清华大学突破光毒性限制：自然光级三维成像新算法

AI大模型“六小虎”崛起，但泡沫隐现

相关文章