DeepSeek蓄势待发,即将带来革命性突破!
最新研究在Transformer中融入了“条件记忆”(Conditional Memory),为原生模型增添了知识查找的新机制。
研究结论明确指出:条件记忆被视为下一代稀疏模型的核心建模元素。
该研究由梁文锋领衔,与北京大学王选所赵东岩、张辉帅团队携手合作。
论文不仅提出了条件记忆这一全新范式,还详细介绍了具体实现方案——Engram模块。实验中,27B参数的Engram模型在性能上远超同规模的纯MoE模型,甚至提升了大模型的推理能力。
条件记忆的原理回归到了“查表”的原始方法,利用传统N-gram技术,以O(1)的速度高效查找信息。
该方案解决了大模型时代的存储爆炸和多义性问题,同时与现代Transformer结合,实现了性能飞跃。
团队洞察到,语言建模包含两种截然不同的任务:一种是深度动态计算的组合推理,另一种是静态知识的检索。
现有Transformer架构缺乏原生知识查找机制,导致模型在识别实体时需消耗多层注意力和前馈网络。
例如,识别“Diana, Princess of Wales”需经过6层处理,而Engram模块能直接将这一任务简化为1-2层。
Engram通过减少昂贵的运行时计算,将网络深度用于更复杂的推理任务。
Engram的设计思路是直接将N-gram模型的O(1)时间复杂度嵌入Transformer。
具体实现上,在Transformer层间插入Engram模块,通过哈希查找将N-gram映射到嵌入表,直接获取向量。
为解决哈希冲突和多义性问题,引入上下文感知的门控机制,自动屏蔽不匹配内容。
通过优化,Engram有效减少了语义重复和存储爆炸问题。
研究核心是对“稀疏性分配问题”的系统探索。
通过严格实验框架,在固定总参数量和每token激活参数量下,重新分配“闲置参数”预算。
结果显示,约20%-25%的稀疏参数预算分配给Engram时,模型验证集loss达到最低点。
在百亿参数规模下,最优配置比纯MoE基线降低loss 0.0139。
根据U型曲线指导,团队将Engram扩展到更大参数规模进行验证。
Dense-4B:纯密集模型。
MoE-27B:纯混合专家模型。
Engram-27B:结合MoE和Engram的混合模型。
Engram-40B:进一步扩展Engram模块。
结果显示,Engram在知识密集型任务上有所提升,更在通用推理和代码数学领域表现优异。
研究还涉及了工程优化,将百亿参数表卸载至CPU内存,同时保持低延迟。
通过确定性寻址机制,将嵌入表放在CPU内存中,通过PCIe异步预取,实现计算与通信重叠。
实验表明,即使在H800上运行,额外开销也控制在3%以内。
DeepSeek团队在结论中强调:
“Engram确立了‘硬件感知效率’为核心设计原则,其确定性寻址机制支持存储与计算的解耦。我们坚信,条件记忆将成为下一代稀疏模型中不可或缺的建模基元。”
“DeepSeek的下一代稀疏模型即将发布,敬请期待。”
本文由主机测评网于2026-06-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260646814.html