当前位置：首页 > 科技资讯 > 正文

DeepSeek-V4揭秘：Engram技术驱动AI新纪元

主机测评网
科技资讯
2026-06-11
385

近期，DeepSeek在春节假期前后发布了其新一代旗舰模型——DeepSeek-V4。

据悉，V4在代码任务上的表现已超越了Anthropic的Claude系列以及OpenAI的GPT系列。尽管官方保持神秘，但近期密集发布的论文已初露端倪。

就在近日，DeepSeek与北京大学联合发布了一篇名为《Conditional Memory via Scalable Lookup》的新论文，梁文锋也再次署名。

DeepSeek-V4揭秘：Engram技术驱动AI新纪元 DeepSeek-V4 Engram 技术复古 AI性能提升第1张

Engram或许是V4强大能力的“技术底牌”之一。那么，它能否验证传闻：V4在处理超长代码项目和复杂逻辑推理上取得了重大突破，且解决了模型越练越“糊涂”的性能衰退难题？

论文传送门：点击这里查看

大模型的“笨拙”计算

当你问ChatGPT“莎士比亚的全名是什么”时，它并非直接从知识库中调取答案。相反，它需要利用多层神经网络，通过复杂的矩阵运算，逐层“拼凑”出这个答案。

论文中给出了一个更具体的例子：当模型遇到“Diana, Princess of Wales”时，需要前6层网络才能完成识别。第1到2层只能理解这是“Wales”，第3层才意识到这是“Princess of Wales”，直到第6层才最终确认这是“戴安娜王妃”。

DeepSeek-V4揭秘：Engram技术驱动AI新纪元 DeepSeek-V4 Engram 技术复古 AI性能提升第2张

DeepSeek的研究员在Engram论文中指出：这种靠“深度计算”来模拟“记忆检索”的过程，极大地浪费了模型宝贵的脑力（推理能力）。

如果V4真如爆料所说“代码能力吊打全场”，那么它一定解决了这个问题——因为代码中包含大量固定的语法和套路，没必要每次都去“推理”一遍。

给AI挂上“超级字典”

为了解决这个问题，DeepSeek在论文中进行了一波“技术复古”。

既然有些知识是固定不变的，为什么不直接把它们存储起来，需要时直接查询，而不是每次都重新计算？

他们请回了NLP领域最古老的N-gram（N元语法），并改造成了现代化的Engram模块。

DeepSeek-V4揭秘：Engram技术驱动AI新纪元 DeepSeek-V4 Engram 技术复古 AI性能提升第3张

它通过哈希函数将局部上下文映射到一个巨大的嵌入表中。当模型遇到“Alexander the Great”这样的固定短语时，不再需要多层网络逐步理解，而是直接从记忆库中提取对应的语义向量。

DeepSeek-V4揭秘：Engram技术驱动AI新纪元 DeepSeek-V4 Engram 技术复古 AI性能提升第4张

为了处理“不同词汇映射到同一位置”和“同一词汇在不同语境下意义不同”带来的干扰，团队引入了上下文感知的门控机制（Context-aware Gating）。用当前的隐藏状态作为查询向量，对检索结果进行动态调制。如果检索到的内容与当前上下文不匹配，门控值会接近零，有效抑制噪声。

在处理“Only Alexander the Great could tame the horse Bucephalus”这句话时，Engram的门控激活热力图显示，模型在遇到“the Great”和“Bucephalus”时出现明显的激活峰值,说明它成功识别并检索了这些固定实体的语义表示。

DeepSeek-V4揭秘：Engram技术驱动AI新纪元 DeepSeek-V4 Engram 技术复古 AI性能提升第5张

这或许解释了为什么V4的代码能力会大幅提升：Engram就像是给程序员配了一个超级IDE，自动补全了所有的固定语法，让模型的大脑只需要专注于“如何解题”，而不是“怎么写分号”。

把CPU内存条变成“显存”

除了让模型变聪明，Engram这篇论文里最让开发者和中小企业兴奋的是：GPU显存不再是模型规模瓶颈。DeepSeek正在尝试用便宜量大的CPU内存（DRAM），去替代昂贵稀缺的GPU显存（HBM）。

传统的MoE模型是动态路由的，模型必须算完这一层，算出结果数值，才能决定下一层该去哪个专家那里计算。这叫“走一步看一步”，数据根本来不及提前准备。

而Engram的检索逻辑则完全由输入token序列决定。一旦看到输入文本，就能立即计算出需要访问哪些嵌入向量，无需等待中间层的计算结果。

这种“计算与传输重叠（Overlap）”的技术，完美掩盖了CPU内存读取慢的缺陷。

实验证明了这一策略的可行性。他们构建了一个1000亿参数（100B）的巨型Engram词表，并且把这部分参数完全扔到了CPU内存里（注意，一点都不占用宝贵的显存）。

在实际推理测试中，相比于纯GPU运行，整体吞吐量的损耗竟然小于3%，这在工业部署中几乎可以忽略不计。

以前你想跑千亿参数模型，可能需要几张A100(80G)。现在，你可能只需要一张消费级显卡负责计算，再插上几根便宜的64GB内存条负责存知识，就能跑起来。

实验数据验证V4传闻

回到V4的爆料，The Information提到新模型在“长代码处理”和“逻辑条理性”有质的飞跃。有趣的是，Engram论文里的实验数据印证了这个说法。

在知识密集型任务上，Engram-27B相比MoE-27B在MMLU上提升3.4分，CMMLU提升4.0分。这符合预期，毕竟Engram本就是为知识检索设计的。

DeepSeek-V4揭秘：Engram技术驱动AI新纪元 DeepSeek-V4 Engram 技术复古 AI性能提升第6张

但真正出人意料的是推理能力的飞跃。在BigBench Hard上提升了5.0分，ARC-Challenge提升3.7分，DROP提升3.3分。代码和数学领域同样显著，HumanEval提升3.0分，MATH提升2.4分，GSM8K提升2.2分。

服务器教程高防服务器免费vps

本文由主机测评网于2026-06-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260646837.html

DeepSeek-V4揭秘：Engram技术驱动AI新纪元

大模型的“笨拙”计算

给AI挂上“超级字典”

把CPU内存条变成“显存”

实验数据验证V4传闻

“死了么”爆火背后：孤独经济的新消费浪潮

从Windows 11转向Linux：重塑电脑体验

DeepSeek-V4揭秘：Engram技术驱动AI新纪元

大模型的“笨拙”计算

给AI挂上“超级字典”

把CPU内存条变成“显存”

实验数据验证V4传闻

“死了么”爆火背后：孤独经济的新消费浪潮

从Windows 11转向Linux：重塑电脑体验

相关文章