当前位置:首页 > 科技资讯 > 正文

DeepSeek-V4揭秘:Engram技术驱动AI新纪元

近期,DeepSeek在春节假期前后发布了其新一代旗舰模型——DeepSeek-V4。

据悉,V4在代码任务上的表现已超越了Anthropic的Claude系列以及OpenAI的GPT系列。尽管官方保持神秘,但近期密集发布的论文已初露端倪。

就在近日,DeepSeek与北京大学联合发布了一篇名为《Conditional Memory via Scalable Lookup》的新论文,梁文锋也再次署名。

DeepSeek-V4揭秘:Engram技术驱动AI新纪元 DeepSeek-V4 Engram 技术复古 AI性能提升 第1张

Engram或许是V4强大能力的“技术底牌”之一。那么,它能否验证传闻:V4在处理超长代码项目和复杂逻辑推理上取得了重大突破,且解决了模型越练越“糊涂”的性能衰退难题?

论文传送门:点击这里查看

大模型的“笨拙”计算

当你问ChatGPT“莎士比亚的全名是什么”时,它并非直接从知识库中调取答案。相反,它需要利用多层神经网络,通过复杂的矩阵运算,逐层“拼凑”出这个答案。

论文中给出了一个更具体的例子:当模型遇到“Diana, Princess of Wales”时,需要前6层网络才能完成识别。第1到2层只能理解这是“Wales”,第3层才意识到这是“Princess of Wales”,直到第6层才最终确认这是“戴安娜王妃”。

DeepSeek-V4揭秘:Engram技术驱动AI新纪元 DeepSeek-V4 Engram 技术复古 AI性能提升 第2张

DeepSeek的研究员在Engram论文中指出:这种靠“深度计算”来模拟“记忆检索”的过程,极大地浪费了模型宝贵的脑力(推理能力)。

如果V4真如爆料所说“代码能力吊打全场”,那么它一定解决了这个问题——因为代码中包含大量固定的语法和套路,没必要每次都去“推理”一遍。

给AI挂上“超级字典”

为了解决这个问题,DeepSeek在论文中进行了一波“技术复古”。

既然有些知识是固定不变的,为什么不直接把它们存储起来,需要时直接查询,而不是每次都重新计算?

他们请回了NLP领域最古老的N-gram(N元语法),并改造成了现代化的Engram模块。

DeepSeek-V4揭秘:Engram技术驱动AI新纪元 DeepSeek-V4 Engram 技术复古 AI性能提升 第3张

它通过哈希函数将局部上下文映射到一个巨大的嵌入表中。当模型遇到“Alexander the Great”这样的固定短语时,不再需要多层网络逐步理解,而是直接从记忆库中提取对应的语义向量。

DeepSeek-V4揭秘:Engram技术驱动AI新纪元 DeepSeek-V4 Engram 技术复古 AI性能提升 第4张

为了处理“不同词汇映射到同一位置”和“同一词汇在不同语境下意义不同”带来的干扰,团队引入了上下文感知的门控机制(Context-aware Gating)。用当前的隐藏状态作为查询向量,对检索结果进行动态调制。如果检索到的内容与当前上下文不匹配,门控值会接近零,有效抑制噪声。

在处理“Only Alexander the Great could tame the horse Bucephalus”这句话时,Engram的门控激活热力图显示,模型在遇到“the Great”和“Bucephalus”时出现明显的激活峰值,说明它成功识别并检索了这些固定实体的语义表示。

DeepSeek-V4揭秘:Engram技术驱动AI新纪元 DeepSeek-V4 Engram 技术复古 AI性能提升 第5张

这或许解释了为什么V4的代码能力会大幅提升:Engram就像是给程序员配了一个超级IDE,自动补全了所有的固定语法,让模型的大脑只需要专注于“如何解题”,而不是“怎么写分号”。

把CPU内存条变成“显存”

除了让模型变聪明,Engram这篇论文里最让开发者和中小企业兴奋的是:GPU显存不再是模型规模瓶颈。DeepSeek正在尝试用便宜量大的CPU内存(DRAM),去替代昂贵稀缺的GPU显存(HBM)。

传统的MoE模型是动态路由的,模型必须算完这一层,算出结果数值,才能决定下一层该去哪个专家那里计算。这叫“走一步看一步”,数据根本来不及提前准备。

而Engram的检索逻辑则完全由输入token序列决定。一旦看到输入文本,就能立即计算出需要访问哪些嵌入向量,无需等待中间层的计算结果。

这种“计算与传输重叠(Overlap)”的技术,完美掩盖了CPU内存读取慢的缺陷。

实验证明了这一策略的可行性。他们构建了一个1000亿参数(100B)的巨型Engram词表,并且把这部分参数完全扔到了CPU内存里(注意,一点都不占用宝贵的显存)。

在实际推理测试中,相比于纯GPU运行,整体吞吐量的损耗竟然小于3%,这在工业部署中几乎可以忽略不计。

以前你想跑千亿参数模型,可能需要几张A100(80G)。现在,你可能只需要一张消费级显卡负责计算,再插上几根便宜的64GB内存条负责存知识,就能跑起来。

实验数据验证V4传闻

回到V4的爆料,The Information提到新模型在“长代码处理”和“逻辑条理性”有质的飞跃。有趣的是,Engram论文里的实验数据印证了这个说法。

在知识密集型任务上,Engram-27B相比MoE-27B在MMLU上提升3.4分,CMMLU提升4.0分。这符合预期,毕竟Engram本就是为知识检索设计的。

DeepSeek-V4揭秘:Engram技术驱动AI新纪元 DeepSeek-V4 Engram 技术复古 AI性能提升 第6张

但真正出人意料的是推理能力的飞跃。在BigBench Hard上提升了5.0分,ARC-Challenge提升3.7分,DROP提升3.3分。代码和数学领域同样显著,HumanEval提升3.0分,MATH提升2.4分,GSM8K提升2.2分。