步入2026年1月,虽然DeepSeek V4的正式发布仍需时日,但其背后的技术路径已通过近期公开的两篇核心论文展现得淋漓尽致。
DeepSeek接连发表了两项重磅研究:一项聚焦于如何确保模型内部信息的“稳定流动”,另一项则致力于提升知识检索的“极致效率”。
首篇关于mHC(Manifold Hyper-Connections)的论文一经问世,便因其高深的技术门槛引发了AI圈的广泛讨论。许多研究者直呼难以参透,甚至求助于各类AI助手进行多维解读。通过深入挖掘研究脉络,我们发现要读懂DeepSeek的创新,必须回溯这些年顶尖实验室之间的技术“接力”。这种接力关系在第二篇论文《Conditional Memory》中同样表现得十分显著。
通过对学界动态的细致观察,我们发现了一个令人兴奋的现象:DeepSeek与字节跳动Seed团队在研究路线上存在深度的传承与演进——mHC是在字节Seed团队提出的HC(Hyper-Connections)架构基础上进行的革命性改良;而Conditional Memory则广泛吸收了字节Seed在OverEncoding、UltraMem等领域的先行探索。
梳理这些工作之间的血缘关系,不仅能帮助我们透彻理解DeepSeek的技术底牌,更能洞察全球大模型架构创新的突破方向。
理解mHC的起点是2015年。
彼时,何恺明团队提出的ResNet通过“残差连接”巧妙化解了深度神经网络的训练难题,避免了由于网络加深导致的信息失真与梯度消失。其核心逻辑极为精巧:每一层不仅接收上一层的加工信息,还保留一份原始输入,这种“恒等映射”成为了过去十年深度学习的坚实地基。
然而,尽管模型规模在飞速膨胀,残差连接的基本形态却几乎停滞不前。直到2024年9月,字节Seed团队提出了HC架构(已被ICLR 2025接收)。
HC的突破点在于,它在不增加单个计算单元算力开销的前提下,极大地提升了网络的拓扑复杂度。中国人民大学刘勇教授指出:HC打破了ResNet统治十年的单路连接传统,开启了多路并发连接的新纪元。它通过动态超连接有效缓解了特征表示崩溃问题,为大模型提供了一个更高维、更灵活的特征流动空间。
DeepSeek在mHC论文中给予了HC极高的评价,承认其显著的性能潜力。如图1(b)所示,HC通过扩展残差流的宽度,成功提升了模型的特征组合能力。
字节Seed提出的“宽度扩展+可学习连接矩阵”范式,为后续的架构创新铺平了道路。但HC在迈向超大规模训练时遇到了稳定性瓶颈,这正是DeepSeek mHC发力的地方。
刘勇认为,mHC继承了HC的宽度扩展与多尺度连接思路,并引入了Sinkhorn-Knopp算法施加流形约束。这一举措巧妙地将HC的广义空间投影回特定流形,在保留高性能的同时找回了训练稳定性。在工程侧,mHC通过内核优化,使这种复杂拓扑结构得以在万亿级参数模型上成功落地。
可以说,mHC是DeepSeek对字节Seed架构技巧的一次成功“工业化升级”,解决了从理论实验到大规模应用的最后一公里问题。
如果说mHC关注的是“骨架”,那么《Conditional Memory》则是在优化“大脑”的记忆机制。其核心痛点在于:大模型在处理常识性问题(如“法国首都是哪”)时,不应像推导数学公式那样费力,而应能直接从“词组手册”中检索。
DeepSeek提出的方案是给模型挂载一个Engram(存储单元)。这种基于“N-gram哈希查表”的思路,在此前字节Seed关于OverEncoding的研究中已有端倪。字节团队发现,扩充N-gram词典几乎能带来“零成本”的性能提升,因为这些参数是稀疏激活的,显存占用极低且响应迅速。
DeepSeek更进一步,将这一结论升华为“条件存储”理论,并与MoE(混合专家模型)并列。他们发现,全押MoE并非最佳方案,将20%-25%的参数分配给Engram静态存储模块,能使模型整体效率大幅跃升。在工程实现上,DeepSeek引入了“上下文感知门控”和硬件级预取技术,确保了存储访问与深度计算的完美融合。
在论文中,DeepSeek专门将其Engram与字节Seed的OverEncoding进行了横向对比,展示了在相同参数预算下更优的缩放效率。
每当DeepSeek发布论文,总能在全球范围内掀起研读热潮。这不仅是因为技术硬核,更因为在封闭研发盛行的当下,这种公开分享的姿态显得尤为珍贵。
DeepSeek与字节Seed的这种良性互动证明了:真正的技术突破往往诞生于持续的积累与相互启发。字节Seed在基础架构上的大胆尝试,如UltraMem的分布式级联内存、Seed Diffusion Preview的离散扩散路线,以及新型架构FAN对周期性建模的补强,都为整个行业提供了宝贵的灵感储备。
虽然部分底层研究短期内未必直接商业化,但正是这些对未知领域的勇敢探索,构成了AI大厦不断拔高的阶梯。DeepSeek与字节Seed的“接力跑”,正带着我们奔向更智能的未来。
本文由主机测评网于2026-03-23发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260332461.html