当前位置：首页 > 科技资讯 > 正文

GLM-5即将登场：揭秘新一代旗舰大模型与Pony Alpha的谜团

主机测评网
科技资讯
2026-07-04
235

不论Pony Alpha与智谱的关系如何，即将推出的下一代旗舰大模型GLM-5已然成为了焦点。

GitHub代码库证实了这一消息，新一代架构的细节也逐步浮出水面。

GLM-5即将登场：揭秘新一代旗舰大模型与Pony Alpha的谜团 GLM-5 Pony Alpha DeepSeek稀疏注意力多模态能力第1张

GLM-5采用DeepSeek-V3/V3.2架构，引入稀疏注意力机制（DSA）和多Token预测（MTP），总参数量达到745B，是上一代GLM-4.7的两倍。

GLM-5即将登场：揭秘新一代旗舰大模型与Pony Alpha的谜团 GLM-5 Pony Alpha DeepSeek稀疏注意力多模态能力第2张

与此同时，OpenRouter平台上悄然出现的神秘匿名模型「Pony Alpha」，展现出惊人的编程和推理能力，被社区超过91%的用户认为是GLM-5的测试版。

受这些信息影响，智谱AI的港股在两天内暴涨60%。

GLM-5即将登场：揭秘新一代旗舰大模型与Pony Alpha的谜团 GLM-5 Pony Alpha DeepSeek稀疏注意力多模态能力第3张

开源代码泄露：参数架构详解

GLM-5的架构信息并非来自智谱官方，而是被开源社区从代码提交中“挖掘”出来的。

在vLLM推理框架的PR中，开发者发现GLM-5的实现逻辑直接映射到了DeepSeek-V3的组件上。

GLM-5即将登场：揭秘新一代旗舰大模型与Pony Alpha的谜团 GLM-5 Pony Alpha DeepSeek稀疏注意力多模态能力第4张

GLM-5继承的第一项核心技术是DeepSeek稀疏注意力（DeepSeek Sparse Attention，DSA）。

DSA通过两阶段流程大幅提升了长文本处理效率，同时几乎不影响输出质量。首先由Lightning Indexer轻量级组件快速扫描所有历史token并打分，评估它们与当前query token的相关性；然后只挑选得分最高的Top-k个token进行完整的注意力计算，其余全部跳过。

第二项技术是多Token预测（Multi-Token Prediction，MTP），旨在提升模型的生成效率。根据代码推断出的架构参数，GLM-5包含78层隐藏层，采用MoE（混合专家）架构，共256个专家，每次推理激活8个，激活参数约44B，稀疏度5.9%，与DeepSeek-V3.2的5.4%基本持平。

上下文窗口支持最高202K token。

GLM-5即将登场：揭秘新一代旗舰大模型与Pony Alpha的谜团 GLM-5 Pony Alpha DeepSeek稀疏注意力多模态能力第5张