当前位置：首页 > 科技资讯 > 正文

GLM-5：智能基座模型迈向长程长时执行的新纪元

主机测评网
科技资讯
2026-07-05
723

2月12日，智谱科技正式开源了新一代旗舰基座模型GLM-5，该模型专为复杂系统工程与长程Agent任务设计，在大型编程任务中提供了与顶尖闭源模型相媲美的生产力，为顶尖程序员量身打造。

几周前，开源社区盛传一个名为Pony Alpha的模型，它能够进行长程交互、拆解复杂任务，并在多轮对话中保持上下文稳定，引发了广泛关注。如今，谜底揭晓，Pony Alpha正是GLM-5的匿名测试版本。

过去一年中，AI Coding领域经历了一次深层次的能力迁移。前OpenAI研究科学家Andrej Karpathy在“vibe coding”实践一周年时提出，开发者角色正从“写代码”转向“编排AI Agent”。

这一趋势在顶尖闭源阵营中已得到验证。Claude Opus 4.6与GPT-5.2在长上下文、复杂编排和工具调用上的表现，促使市场对大模型的“系统级能力”重新评估。

在开源世界，月之暗面（Moonshot AI）于2026年1月27日发布了Kimi K2.5，这是一款主打超长上下文与多智能体协作的原生多模态模型，能够自主调度上百个子智能体高效完成跨领域的复杂任务。

模型能力的分水岭开始转向工程稳定性与长期任务表现。

在此背景下，智谱的进化路径清晰：从2024年初GLM-4问世并开启“All Tools”时代，初步实现Agent产品化；到2025年中GLM-4.5确立ARC原生融合架构，从底层架构上完成智能体、推理与代码的深度对齐。随后，2025年底发布的GLM-4.7通过大规模强化学习扩展了模型的编程与逻辑处理边界。而最新旗舰GLM-5，则是这一技术路线的继续升级，向“长程长时执行者”跨越。

GLM-5：智能基座模型迈向长程长时执行的新纪元 GLM-5 智能基座模型长程长时执行 AI Coding 第1张

01 技术架构：更大模型，更长记忆

从技术规格来看，GLM-5参数量从GLM-4.7的355B（激活32B）扩展至744B（激活40B），预训练数据从23T token增加到28.5T token。

更大的模型容量意味着更强的知识储备和推理能力，但真正的差异化在于两个方面。

首先是名为“Slime”的强化学习框架。据智谱介绍，该系统支持异步智能体强化学习，使模型能够从长程交互中持续学习。这与传统的短对话优化不同，理论上能让GLM-5在处理需要数十步操作的工程任务时保持策略一致性。然而，这种能力在实际应用中的表现如何，还需更多开发者的验证。

其次是集成了DeepSeek的稀疏注意力机制。通过仅对高相关性token执行完整注意力计算，该机制能在保持长文本处理能力的同时降低计算成本。对于需要处理大型代码仓库的场景，这是一个实用的工程优势。

这带来了两个直接收益：在维持长文本处理效果无损的同时，大幅降低部署成本，显著提升Token Efficiency。对于需要处理大型代码仓库的Agent场景而言，这是关键的工程优势。

从官方公布的关键Benchmark来看，GLM-5在编程能力上实现了对齐Claude Opus 4.5。在SWE-bench-Verified和Terminal Bench 2.0中分别获得77.8和56.2的开源模型最高分数，超越Gemini 3 Pro。

GLM-5：智能基座模型迈向长程长时执行的新纪元 GLM-5 智能基座模型长程长时执行 AI Coding 第2张

在内部Claude Code评估集合中，GLM-5在前端、后端、长程任务等编程开发任务上显著超越上一代的GLM-4.7（平均增幅超过20%），能够自主完成Agentic长程规划与执行、后端重构和深度调试等系统工程任务。

GLM-5：智能基座模型迈向长程长时执行的新纪元 GLM-5 智能基座模型长程长时执行 AI Coding 第3张

GLM-5在Agent能力上实现开源SOTA，在多个评测基准中取得开源第一。在BrowseComp（联网检索与信息理解）、MCP-Atlas（大规模端到端工具调用）和τ²-Bench（复杂场景下自动代理的工具规划和执行）均取得最高表现。

GLM-5：智能基座模型迈向长程长时执行的新纪元 GLM-5 智能基座模型长程长时执行 AI Coding 第4张

Vending Bench 2是2025年设立的一个新Benchmark，要求模型在模拟环境中经营一家自动售货机公司，周期长达一年。在这个测试中，GLM-5的经营结果是“最终账户余额达到4432美元”，表现接近Claude Opus 4.5。

GLM-5：智能基座模型迈向长程长时执行的新纪元 GLM-5 智能基座模型长程长时执行 AI Coding 第5张

当然，模型Benchmark的分数和实际的应用体验不一定会一致。因此，我们选择了五个真实场景来考察GLM-5的应用效果。

02 五个案例

// Case 1：一键克隆Web UI

“一键克隆Web UI”需要模型理解页面的视觉结构，抽象出组件与布局逻辑，完成CSS到Tailwind的语义映射，并在整个页面中保持一致、可维护和可复用。此案例可以测试模型在视觉理解、工程抽象、规则推理和长程一致性上的综合能力。

GLM-5：智能基座模型迈向长程长时执行的新纪元 GLM-5 智能基座模型长程长时执行 AI Coding 第6张

// Case 2：创建macOS Sonoma风格桌面操作系统模拟器

此案例主要测试模型是否具备构建一个完整“操作系统级”前端应用的系统工程能力。从最终呈现效果来看，这个macOS仿真桌面整体完成度较高。

GLM-5：智能基座模型迈向长程长时执行的新纪元 GLM-5 智能基座模型长程长时执行 AI Coding 第7张

// Case 3：GLM-5驱动的智能体世界Pookie World

以下案例展示了网友@Banana Lab基于GLM-5构建了一个类似“斯坦福小镇”的多智能体世界Pookie World。在这个数字世界中，Agent会根据自身的生理与情感状态自发产生社交、冲突与协作。

GLM-5：智能基座模型迈向长程长时执行的新纪元 GLM-5 智能基座模型长程长时执行 AI Coding 第8张

// Case 4：沉浸式论文探索工具

@书同文制作的AI论文探索工具支持竖屏沉浸式浏览和垂直无限滚动交互。该工具利用GLM-5模型理解论文、制作摘要和结构化内容。

免费服务器服务器教程性价比vps

本文由主机测评网于2026-07-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260748769.html

GLM-5：智能基座模型迈向长程长时执行的新纪元

01

技术架构：更大模型，更长记忆

02

五个案例

具身智能热潮下的资本博弈与技术挑战

大疆Osmo Pocket遇挑战：手机厂商入局云台相机市场

GLM-5：智能基座模型迈向长程长时执行的新纪元

01

技术架构：更大模型，更长记忆

02

五个案例

具身智能热潮下的资本博弈与技术挑战

大疆Osmo Pocket遇挑战：手机厂商入局云台相机市场

相关文章