2月12日,智谱科技正式开源了新一代旗舰基座模型GLM-5,该模型专为复杂系统工程与长程Agent任务设计,在大型编程任务中提供了与顶尖闭源模型相媲美的生产力,为顶尖程序员量身打造。
几周前,开源社区盛传一个名为Pony Alpha的模型,它能够进行长程交互、拆解复杂任务,并在多轮对话中保持上下文稳定,引发了广泛关注。如今,谜底揭晓,Pony Alpha正是GLM-5的匿名测试版本。
过去一年中,AI Coding领域经历了一次深层次的能力迁移。前OpenAI研究科学家Andrej Karpathy在“vibe coding”实践一周年时提出,开发者角色正从“写代码”转向“编排AI Agent”。
这一趋势在顶尖闭源阵营中已得到验证。Claude Opus 4.6与GPT-5.2在长上下文、复杂编排和工具调用上的表现,促使市场对大模型的“系统级能力”重新评估。
在开源世界,月之暗面(Moonshot AI)于2026年1月27日发布了Kimi K2.5,这是一款主打超长上下文与多智能体协作的原生多模态模型,能够自主调度上百个子智能体高效完成跨领域的复杂任务。
模型能力的分水岭开始转向工程稳定性与长期任务表现。
在此背景下,智谱的进化路径清晰:从2024年初GLM-4问世并开启“All Tools”时代,初步实现Agent产品化;到2025年中GLM-4.5确立ARC原生融合架构,从底层架构上完成智能体、推理与代码的深度对齐。随后,2025年底发布的GLM-4.7通过大规模强化学习扩展了模型的编程与逻辑处理边界。而最新旗舰GLM-5,则是这一技术路线的继续升级,向“长程长时执行者”跨越。
从技术规格来看,GLM-5参数量从GLM-4.7的355B(激活32B)扩展至744B(激活40B),预训练数据从23T token增加到28.5T token。
更大的模型容量意味着更强的知识储备和推理能力,但真正的差异化在于两个方面。
首先是名为“Slime”的强化学习框架。据智谱介绍,该系统支持异步智能体强化学习,使模型能够从长程交互中持续学习。这与传统的短对话优化不同,理论上能让GLM-5在处理需要数十步操作的工程任务时保持策略一致性。然而,这种能力在实际应用中的表现如何,还需更多开发者的验证。
其次是集成了DeepSeek的稀疏注意力机制。通过仅对高相关性token执行完整注意力计算,该机制能在保持长文本处理能力的同时降低计算成本。对于需要处理大型代码仓库的场景,这是一个实用的工程优势。
这带来了两个直接收益:在维持长文本处理效果无损的同时,大幅降低部署成本,显著提升Token Efficiency。对于需要处理大型代码仓库的Agent场景而言,这是关键的工程优势。
从官方公布的关键Benchmark来看,GLM-5在编程能力上实现了对齐Claude Opus 4.5。在SWE-bench-Verified和Terminal Bench 2.0中分别获得77.8和56.2的开源模型最高分数,超越Gemini 3 Pro。
在内部Claude Code评估集合中,GLM-5在前端、后端、长程任务等编程开发任务上显著超越上一代的GLM-4.7(平均增幅超过20%),能够自主完成Agentic长程规划与执行、后端重构和深度调试等系统工程任务。
GLM-5在Agent能力上实现开源SOTA,在多个评测基准中取得开源第一。在BrowseComp(联网检索与信息理解)、MCP-Atlas(大规模端到端工具调用)和τ²-Bench(复杂场景下自动代理的工具规划和执行)均取得最高表现。
Vending Bench 2是2025年设立的一个新Benchmark,要求模型在模拟环境中经营一家自动售货机公司,周期长达一年。在这个测试中,GLM-5的经营结果是“最终账户余额达到4432美元”,表现接近Claude Opus 4.5。
当然,模型Benchmark的分数和实际的应用体验不一定会一致。因此,我们选择了五个真实场景来考察GLM-5的应用效果。
// Case 1:一键克隆Web UI
“一键克隆Web UI”需要模型理解页面的视觉结构,抽象出组件与布局逻辑,完成CSS到Tailwind的语义映射,并在整个页面中保持一致、可维护和可复用。此案例可以测试模型在视觉理解、工程抽象、规则推理和长程一致性上的综合能力。
// Case 2:创建macOS Sonoma风格桌面操作系统模拟器
此案例主要测试模型是否具备构建一个完整“操作系统级”前端应用的系统工程能力。从最终呈现效果来看,这个macOS仿真桌面整体完成度较高。
// Case 3:GLM-5驱动的智能体世界Pookie World
以下案例展示了网友@Banana Lab基于GLM-5构建了一个类似“斯坦福小镇”的多智能体世界Pookie World。在这个数字世界中,Agent会根据自身的生理与情感状态自发产生社交、冲突与协作。
// Case 4:沉浸式论文探索工具
@书同文制作的AI论文探索工具支持竖屏沉浸式浏览和垂直无限滚动交互。该工具利用GLM-5模型理解论文、制作摘要和结构化内容。
本文由主机测评网于2026-07-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260748769.html