关于那个神秘的「Pony Alpha」模型的传言,已经持续在互联网上发酵了一整周。
有人说它是 Claude 5 的马甲,也有人说它是某大厂的秘密武器。就在刚刚,谜底揭晓:这个代号「Pony Alpha」的新模型,正是智谱 AI 的春节大招——GLM-5。
而且,它直接开源了。
如果说 2025 年是 AI 学会写代码的一年,那么 2026 年开年,正如特斯拉前 AI 总监 Andrej Karpathy 所预言,我们或许即将进入「智能体工程」(Agentic Engineering)时代。
比起 GPT-5.3-Codex、Claude Opus 4.6,头一个把这件事做成开源基础设施的,是国产模型 GLM-5。
附体验地址:
现在的 AI 写个贪吃蛇或者俄罗斯方块,已经没什么可稀奇的了。要测,就得测点刁钻的。
我们给 GLM-5 抛出了一个极其具体的物理模拟需求:
创建一个交互式的 HTML、CSS 和 JavaScript 卫星系统模拟程序,该程序应模拟卫星向地面接收器发送信号的过程。模拟程序应显示一颗卫星绕地球运行,并周期性地发送信号,这些信号会被多个地面接收器接收。
它没有立刻给出代码,而是稍微「停顿」了一下(模拟思考过程),最终按照我的需求生成了一个 HTML 网页。屏幕上,卫星不仅转圈,信号传输甚至带有符合多普勒效应视觉隐喻的波纹扩散动画。
它理解了「模拟」二字背后的物理规律,而不仅仅是理解了「画图」这个动作。
接着,我们加大了难度。
X 上有个叫 @scaling01 的用户,给出了一个极高的评价:「Pony-Alpha 要么是 AGI,要么就是把我的 SVG 题目库给背下来了。」
为了验证这一点,我们测试了一个极其抽象的 Python 任务:「可视化展示单行道中交通信号灯的工作原理,车辆以随机速率进入。」
不到 3 分钟,一个动态的交通流模拟图出现了。
逻辑可以说是严丝合缝:绿灯放行、红灯排队,车辆加速减速的随机性也模拟得很到位。不过,这个界面的审美……有点「简陋」。
甚至有网友 @anurudhsharmaa 用它一行提示词生成了一个全新的网站。
而网友 @zakarinoo7 生成了一个全功能的媒体播放器——支持 MP4/MP3 解码、播放列表管理,甚至连深色模式的 UI 都写好了,编译完只有 15MB。
基准测试结果显示,GLM-5 在 Coding 与 Agent 能力上,取得开源 SOTA 表现。
数据不会撒谎,在 SWE-bench-Verified 和 Terminal Bench 2.0 这两个公认最难的编程榜单中,GLM-5 分别拿下了 77.8 和 56.2 的高分,在真实编程场景的体感上,已经无限逼近 Claude Opus 4.5。
GLM-5 凭什么能做到这一点?翻看官方报告,在一堆参数背后,我们找到了几个关键点:MoE 架构和异步强化学习(Asynchronous RL)。
744B 的总参数量,激活参数只有 40B,这让它足够聪明又足够轻量。但真正的杀手锏是智谱构建的全新「Slime」框架。
简单打个比方: 以前的模型训练像是在「考试」,做对一道题给一个分,模型为了拿高分拼命背题; GLM-5 的训练则像是「实习」,它在一个名为 Slime 的环境里,通过完成一个个完整的长程项目,在不断的反馈和交互中学习。
此外,它还首次集成了DeepSeek Sparse Attention(稀疏注意力机制)。这意味着在处理动辄几十万行代码的上下文时,它不仅不会「迷路」,还能大幅降低部署成本。
本文由主机测评网于2026-07-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260748781.html