12月9日,智东西消息,智谱公司于昨晚正式开源了GLM-4.6V系列多模态大模型。该系列包含两个版本:基础版GLM-4.6V(106B-A12B)主要面向云端和高性能计算集群,而轻量版GLM-4.6V-Flash(9B)则更适合本地部署和低延迟应用场景。
另外,在今天上午,智谱又开源了AutoGLM智能体,它类似于“豆包手机助手”。去年10月该智能体首次发布时,就被业界誉为“全球首个具备手机操作能力的AI Agent”。
▲GLM-4.6V在Hugging Face的开源主页(图源:Hugging Face)
▲AutoGLM在Hugging Face的开源主页(图源:Hugging Face)
根据官方介绍,GLM-4.6V具备多种能力,包括智能图文混排与内容创作、识图购物与导购、前端复刻与多轮视觉交互开发,以及长上下文文档与视频理解。智东西第一时间对其进行了实际体验。
在实际体验中,GLM-4.6V在图像搜索、全网比价以及长文本和视频理解方面表现稳定,生成文字和网页的速度快且准确。然而,在图文混排能力上,生成的图片始终无法显示。对于模糊指令,GLM-4.6V的理解存在一定偏差。
GLM-4.6V系列模型将训练时的上下文窗口提升至128k tokens,并首次在模型架构中原生融入了Function Call(工具调用)能力。
性能方面,在同等参数规模下,GLM-4.6V系列模型在多模态交互、逻辑推理和长上下文等关键能力上均取得了SOTA表现。
其中,9B版本的GLM-4.6V-Flash在涵盖通用视觉问答、多模态推理、多智能体、多模态长文本、图表识别以及空间定位能力的34项测试中,有22项分数超过了Qwen3-VL-8B。而106B参数12B激活的GLM-4.6V表现则与参数量为2倍的Qwen3-VL-235B相接近。
▲GLM-4.6V系列模型基准测试结果(图源:z.ai/blog/glm-4.6v)
价格方面,GLM-4.6V系列相比GLM-4.5V降价50%,API调用价格低至输入1元/百万tokens,输出3元/百万tokens。GLM-4.6V-Flash则完全免费。
▲GLM-4.6V系列模型价格表(图源:智谱AI)
GLM-4.6V开源地址:
GitHub:https://github.com/zai-org/GLM-V
Hugging Face:https://huggingface.co/collections/zai-org/glm-46v
魔搭社区: https://modelscope.cn/collections/GLM-46V-37fabc27818446
GLM-4.6V体验地址: https://chat.z.ai/
首先测试的是智能图文混排与内容创作能力。GLM-4.6V构建了原生多模态工具调用能力,能够直接理解图像、截图、文档页面等多模态数据,无需事先转换为文字描述再解析。
我们上传了GLM-4.5V的技术报告,要求生成一篇图文并茂的微信公众号文章。大约1-2分钟后,GLM-4.6V便完成了对文档的阅读和理解,输出了包含标题、导语、五个章节及结语的完整公众号文章。然而,多次尝试后,图片仍无法显示。
▲智能图文混排示例
为了测试GLM-4.6V的识图购物与导购功能,我们直接输入指令:“帮我搜索现在iPhone 17 Pro Max在各平台的价格。”
GLM-4.6V自动调用相关工具在全网搜索,并生成了包含商品名、平台、品牌、商品图、商品链接及店铺名的比价表格,点击链接即可直接跳转至购买页面。
根据购买页面对比,GLM-4.6V搜索出的产品名和价格准确无误,但所对比的商品均来自京东平台,且商品名直接从电商页面提取,存在较多冗余信息,未进行进一步整理。
我们还可以让GLM-4.6V搜索《疯狂动物城2》中尼克狐尼克的同款眼镜。它通过图像搜索功能找到了同款眼镜的实拍图,但未提供购买链接。
▲模糊搜索导购示例
我们上传了一张X平台的登录页面截图,要求GLM-4.6V生成对应的HTML代码和网页预览。
▲截图生成网页代码示例
▲生成的网页预览
收到指令后,GLM-4.6V立即开始逐行生成HTML代码,并显示预览页面。可以看出,生成的“仿X”登录网页与原网页几乎完全一致。
此外,GLM-4.6V还支持多轮视觉交互,可以直接根据结果用自然语言指令修改网页色彩、调整按钮位置等。
例如,我们在上一轮输出的基础上,要求将网页主题色改为天蓝色,图标X改为Z,并保持原风格。可以看到,修改主题色的要求完成得很完善,但对于图标X改为Z的指令,却误生成了一个“向上箭头”形状。
▲修改网页元素示例
GLM-4.6V将视觉编码器与语言模型的上下文对齐能力提升至128k,在实际应用中,128k上下文相当于约150页文档、200页PPT或一小时视频。
为验证其长上下文文档理解能力,我们向GLM-4.6V提供了三篇网络平台治理领域的论文,包括两篇中文文献和一篇英文文献,要求其阅读后生成一篇学习笔记。
从生成效果来看,图片仍未显示,但文字部分内容齐备、逻辑清晰,每篇文献的核心观点和结论都清晰罗列,英文文献处理也无错漏。
最后,GLM-4.6V还能理解长视频内容。用户可上传一部200M以内的MP4影片,要求其分析视频的拍摄手法、内容和结构等。
例如,我们上传了一段6分48秒的视频制作技巧分享视频,要求其总结视频思路和内容,并给出一些做摄影类自媒体的建议。
▲视频内容理解示例
GLM-4.6V在几秒钟内给出了包含视频思路、叙事技巧、镜头运用和设备选用等的完整详解,并提供了四条循序渐进的成为摄影博主的建议,回答准确且清晰完整。
从实际体验来看,GLM-4.6V在日常工作中已能提供不少帮助,但生成效果尚不稳定,如公众号文章图片无法显示、网页细节修改存在瑕疵等。不过,其价格降至上一版本的一半,轻量版免费,对于想尝试多模态AI的个人或小团队而言,门槛确实降低了不少。
在当前各AI厂商能力日益接近的背景下,谁能将体验做得更流畅、成本更低,谁就更可能吸引更多开发者。
在官方推文中,智谱团队表示本周是其开源发布周,将有更多成果开源,值得期待。
本文由主机测评网于2026-03-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260328142.html