据智东西12月9日消息,智谱AI正式开源了GLM-4.6V系列多模态大型模型,包含面向云端与高性能集群场景的基础版GLM-4.6V(106B-A12B),以及针对本地部署与低延迟应用的轻量版GLM-4.6V-Flash(9B)。
此外,今天上午,智谱还开源了AutoGLM,这款智能体类似于“豆包手机助手”,在去年10月发布时被业界视为“全球首个具备手机操作能力的AI Agent”。
▲GLM-4.6V开源主页(图源:Hugging Face)
▲AutoGLM开源主页(图源:Hugging Face)
官方介绍指出,GLM-4.6V能够高效完成智能图文混排与内容创作、识图购物与导购、前端复刻与多轮视觉交互开发以及长上下文的文档与视频理解等多样化任务,智东西在第一时间对其进行了深度体验。
在实际测试中,GLM-4.6V的图像搜索、全网比价以及长文本和视频的理解能力表现稳定,生成文字和网页的速度迅速、内容准确。但在图文混排方面,生成的图片仍无法显示。对于模糊指令,模型的理解存在细微偏差。
GLM-4.6V系列模型将训练时的上下文窗口扩展到128k tokens,并首次在模型架构中将Function Call(工具调用)能力原生集成到视觉模型中。
在性能上,同等参数规模下,GLM-4.6V系列模型在多模态交互、逻辑推理和长上下文等关键能力上实现了SOTA表现。
其中,9B版本的GLM-4.6V-Flash在覆盖通用视觉问答、多模态推理、多智能体、多模态长文本、图表识别以及空间定位能力的34项测试中,有22项分数超越Qwen3-VL-8B;106B参数12B激活的GLM-4.6V表现则与参数量翻倍的Qwen3-VL-235B相近。
▲GLM-4.6V系列模型基准测试(图源:z.ai/blog/glm-4.6v)
价格方面,GLM-4.6V系列相比GLM-4.5V降价50%,API调用价格低至输入1元/百万tokens,输出3元/百万tokens,GLM-4.6V-Flash则完全免费。
▲GLM-4.6V系列模型价格表(图源:智谱AI)
GLM-4.6V开源地址:
GitHub:https://github.com/zai-org/GLM-V
Hugging Face:https://huggingface.co/collections/zai-org/glm-46v
魔搭社区: https://modelscope.cn/collections/GLM-46V-37fabc27818446
GLM-4.6V体验地址: https://chat.z.ai/
首先测试智能图文混排与内容创作能力。GLM-4.6V构建了原生多模态工具调用能力,能够直接解析图像、截图、文档页面等多模态数据,无需预先转换为文字描述。
我们上传了GLM-4.5V的技术报告,要求生成一篇图文并茂的微信公众号文章。约1-2分钟后,GLM-4.6V完成了对整个文档的阅读和理解,输出了包含标题、导语、五个章节及结语的完整公众号文章,但经过多次尝试,生成的图片始终无法显示。
▲智能图文混排
为体验GLM-4.6V识图购物与导购功能,我们直接输入“帮我搜索现在iPhone 17 Pro Max在各平台的价格。”
GLM-4.6V自动调用相关工具进行全网搜索,并生成包含商品名、平台、品牌、商品图、商品链接及店铺名的比价表格,点击链接即可跳转购买页面。
根据购买页面对比,GLM-4.6V搜索出的产品名称和价格均正确,但对比商品全部来自京东平台,且商品名包含冗余信息,未做进一步整理。
我们还尝试让GLM-4.6V搜索《疯狂动物城2》中尼克狐尼克的同款眼镜,模型通过图像搜索功能直接找到了同款眼镜的实拍图,但未提供购买链接。
▲模糊搜索导购
我们上传了一张X平台的登录页面截图,要求GLM-4.6V生成HTML代码和网页预览。
▲截图生成网页代码
▲生成网页预览
收到指令后,GLM-4.6V立即开始逐行生成HTML代码,并显示预览页面。可以看出,其生成的“仿X”登录网页与原网页几乎一致。
此外,GLM-4.6V还支持多轮视觉交互,可直接根据结果用自然语言指令修改网页色彩、调整按钮位置等。
例如,在上一轮输出基础上,我们要求将网页主题色改为天蓝色,图标X改为Z,同时保持原风格。针对主题色修改,GLM-4.6V完成得很好,但对于图标更改指令,模型误生成了一个“向上箭头”形状。
▲修改网页元素
GLM-4.6V将视觉编码器与语言模型的上下文对齐能力提升至128k,实际应用中,128k上下文相当于150页文档、200页PPT或一小时视频。
为验证其长上下文文档理解能力,我们上传了三篇网络平台治理领域的论文(两篇中文、一篇英文),要求模型阅读并生成学习笔记。
从GLM-4.6V生成的结果看,图片仍未显示,但文字部分内容完整、逻辑清晰,每篇文献的核心观点和结论都被准确罗列,英文文献处理无误。
GLM-4.6V还能理解长视频内容,用户可上传200M以内的MP4影片,要求分析视频的拍摄手法、内容、结构等。
例如,我们上传了一段6分48秒的视频制作技巧分享视频,要求总结视频思路和内容,并提供摄影类自媒体的建议。
▲视频内容理解
GLM-4.6V在几秒内给出了包含视频思路、叙事技巧、镜头运用和设备选用的完整详解,并提供了四条循序渐进的摄影博主建议,回答准确且完整。
从实际体验看,GLM-4.6V在日常工作中已能提供显著帮助,但生成效果仍不稳定,例如公众号文章图片无法显示、修改网页细节时存在瑕疵。然而,其价格降至上一版本的一半,轻量版完全免费,对于希望尝试多模态AI的个人或小团队来说,接入门槛大幅降低。
在当前各家AI能力日益接近的背景下,谁能将用户体验做得更流畅、成本更低,谁就可能吸引更多开发者。
在官方推文中,智谱团队表示本周是其开源发布周,将有更多成果陆续开源,值得期待。
本文由主机测评网于2026-02-06发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260223384.html