当前位置：首页 > 科技资讯 > 正文

智谱开源GLM-4.6V多模态大模型和AutoGLM智能体

主机测评网
科技资讯
2026-03-02
407

智谱开源GLM-4.6V多模态大模型和AutoGLM智能体智谱AI GLM-4.6V 多模态大模型 AutoGLM 第1张

12月9日，智东西消息，智谱公司于昨晚正式开源了GLM-4.6V系列多模态大模型。该系列包含两个版本：基础版GLM-4.6V（106B-A12B）主要面向云端和高性能计算集群，而轻量版GLM-4.6V-Flash（9B）则更适合本地部署和低延迟应用场景。

另外，在今天上午，智谱又开源了AutoGLM智能体，它类似于“豆包手机助手”。去年10月该智能体首次发布时，就被业界誉为“全球首个具备手机操作能力的AI Agent”。

智谱开源GLM-4.6V多模态大模型和AutoGLM智能体智谱AI GLM-4.6V 多模态大模型 AutoGLM 第2张

▲GLM-4.6V在Hugging Face的开源主页（图源：Hugging Face）

智谱开源GLM-4.6V多模态大模型和AutoGLM智能体智谱AI GLM-4.6V 多模态大模型 AutoGLM 第3张

▲AutoGLM在Hugging Face的开源主页（图源：Hugging Face）

根据官方介绍，GLM-4.6V具备多种能力，包括智能图文混排与内容创作、识图购物与导购、前端复刻与多轮视觉交互开发，以及长上下文文档与视频理解。智东西第一时间对其进行了实际体验。

在实际体验中，GLM-4.6V在图像搜索、全网比价以及长文本和视频理解方面表现稳定，生成文字和网页的速度快且准确。然而，在图文混排能力上，生成的图片始终无法显示。对于模糊指令，GLM-4.6V的理解存在一定偏差。

GLM-4.6V系列模型将训练时的上下文窗口提升至128k tokens，并首次在模型架构中原生融入了Function Call（工具调用）能力。

性能方面，在同等参数规模下，GLM-4.6V系列模型在多模态交互、逻辑推理和长上下文等关键能力上均取得了SOTA表现。

其中，9B版本的GLM-4.6V-Flash在涵盖通用视觉问答、多模态推理、多智能体、多模态长文本、图表识别以及空间定位能力的34项测试中，有22项分数超过了Qwen3-VL-8B。而106B参数12B激活的GLM-4.6V表现则与参数量为2倍的Qwen3-VL-235B相接近。

智谱开源GLM-4.6V多模态大模型和AutoGLM智能体智谱AI GLM-4.6V 多模态大模型 AutoGLM 第4张

▲GLM-4.6V系列模型基准测试结果（图源：z.ai/blog/glm-4.6v）

价格方面，GLM-4.6V系列相比GLM-4.5V降价50%，API调用价格低至输入1元/百万tokens，输出3元/百万tokens。GLM-4.6V-Flash则完全免费。

智谱开源GLM-4.6V多模态大模型和AutoGLM智能体智谱AI GLM-4.6V 多模态大模型 AutoGLM 第5张

▲GLM-4.6V系列模型价格表（图源：智谱AI）

GLM-4.6V开源地址：

GitHub：https://github.com/zai-org/GLM-V

Hugging Face：https://huggingface.co/collections/zai-org/glm-46v

魔搭社区： https://modelscope.cn/collections/GLM-46V-37fabc27818446

GLM-4.6V体验地址： https://chat.z.ai/

01.智能图文混排：可生成推文大纲，但图片显示问题待解

首先测试的是智能图文混排与内容创作能力。GLM-4.6V构建了原生多模态工具调用能力，能够直接理解图像、截图、文档页面等多模态数据，无需事先转换为文字描述再解析。

我们上传了GLM-4.5V的技术报告，要求生成一篇图文并茂的微信公众号文章。大约1-2分钟后，GLM-4.6V便完成了对文档的阅读和理解，输出了包含标题、导语、五个章节及结语的完整公众号文章。然而，多次尝试后，图片仍无法显示。

智谱开源GLM-4.6V多模态大模型和AutoGLM智能体智谱AI GLM-4.6V 多模态大模型 AutoGLM 第6张

▲智能图文混排示例

02.识图购物与导购：自动比价流畅，但模糊搜索理解不足

为了测试GLM-4.6V的识图购物与导购功能，我们直接输入指令：“帮我搜索现在iPhone 17 Pro Max在各平台的价格。”

GLM-4.6V自动调用相关工具在全网搜索，并生成了包含商品名、平台、品牌、商品图、商品链接及店铺名的比价表格，点击链接即可直接跳转至购买页面。

根据购买页面对比，GLM-4.6V搜索出的产品名和价格准确无误，但所对比的商品均来自京东平台，且商品名直接从电商页面提取，存在较多冗余信息，未进行进一步整理。

我们还可以让GLM-4.6V搜索《疯狂动物城2》中尼克狐尼克的同款眼镜。它通过图像搜索功能找到了同款眼镜的实拍图，但未提供购买链接。

智谱开源GLM-4.6V多模态大模型和AutoGLM智能体智谱AI GLM-4.6V 多模态大模型 AutoGLM 第7张

▲模糊搜索导购示例

03.网页复刻：一张图流畅生成网页代码，但图标更换出错

我们上传了一张X平台的登录页面截图，要求GLM-4.6V生成对应的HTML代码和网页预览。

智谱开源GLM-4.6V多模态大模型和AutoGLM智能体智谱AI GLM-4.6V 多模态大模型 AutoGLM 第8张

▲截图生成网页代码示例

智谱开源GLM-4.6V多模态大模型和AutoGLM智能体智谱AI GLM-4.6V 多模态大模型 AutoGLM 第9张

▲生成的网页预览

收到指令后，GLM-4.6V立即开始逐行生成HTML代码，并显示预览页面。可以看出，生成的“仿X”登录网页与原网页几乎完全一致。

此外，GLM-4.6V还支持多轮视觉交互，可以直接根据结果用自然语言指令修改网页色彩、调整按钮位置等。

例如，我们在上一轮输出的基础上，要求将网页主题色改为天蓝色，图标X改为Z，并保持原风格。可以看到，修改主题色的要求完成得很完善，但对于图标X改为Z的指令，却误生成了一个“向上箭头”形状。

智谱开源GLM-4.6V多模态大模型和AutoGLM智能体智谱AI GLM-4.6V 多模态大模型 AutoGLM 第10张

▲修改网页元素示例

04.长上下文的文档理解：可同时处理多篇中英文论文，理解准确

GLM-4.6V将视觉编码器与语言模型的上下文对齐能力提升至128k，在实际应用中，128k上下文相当于约150页文档、200页PPT或一小时视频。

为验证其长上下文文档理解能力，我们向GLM-4.6V提供了三篇网络平台治理领域的论文，包括两篇中文文献和一篇英文文献，要求其阅读后生成一篇学习笔记。

从生成效果来看，图片仍未显示，但文字部分内容齐备、逻辑清晰，每篇文献的核心观点和结论都清晰罗列，英文文献处理也无错漏。

05.视频理解：能快速解析视频内容，但大小有限制

最后，GLM-4.6V还能理解长视频内容。用户可上传一部200M以内的MP4影片，要求其分析视频的拍摄手法、内容和结构等。

例如，我们上传了一段6分48秒的视频制作技巧分享视频，要求其总结视频思路和内容，并给出一些做摄影类自媒体的建议。

智谱开源GLM-4.6V多模态大模型和AutoGLM智能体智谱AI GLM-4.6V 多模态大模型 AutoGLM 第11张

▲视频内容理解示例

GLM-4.6V在几秒钟内给出了包含视频思路、叙事技巧、镜头运用和设备选用等的完整详解，并提供了四条循序渐进的成为摄影博主的建议，回答准确且清晰完整。

06.结语：GLM-4.6V降低了视觉模型应用门槛

从实际体验来看，GLM-4.6V在日常工作中已能提供不少帮助，但生成效果尚不稳定，如公众号文章图片无法显示、网页细节修改存在瑕疵等。不过，其价格降至上一版本的一半，轻量版免费，对于想尝试多模态AI的个人或小团队而言，门槛确实降低了不少。

在当前各AI厂商能力日益接近的背景下，谁能将体验做得更流畅、成本更低，谁就更可能吸引更多开发者。

在官方推文中，智谱团队表示本周是其开源发布周，将有更多成果开源，值得期待。

性价比vps 高防服务器免费vps

本文由主机测评网于2026-03-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260328142.html

智谱开源GLM-4.6V多模态大模型和AutoGLM智能体

01.智能图文混排：可生成推文大纲，但图片显示问题待解

02.识图购物与导购：自动比价流畅，但模糊搜索理解不足

03.网页复刻：一张图流畅生成网页代码，但图标更换出错

04.长上下文的文档理解：可同时处理多篇中英文论文，理解准确

05.视频理解：能快速解析视频内容，但大小有限制

06.结语：GLM-4.6V降低了视觉模型应用门槛

轻松上手：在Ubuntu系统中安装并运行ddns-go（动态DNS客户端配置指南）

家族信托的“陷阱”：从宗庆后案看财富传承的脆弱与重构

智谱开源GLM-4.6V多模态大模型和AutoGLM智能体

01.智能图文混排：可生成推文大纲，但图片显示问题待解

02.识图购物与导购：自动比价流畅，但模糊搜索理解不足

03.网页复刻：一张图流畅生成网页代码，但图标更换出错

04.长上下文的文档理解：可同时处理多篇中英文论文，理解准确

05.视频理解：能快速解析视频内容，但大小有限制

06.结语：GLM-4.6V降低了视觉模型应用门槛

轻松上手：在Ubuntu系统中安装并运行ddns-go（动态DNS客户端配置指南）

家族信托的“陷阱”：从宗庆后案看财富传承的脆弱与重构

相关文章