当前位置：首页 > 科技资讯 > 正文

智谱开源GLM-4.5V视觉模型，解锁复杂视觉推理

主机测评网
科技资讯
2026-04-21
591

智东西8月11日报道，今晚，智谱宣布开源其最新一代视觉理解模型GLM-4.5V。此模型基于智谱新一代文本基座模型GLM-4.5-Air训练而来，沿袭上一代视觉推理模型GLM-4.1V-Thinking的技术路线，具备1060亿参数，120亿激活参数。GLM-4.5V新增了思考模式的开关功能，用户可自主控制模型是否进行推理。

该模型的视觉能力带来了一系列有趣的玩法。例如，模型现在能区分麦当劳和肯德基的炸鸡翅，并从色泽、外皮质感等角度进行全面分析。

智谱开源GLM-4.5V视觉模型，解锁复杂视觉推理 GLM-4.5V 视觉理解多模态 Agent 第1张

GLM-4.5V还能看图猜地点。智谱称，GLM-4.5V与人类玩家共同参与了拍图猜地点比赛，加入7天后，GLM-4.5V的积分排名第六十六，超越了99%的人类用户。

智谱开源GLM-4.5V视觉模型，解锁复杂视觉推理 GLM-4.5V 视觉理解多模态 Agent 第2张

智东西利用这一模型根据网页截图复刻了小红书网页，实现了高度相似。

智谱开源GLM-4.5V视觉模型，解锁复杂视觉推理 GLM-4.5V 视觉理解多模态 Agent 第3张

智谱分享了GLM-4.5V在42个基准测试中的成绩，涵盖图像、视频、文档理解及图形界面智能体操作等任务。GLM-4.5V在其中41个测试中得分超过同尺寸模型，如Step-3、Qwen2.5-VL等。

智谱开源GLM-4.5V视觉模型，解锁复杂视觉推理 GLM-4.5V 视觉理解多模态 Agent 第4张

目前，该模型已在开源平台Hugging Face、魔搭、GitHub发布，并提供了FP8量化版本。智谱还推出了一款体验App，但仅支持Mac端（且需非Intel芯片）。

用户可在z.ai选择GLM-4.5V模型，上传图片或视频体验，或在智谱清言APP/网页版上传图片，开启“推理模式”。

为帮助开发者体验GLM-4.5V的模型能力，智谱同步开源了一款桌面助手应用。该应用可实时截屏、录屏获取屏幕信息，依托GLM-4.5V处理多种视觉推理任务，如代码辅助、视频内容分析、游戏解答、文档解读等。

GLM-4.5V API现已上线智谱开放平台BigModel.cn，并提供2000万tokens的免费资源包。其API最低价为每百万输入tokens/2元、每百万输出tokens/6元，支持图像、视频、文件和文本输入。

智谱开源GLM-4.5V视觉模型，解锁复杂视觉推理 GLM-4.5V 视觉理解多模态 Agent 第5张

模型发布后，智东西第一时间体验了其能力，并梳理了背后的技术创新。

模型开源地址：

https://github.com/zai-org/GLM-V

https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102

https://modelscope.cn/collections/GLM-45V-8b471c8f97154e

桌面助手开源地址：

https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App