当前位置:首页 > 科技资讯 > 正文

智谱开源GLM-4.5V视觉模型,解锁复杂视觉推理

智东西8月11日报道,今晚,智谱宣布开源其最新一代视觉理解模型GLM-4.5V。此模型基于智谱新一代文本基座模型GLM-4.5-Air训练而来,沿袭上一代视觉推理模型GLM-4.1V-Thinking的技术路线,具备1060亿参数,120亿激活参数。GLM-4.5V新增了思考模式的开关功能,用户可自主控制模型是否进行推理。

该模型的视觉能力带来了一系列有趣的玩法。例如,模型现在能区分麦当劳和肯德基的炸鸡翅,并从色泽、外皮质感等角度进行全面分析。

智谱开源GLM-4.5V视觉模型,解锁复杂视觉推理 GLM-4.5V 视觉理解 多模态 Agent 第1张

GLM-4.5V还能看图猜地点。智谱称,GLM-4.5V与人类玩家共同参与了拍图猜地点比赛,加入7天后,GLM-4.5V的积分排名第六十六,超越了99%的人类用户。

智谱开源GLM-4.5V视觉模型,解锁复杂视觉推理 GLM-4.5V 视觉理解 多模态 Agent 第2张

智东西利用这一模型根据网页截图复刻了小红书网页,实现了高度相似。

智谱开源GLM-4.5V视觉模型,解锁复杂视觉推理 GLM-4.5V 视觉理解 多模态 Agent 第3张

智谱分享了GLM-4.5V在42个基准测试中的成绩,涵盖图像、视频、文档理解及图形界面智能体操作等任务。GLM-4.5V在其中41个测试中得分超过同尺寸模型,如Step-3、Qwen2.5-VL等。

智谱开源GLM-4.5V视觉模型,解锁复杂视觉推理 GLM-4.5V 视觉理解 多模态 Agent 第4张

目前,该模型已在开源平台Hugging Face、魔搭、GitHub发布,并提供了FP8量化版本。智谱还推出了一款体验App,但仅支持Mac端(且需非Intel芯片)。

用户可在z.ai选择GLM-4.5V模型,上传图片或视频体验,或在智谱清言APP/网页版上传图片,开启“推理模式”。

为帮助开发者体验GLM-4.5V的模型能力,智谱同步开源了一款桌面助手应用。该应用可实时截屏、录屏获取屏幕信息,依托GLM-4.5V处理多种视觉推理任务,如代码辅助、视频内容分析、游戏解答、文档解读等。

GLM-4.5V API现已上线智谱开放平台BigModel.cn,并提供2000万tokens的免费资源包。其API最低价为每百万输入tokens/2元、每百万输出tokens/6元,支持图像、视频、文件和文本输入。

智谱开源GLM-4.5V视觉模型,解锁复杂视觉推理 GLM-4.5V 视觉理解 多模态 Agent 第5张

模型发布后,智东西第一时间体验了其能力,并梳理了背后的技术创新。

模型开源地址:

https://github.com/zai-org/GLM-V

https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102

https://modelscope.cn/collections/GLM-45V-8b471c8f97154e

桌面助手开源地址:

https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App

实测:看图报地点略有误差,网页复现相似度较高

智东西在桌面助手应用中体验了模型的部分功能。该应用提供思考开关等设置,用户可自定义提示词、模型设置等,自由度较高。

智谱开源GLM-4.5V视觉模型,解锁复杂视觉推理 GLM-4.5V 视觉理解 多模态 Agent 第6张

要使用模型,用户需提供GLM-4.5V的API密钥,可在智谱开放平台获取。