智东西8月11日报道,今晚,智谱宣布开源其最新一代视觉理解模型GLM-4.5V。此模型基于智谱新一代文本基座模型GLM-4.5-Air训练而来,沿袭上一代视觉推理模型GLM-4.1V-Thinking的技术路线,具备1060亿参数,120亿激活参数。GLM-4.5V新增了思考模式的开关功能,用户可自主控制模型是否进行推理。
该模型的视觉能力带来了一系列有趣的玩法。例如,模型现在能区分麦当劳和肯德基的炸鸡翅,并从色泽、外皮质感等角度进行全面分析。
GLM-4.5V还能看图猜地点。智谱称,GLM-4.5V与人类玩家共同参与了拍图猜地点比赛,加入7天后,GLM-4.5V的积分排名第六十六,超越了99%的人类用户。
智东西利用这一模型根据网页截图复刻了小红书网页,实现了高度相似。
智谱分享了GLM-4.5V在42个基准测试中的成绩,涵盖图像、视频、文档理解及图形界面智能体操作等任务。GLM-4.5V在其中41个测试中得分超过同尺寸模型,如Step-3、Qwen2.5-VL等。
目前,该模型已在开源平台Hugging Face、魔搭、GitHub发布,并提供了FP8量化版本。智谱还推出了一款体验App,但仅支持Mac端(且需非Intel芯片)。
用户可在z.ai选择GLM-4.5V模型,上传图片或视频体验,或在智谱清言APP/网页版上传图片,开启“推理模式”。
为帮助开发者体验GLM-4.5V的模型能力,智谱同步开源了一款桌面助手应用。该应用可实时截屏、录屏获取屏幕信息,依托GLM-4.5V处理多种视觉推理任务,如代码辅助、视频内容分析、游戏解答、文档解读等。
GLM-4.5V API现已上线智谱开放平台BigModel.cn,并提供2000万tokens的免费资源包。其API最低价为每百万输入tokens/2元、每百万输出tokens/6元,支持图像、视频、文件和文本输入。
模型发布后,智东西第一时间体验了其能力,并梳理了背后的技术创新。
模型开源地址:
https://github.com/zai-org/GLM-V
https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102
https://modelscope.cn/collections/GLM-45V-8b471c8f97154e
桌面助手开源地址:
https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App
智东西在桌面助手应用中体验了模型的部分功能。该应用提供思考开关等设置,用户可自定义提示词、模型设置等,自由度较高。
要使用模型,用户需提供GLM-4.5V的API密钥,可在智谱开放平台获取。
本文由主机测评网于2026-04-21发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260439284.html