当前位置:首页 > 科技资讯 > 正文

大模型视觉能力不及3岁孩童,新评测集揭示短板

尽管大模型在语言推理方面表现出色,但其视觉处理能力却未能达到同样惊艳的水平。最新的测试结果揭示了这一残酷现实。

1月12日,红杉中国xbench携手UniPatAI团队共同发布了全新多模态理解评测集BabyVision,旨在精准测评大模型的核心视觉能力。这一评测集的问世,为我们提供了一个深入了解大模型视觉表现的新视角。

根据UniPatAI发布的技术论文,该评测集的首轮测试结果显示,当前绝大多数顶尖多模态大模型在视觉任务上的表现都显著落后于3岁儿童的水平,仅有一款模型勉强超过这一基线。这一结果无疑令人震惊,也让我们不得不重新审视大模型的视觉能力。

大模型视觉能力不及3岁孩童,新评测集揭示短板 大模型 视觉能力 BabyVision 视觉任务 第1张

出现如此巨大的反差,其实也并不难理解。由于日常中模型强大的语言推理能力,其视觉信息处理能力的不足往往被掩盖。当大模型面对图像问题时,它们通常会使用文字进行描述,然而这种转换方式存在局限性。值得注意的是,这并不是真正的视觉能力,而是一种基于文字信息的推理能力。因此,一旦失去语言能力的加持,其在视觉信息处理中的短板便暴露无遗。

01

多数模型表现不如3岁小孩

基于此背景,UniPatAI团队成员们为用于首轮测试的BabyVision-Mini,设计了包含20道视觉中心任务,并严格控制语言依赖,所有题目答案均需完全依靠视觉信息得出。同时,团队还分别组织了3岁、6岁、10岁、12岁四个年龄段的儿童作为对照组进行测试。

测试结果显示,大多数顶尖模型的得分都明显低于3岁儿童的平均水平。唯一表现较好的Gemini3-Pro-Preview模型也仅能勉强超过3岁基线,但与6岁儿童相比仍存在约20个百分点的差距。

大模型视觉能力不及3岁孩童,新评测集揭示短板 大模型 视觉能力 BabyVision 视觉任务 第2张

例如,在BabyVision-Mini中的一道“垃圾分类”连线题,要求将“塑料杯”“废报纸”“苹果核”分别通过路径连线到对应颜色的垃圾桶,正确答案为A-蓝、B-黄、C-绿。三岁儿童仅凭本能就能轻松完成作答,而最强的Gemini3-Pro-Preview模型虽然进行了大量的推理过程,但最终仍给出了错误的答案。

大模型视觉能力不及3岁孩童,新评测集揭示短板 大模型 视觉能力 BabyVision 视觉任务 第3张

随后,团队将测试扩展到了包含388道题目的全量BabyVision-Full评测。此时,人类对照组的准确率已经高达94.1%,而模型的表现则相对黯淡。

02

视觉能力的全方位不足

值得注意的是,UniPat AI的技术论文还指出,这不仅仅是大模型的单一方面不足,而是视觉能力的四大类别(精细辨别、视觉追踪、空间感知以及视觉模式识别)上的全方位不足。这说明了这是大模型基础视觉能力存在系统性缺失。

大模型视觉能力不及3岁孩童,新评测集揭示短板 大模型 视觉能力 BabyVision 视觉任务 第4张

对此,团队统计出了模型主要面临的四大典型挑战:

第一类挑战来自“非语言细节”的缺失。人类在处理拼图补全等任务时,能凭几何直觉直接感知边界对齐等细微差异;而模型一旦将形状描述为“像钩子、有两个腿”等语言概括,细微的视觉差异就被抹平。

大模型视觉能力不及3岁孩童,新评测集揭示短板 大模型 视觉能力 BabyVision 视觉任务 第5张

大模型视觉能力不及3岁孩童,新评测集揭示短板 大模型 视觉能力 BabyVision 视觉任务 第6张

第二类挑战体现在轨迹追踪任务中。人类是锁定一条线并一路追到终点,而模型则会将轨迹翻译成“左/右/上/下”的离散步骤。

第三类挑战是空间想象能力缺失。在三维方块计数等任务中,人类会在脑海中保持三维结构的形状并变换视角进行判断;而模型依靠语言推理但文字描述并非真实,导致漏掉隐藏块。

大模型视觉能力不及3岁孩童,新评测集揭示短板 大模型 视觉能力 BabyVision 视觉任务 第7张

大模型视觉能力不及3岁孩童,新评测集揭示短板 大模型 视觉能力 BabyVision 视觉任务 第8张

最后一大挑战是图形规律归纳难题。此类题目要求从少量视觉示例中找规则。人类做的是关系映射而模型会关注图像的颜色等属性导致迁移时幻觉规则。

大模型视觉能力不及3岁孩童,新评测集揭示短板 大模型 视觉能力 BabyVision 视觉任务 第9张