当前位置：首页 > 科技资讯 > 正文

大模型视觉能力不及3岁孩童，新评测集揭示短板

主机测评网
科技资讯
2026-06-11
991

尽管大模型在语言推理方面表现出色，但其视觉处理能力却未能达到同样惊艳的水平。最新的测试结果揭示了这一残酷现实。

1月12日，红杉中国xbench携手UniPatAI团队共同发布了全新多模态理解评测集BabyVision，旨在精准测评大模型的核心视觉能力。这一评测集的问世，为我们提供了一个深入了解大模型视觉表现的新视角。

根据UniPatAI发布的技术论文，该评测集的首轮测试结果显示，当前绝大多数顶尖多模态大模型在视觉任务上的表现都显著落后于3岁儿童的水平，仅有一款模型勉强超过这一基线。这一结果无疑令人震惊，也让我们不得不重新审视大模型的视觉能力。

大模型视觉能力不及3岁孩童，新评测集揭示短板大模型视觉能力 BabyVision 视觉任务第1张

出现如此巨大的反差，其实也并不难理解。由于日常中模型强大的语言推理能力，其视觉信息处理能力的不足往往被掩盖。当大模型面对图像问题时，它们通常会使用文字进行描述，然而这种转换方式存在局限性。值得注意的是，这并不是真正的视觉能力，而是一种基于文字信息的推理能力。因此，一旦失去语言能力的加持，其在视觉信息处理中的短板便暴露无遗。

01 多数模型表现不如3岁小孩

基于此背景，UniPatAI团队成员们为用于首轮测试的BabyVision-Mini，设计了包含20道视觉中心任务，并严格控制语言依赖，所有题目答案均需完全依靠视觉信息得出。同时，团队还分别组织了3岁、6岁、10岁、12岁四个年龄段的儿童作为对照组进行测试。

测试结果显示，大多数顶尖模型的得分都明显低于3岁儿童的平均水平。唯一表现较好的Gemini3-Pro-Preview模型也仅能勉强超过3岁基线，但与6岁儿童相比仍存在约20个百分点的差距。

大模型视觉能力不及3岁孩童，新评测集揭示短板大模型视觉能力 BabyVision 视觉任务第2张

例如，在BabyVision-Mini中的一道“垃圾分类”连线题，要求将“塑料杯”“废报纸”“苹果核”分别通过路径连线到对应颜色的垃圾桶，正确答案为A-蓝、B-黄、C-绿。三岁儿童仅凭本能就能轻松完成作答，而最强的Gemini3-Pro-Preview模型虽然进行了大量的推理过程，但最终仍给出了错误的答案。

大模型视觉能力不及3岁孩童，新评测集揭示短板大模型视觉能力 BabyVision 视觉任务第3张