当前位置：首页 > 科技资讯 > 正文

ClockBench视觉基准测试：AI读钟能力大幅落后人类，暴露推理短板

主机测评网
科技资讯
2025-12-29
374

最新视觉基准测试ClockBench揭示了一个惊人结果：读取模拟时钟这项基础任务，人类平均准确率高达89.1%，而参与测试的11个主流大模型中表现最佳的仅达到13.3%。这道看似简单的“小学题”，为何让先进AI束手无策？是测试设计存在偏差，还是AI在核心推理能力上仍有欠缺？

一项针对模拟时钟读取能力的基准测试显示，超过90%的人类能够轻松完成的任务，顶尖AI模型却集体遭遇滑铁卢。

该测试由AI基准创建者、连续创业者Alek Safar推出，名为ClockBench，专门评估AI系统“看懂”模拟时钟的视觉与推理能力。

测试结果令人震惊：

人类参与者的平均准确率为89.1%，而11个主流大模型中，成绩最好的也仅仅达到13.3%。

ClockBench视觉基准测试：AI读钟能力大幅落后人类，暴露推理短板 ClockBench AI视觉推理模拟时钟大模型评估第1张

就难度等级而言，ClockBench与“AGI终极测试”ARC-AGI-2相当，甚至比所谓的“人类终极考试”更具挑战性。

ClockBench视觉基准测试：AI读钟能力大幅落后人类，暴露推理短板 ClockBench AI视觉推理模拟时钟大模型评估第2张

ClockBench数据集包含180个不同设计的时钟图像，共计720道问题，旨在全面检验当前前沿大语言模型（LLM）在特定视觉推理任务上的局限性。

ClockBench视觉基准测试：AI读钟能力大幅落后人类，暴露推理短板 ClockBench AI视觉推理模拟时钟大模型评估第3张

论文链接：https://clockbench.ai/ClockBench.pdf

尽管这些模型在诸多基准测试中展现了强大的推理、数学与视觉理解能力，但这些能力并未有效转化为“读表”技能。潜在原因包括：训练数据可能缺乏足够多样化的时钟特征与时间组合，迫使模型必须通过实时推理来建立指针、刻度与读数之间的复杂映射关系。同时，时钟的视觉结构难以被完整编码到文本空间中，导致基于文本的推理过程受到限制。

研究中也发现了一线希望：表现最佳的模型已经展现出一定程度的视觉推理能力（尽管仍然有限）。其在读取时间上的准确率与中位误差均显著优于随机猜测水平。未来需要进一步探索，这些能力是否可以通过扩展现有范式（如增加数据、扩大模型规模、提升计算与推理预算）来获得，还是必须依赖全新的方法突破。

ClockBench如何深度评估AI能力？

近年来，大语言模型（LLM）在多领域取得显著进展，导致许多流行基准测试迅速被模型“饱和”攻克。

ClockBench视觉基准测试：AI读钟能力大幅落后人类，暴露推理短板 ClockBench AI视觉推理模拟时钟大模型评估第4张

即便是那些专门设计用于考察“专业知识与强推理能力”的最新基准，也很快被模型突破。

一个典型例子是“人类终极考试”（Humanity’s Last Exam）：

在该基准上，OpenAI的GPT-4o最初得分仅为2.7%，而xAI的Grok 4则提升至25.4%；

结合工具使用等优化策略后，部分模型的成绩甚至能够进入40–50%的区间。

然而，研究社区依然发现，一些对人类而言轻而易举的任务，AI的表现却差强人意。

ClockBench视觉基准测试：AI读钟能力大幅落后人类，暴露推理短板 ClockBench AI视觉推理模拟时钟大模型评估第5张

因此，像SimpleBench和ARC-AGI这类基准应运而生，它们的设计理念是：对普通人来说非常简单，但对LLM却异常困难。

ClockBench正是受这种“人类易，AI难”的思路启发而构建。研究团队基于一个关键观察：无论对于推理型还是非推理型模型，准确解读模拟时钟同样具有挑战性。因此，ClockBench构建了一个需要高度视觉精度和复杂推理能力的稳健数据集。

ClockBench的具体构成如下：

包含36个全新设计的定制表盘，每个表盘衍生出5个样本时钟。
总计180个时钟图像，每个时钟对应4个问题，共形成720道测试题目。
测试涵盖了来自6家研究机构的11个具备视觉理解能力的模型，并与5名人类参与者的表现进行对比。

ClockBench视觉基准测试：AI读钟能力大幅落后人类，暴露推理短板 ClockBench AI视觉推理模拟时钟大模型评估第6张

测试问题主要分为四大类别：

1. 判断时间有效性

给定一个时钟图像🕰️，模型需要判断其显示的时间是否合法有效。

ClockBench视觉基准测试：AI读钟能力大幅落后人类，暴露推理短板 ClockBench AI视觉推理模拟时钟大模型评估第7张

如果时间有效，模型需要将其分解为多个组成部分，并以JSON格式输出：小时(Hours)、分钟(Minutes)、秒(Seconds)、日期(Date)、月份(Month)、星期几(Day of the week)。只要表盘包含相关元素，模型就需要一并输出。

2. 时间的加减计算

此任务要求模型对给定时间进行加减运算，并得出新的时间结果。

3. 旋转时钟指针

此项任务涉及操作时钟的指针。模型需要选择时针、分针或秒针，并按照指定角度和方向（顺时针或逆时针）进行旋转模拟。

4. 时区转换

此项任务考察全球不同地区的时间换算🌍。例如，给定纽约的夏令时，模型需要推算出其他指定地点的当地时间。

测试结果揭示深层差距

测试结果带来了哪些意料之外的发现？

模型与人类不仅在正确率上存在巨大鸿沟，其错误模式也完全不同。
人类参与者的时间读取误差中位数仅为3分钟，而表现最佳模型的误差中位数高达1小时。

表现较弱模型的误差大约在3小时左右，结合12小时制表盘的循环特性，这几乎等同于随机猜测的水平。

ClockBench视觉基准测试：AI读钟能力大幅落后人类，暴露推理短板 ClockBench AI视觉推理模拟时钟大模型评估第8张

另一个有趣的发现是，对于时钟某些特定特征的识别，难度存在显著差异：

在读取设计非常规的复杂钟表以及需要高精度判读的场景时，模型的表现最差。
罗马数字与环形数字的朝向最难被模型识别，其次是秒针位置、杂乱背景干扰以及镜像时钟。

ClockBench视觉基准测试：AI读钟能力大幅落后人类，暴露推理短板 ClockBench AI视觉推理模拟时钟大模型评估第9张

值得注意的是，除了直接读取时间外，模型在其他类型问题上的表现反而相对更好：

表现最佳的模型能够以较高精度回答时间加减、指针旋转角度计算或时区转换问题，在某些场景下准确率甚至可达100%。

ClockBench视觉基准测试：AI读钟能力大幅落后人类，暴露推理短板 ClockBench AI视觉推理模拟时钟大模型评估第10张

在不同模型的横向对比中，总体趋势显示：规模更大、注重推理的模型普遍优于规模较小或非专门推理优化的模型。

然而，也存在一些值得关注的现象：

谷歌的Gemini 2.5系列模型在各自类别中往往处于领先地位；
Anthropic的系列模型则普遍落后于同级别竞争对手；
xAI的Grok 4表现远低于其模型规模与通用能力所应达到的预期水平。

ClockBench视觉基准测试：AI读钟能力大幅落后人类，暴露推理短板 ClockBench AI视觉推理模拟时钟大模型评估第11张

GPT-5在此次测试中排名第三，且增加推理预算对结果改善影响不大（中等与高预算下的得分高度接近）。这引发思考：究竟是何种因素制约了GPT-5在此类视觉推理任务上的表现？

在原始数据集中，180个时钟里有37个显示的是无效（不可能存在）的时间。无论是人类还是AI模型，在识别这些“无效时间”时都表现出更高的成功率：

人类差异较小：在无效时钟上的准确率为96.2%，在有效时钟上为89.1%；
模型差异显著：在无效时钟上的准确率平均高出349%，所有模型在此类任务中表现均更优；
Gemini 2.5 Pro依旧是总体最佳模型，识别无效时钟的准确率达到40.5%；
Grok 4则成为一个异常值：它在识别无效时钟上的准确率最高，达64.9%，但问题在于，它将整个数据集中63.3%的时钟都标记为无效，这表明其结果很可能含有大量“随机猜对”的成分。