最新视觉基准测试ClockBench揭示了一个惊人结果:读取模拟时钟这项基础任务,人类平均准确率高达89.1%,而参与测试的11个主流大模型中表现最佳的仅达到13.3%。这道看似简单的“小学题”,为何让先进AI束手无策?是测试设计存在偏差,还是AI在核心推理能力上仍有欠缺?
一项针对模拟时钟读取能力的基准测试显示,超过90%的人类能够轻松完成的任务,顶尖AI模型却集体遭遇滑铁卢。
该测试由AI基准创建者、连续创业者Alek Safar推出,名为ClockBench,专门评估AI系统“看懂”模拟时钟的视觉与推理能力。
测试结果令人震惊:
人类参与者的平均准确率为89.1%,而11个主流大模型中,成绩最好的也仅仅达到13.3%。
就难度等级而言,ClockBench与“AGI终极测试”ARC-AGI-2相当,甚至比所谓的“人类终极考试”更具挑战性。
ClockBench数据集包含180个不同设计的时钟图像,共计720道问题,旨在全面检验当前前沿大语言模型(LLM)在特定视觉推理任务上的局限性。
论文链接:https://clockbench.ai/ClockBench.pdf
尽管这些模型在诸多基准测试中展现了强大的推理、数学与视觉理解能力,但这些能力并未有效转化为“读表”技能。潜在原因包括:训练数据可能缺乏足够多样化的时钟特征与时间组合,迫使模型必须通过实时推理来建立指针、刻度与读数之间的复杂映射关系。同时,时钟的视觉结构难以被完整编码到文本空间中,导致基于文本的推理过程受到限制。
研究中也发现了一线希望:表现最佳的模型已经展现出一定程度的视觉推理能力(尽管仍然有限)。其在读取时间上的准确率与中位误差均显著优于随机猜测水平。未来需要进一步探索,这些能力是否可以通过扩展现有范式(如增加数据、扩大模型规模、提升计算与推理预算)来获得,还是必须依赖全新的方法突破。
近年来,大语言模型(LLM)在多领域取得显著进展,导致许多流行基准测试迅速被模型“饱和”攻克。
即便是那些专门设计用于考察“专业知识与强推理能力”的最新基准,也很快被模型突破。
一个典型例子是“人类终极考试”(Humanity’s Last Exam):
在该基准上,OpenAI的GPT-4o最初得分仅为2.7%,而xAI的Grok 4则提升至25.4%;
结合工具使用等优化策略后,部分模型的成绩甚至能够进入40–50%的区间。
然而,研究社区依然发现,一些对人类而言轻而易举的任务,AI的表现却差强人意。
因此,像SimpleBench和ARC-AGI这类基准应运而生,它们的设计理念是:对普通人来说非常简单,但对LLM却异常困难。
ClockBench正是受这种“人类易,AI难”的思路启发而构建。研究团队基于一个关键观察:无论对于推理型还是非推理型模型,准确解读模拟时钟同样具有挑战性。因此,ClockBench构建了一个需要高度视觉精度和复杂推理能力的稳健数据集。
ClockBench的具体构成如下:
测试问题主要分为四大类别:
1. 判断时间有效性
给定一个时钟图像🕰️,模型需要判断其显示的时间是否合法有效。
如果时间有效,模型需要将其分解为多个组成部分,并以JSON格式输出:小时(Hours)、分钟(Minutes)、秒(Seconds)、日期(Date)、月份(Month)、星期几(Day of the week)。只要表盘包含相关元素,模型就需要一并输出。
2. 时间的加减计算
此任务要求模型对给定时间进行加减运算,并得出新的时间结果。
3. 旋转时钟指针
此项任务涉及操作时钟的指针。模型需要选择时针、分针或秒针,并按照指定角度和方向(顺时针或逆时针)进行旋转模拟。
4. 时区转换
此项任务考察全球不同地区的时间换算🌍。例如,给定纽约的夏令时,模型需要推算出其他指定地点的当地时间。
测试结果带来了哪些意料之外的发现?
表现较弱模型的误差大约在3小时左右,结合12小时制表盘的循环特性,这几乎等同于随机猜测的水平。
另一个有趣的发现是,对于时钟某些特定特征的识别,难度存在显著差异:
值得注意的是,除了直接读取时间外,模型在其他类型问题上的表现反而相对更好:
在不同模型的横向对比中,总体趋势显示:规模更大、注重推理的模型普遍优于规模较小或非专门推理优化的模型。
然而,也存在一些值得关注的现象:
GPT-5在此次测试中排名第三,且增加推理预算对结果改善影响不大(中等与高预算下的得分高度接近)。这引发思考:究竟是何种因素制约了GPT-5在此类视觉推理任务上的表现?
在原始数据集中,180个时钟里有37个显示的是无效(不可能存在)的时间。无论是人类还是AI模型,在识别这些“无效时间”时都表现出更高的成功率:
在模型能够正确读取时间的时钟图像上,存在明显的重叠现象:
整体分布表明,模型的正确答案集中在一小部分相对“容易”的时钟图像上,而非均匀覆盖整个数据集。
https://x.com/alek_safar/status/1964383077792141390
https://clockbench.ai/
本文由主机测评网于2025-12-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20251213828.html