近日,互联网用户们被AI的「手指计数问题」彻底难倒。当展示一张六指手的图片时,AI始终无法准确标注手指数量。这背后,是否暴露了Transformer架构的「阿喀琉斯之踵」?
最近几天,整个网络陷入热议——
AI,正通过数手指来挑战人类的认知。
人类向AI提出的任务很简单:在图片中的每根手指上,按顺序标记数字。
当然,题目设置了一个小陷阱,即这只手实际上有六根手指。
结果,Nano Banana Pro毫不犹豫地在手上标注了1、2、3、4、5,完全忽略了其中一根手指。
这荒谬的场景,再次让网友们感到震惊。
AI模型真的如此愚蠢吗?
许多人持否定态度——或许,AI只是在假装无知,以此戏弄人类。
很可能,它是在嘲讽那些试图测试自己的普通用户。
为了通过图灵测试,AI可能需要表现得稍显笨拙,以更接近人类行为。如果过于聪明,人类反而会感到不安。
有人将这个问题提交给GPT-5.2,并在提示中明确说明图片中有六根手指。
但面对「图中有几根手指」的提问,GPT-5.2仍然坚定地回答:五根!
其理由是:人类通常有五根手指,因此图片中若出现其他数量便是错误的。
还有人绘制了形状怪异的手指,连人类都难以辨认。
但对于这张图片,Nano Banana Pro依旧果断回应:5根,我确信,就是5根!
总之,无论图片如何变化,AI始终无法数出6根手指。
有些人不服输,非要让模型正确标注数字。
他直接给出指示:将数字4左移一个手指,将数字5左移一个手指,然后在大拇指位置写上6。
这应该足够清晰了吧?然而,模型依然不听从,直接忽略了数字3。
用户几乎被逼到崩溃。
其他网友为了帮助他,想出各种奇招,比如让模型将手绘数字改为电子版本,终于取得成功。
也有人指示模型从小指到大拇指依次放置数字,避免重复,结果也成功了。
那么,为什么AI很难正确数出手指数量呢?
有人给出解释:AI寻找的是基本形状,而非精确图像,然后将该形状代表的传统认知与实际外观进行比较。
有人猜测,是否可以通过告诉AI这不是手,而是不规则物体,来规避AI大脑中的「偏见」?
结果,这一策略果然奏效。
网友们随后测试了各种奇异形状的手,果然,这次Gemini就给出了正确答案。
或许AI之前已被训练识别特定的表情符号,如果换成其他图像,它反而能进行正确的视觉推理。
这次AI数手指的失败,揭示了当前模型的一个关键弱点——思维过程的机械化和碎片化。
很可能,文本模型看到指令后,内部逻辑是:「手有五根手指,因此需要五个数字。」
所以,即使它「看到」了六指图像,其视觉识别能力也不足以纠正这种根深蒂固的文本认知。
为什么AI如此坚持「五指」概念?这源于其训练数据的基本特征。
在人类手部图像数据中,五指手占据绝对主导地位。
模型已从海量数据中学到「人手=五指」这一强关联,以至于当情况偏离时,模型会视为异常并自动纠错,而不是接受新事实。
具体来说,当前AI视觉系统的工作方式,本质上是将复杂场景简化为一系列可识别模式。
当面对像六指手这样同时包含常见元素(手部)和罕见特征(多指)的图像时,系统倾向于将其强行纳入已知模式。
图像分类器通常输出边界框和标签,但当遇到训练分布之外的物体时,边界框可能缺失或错误合并多个对象。
一个残酷的事实是,性能再强大的模型,也不真正理解「5根手指」的概念。
因为,AI看到的是纹理、形状和概率,而不是结构、数量或实体。
手指难题也凸显了Transformer架构的一个主要弱点。
Transformer架构的并行计算能力是当今AI快速发展的关键,但这种设计也存在代价。
单次前向传递无法有效追踪状态信息,系统难以执行需要多步骤逻辑推理的任务。
面对六指手,AI缺乏「注意到异常-重新评估-调整方案」的连贯思维链条。它只是机械地应用从训练数据中学到的最强模式。
手的特殊性在于数量固定、结构复杂、局部高度相关,而对于AI来说,多局部一致性、跨区域约束、数量不可变,恰恰是Transformer最不擅长的领域。
从另一个角度分析,也可以这样理解。
扩散模型的本质是学习一个从噪声到清晰图像的概率分布逆推过程。
它擅长捕捉数据的整体分布和纹理风格(例如,生成一只「看起来像手的轮廓」)。
但在精确控制局部、离散、高对称性的结构(例如,五根长度、位置、关节关系都正确的手指)时,就显得力不从心。
从数据上看,训练数据中「五指」的绝对主导地位,使模型将「五指」视为不可违反的强统计先验。
就像一个看了100万只五指手的画家,你让他画六指手时,他总会无意识地将第六指融入到其他五指的阴影或姿势中,因为他的大脑早已深深刻入「手即五指」的概念。
从算法层面上看,扩散模型在去噪的每一步,都是基于整个图像的潜在表示进行全局预测。它没有为「手指」这类特定结构设立显式的、受保护的局部计算单元。
因此,细微的噪声扰动或步骤误差,很容易在密集区域被放大,导致细节扭曲。
从架构层面看,现有模型是「端到端」的,直接从文本提示映射到像素。中间缺乏一个明确的、符号化的结构表示层。
因此,「长什么样」和「结构是什么」两者冲突时,它就会陷入混乱。
而如果想解决这些瓶颈,或许业界需要采用混合建模模式——将扩散模型(擅长纹理)与显式结构模型(如3D网格)结合。
或者引入局部注意力与约束——在模型架构中强化对特定区域(如手部)的局部注意力机制,或在训练/推理过程中引入几何约束损失函数。
令人感慨的是,Transformer最强的地方(Token-to-token预测),反而成了它的致命短板。
没有对象概念,没有显式结构约束,整个世界都被打平为token序列。
正如一位网友所言:「视觉数据的复杂性远超文本,我们可能需要数十个数量级更多的计算资源,才能真正理解和处理视觉世界的全部细微差别。」
这不由让人想起,不久前谷歌DeepMind首席科学家对当前AI的评价。
虽然在语言、知识、编码等领域,它们已远超常人,但在视觉推理、长期学习、因果关系理解上,它们仍然不足。
「手指难题」犹如一面镜子,照出了当前以扩散模型为代表的AI模型的阿喀琉斯之踵——
它们在学习和复现数据的连续分布上取得了革命性成功,但在理解和生成精确的离散结构和拓扑关系上,仍然依赖于数据中的强统计先验,缺乏真正的物理和几何推理能力。
而如果想要彻底解决「手指难题」,就需要更先进的架构、更多样化的训练数据,以及人类对AI能力更清醒的认识。
在这个AI无所不能的时代,「手指难题」提醒我们——
即使是如今最先进的AI,也仍在学习如何看待世界的基本细节。
参考资料:
https://www.reddit.com/r/singularity/comments/1plw8hc/i_feel_like_the_model_is_mocking_me/
本文由主机测评网于2026-02-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260224151.html