当前位置:首页 > 科技资讯 > 正文

大模型认知缺陷暴露:常识性盲区与核心知识缺失

当前大模型在感知、物理常识等12项核心认知上普遍落后人类10-30%,且越大的模型越容易靠「背答案」糊弄,真正掌握核心知识的极少。团队公开首个系统评测框架和题库,呼吁先把「三岁孩子都懂」的常识打牢,再谈更高层的智能。

最近,一篇被Yann LeCun转发的ICML 2025研究结果显示,在CoreCognition基准1,503题大考中,230个主流模型纷纷暴露对于世界模型的「常识性盲区」。

再大的多模态语言模型,也缺少人类婴儿就有的「核心知识」地基,即使高层推理再花哨,也架不住地基塌陷。

大模型认知缺陷暴露:常识性盲区与核心知识缺失 大模型 核心认知 常识性盲区 核心知识 第1张

从下面这张震撼的对比表中,我们可以看到模型在12项「幼儿园」测试中,集体翻车。

Object Permanence:人类88.1%,最强模型InternVL3-78B仅74.1%,差距14%;

Perspective Taking:人类91.99%,最强模型QVQ-72B-Preview也仅83.25%,差距9%;

Intuitive Physics:人类91.52%,最强模型GPT-o1仅75.45%,差距超16%,各大模型普遍落后10-30%不等。

大模型认知缺陷暴露:常识性盲区与核心知识缺失 大模型 核心认知 常识性盲区 核心知识 第2张

来自加州大学圣地亚哥分校、约翰霍普金斯大学等研究机构的研究人员,花费一年时间构造并开源了业界首个核心认知基准CoreCognition。

其中包含1,503道精选题目,全面覆盖人类认知各个发展阶段。

大模型认知缺陷暴露:常识性盲区与核心知识缺失 大模型 核心认知 常识性盲区 核心知识 第3张

论文链接:https://arxiv.org/pdf/2410.10855 项目网站:https://williamium3000.github.io/core-knowledge/ 开源数据集:https://huggingface.co/datasets/williamium/CoreCognition

此外,联合团队还维持了三个高标准:

判别性(缺乏目标核心知识的模型必然选错答案)

最小混淆(避免依赖物体识别等无关能力)

最小文本捷径(答案不能仅通过文本推导获得)

12名标注员协作完成数据集构建,经过双轮交叉验证和20人Amazon Mechanical Turk人工校验。

据悉,团队不仅构建了均衡答案位置和混合答案解析的完整评测基础设施,而且还计划开源一个支持这230个模型的MLLM统一测试框架,亮点是极易上手

「概念黑客」双重盲盒,捅破捷径学习的遮羞布

更绝的是团队独创的Concept Hacking方法,专门用来识破模型是「真懂」还是「假懂」

核心思路:给每道题做一个保持所有无关细节完全相同,只把核心概念反转的「孪生题」

大模型认知缺陷暴露:常识性盲区与核心知识缺失 大模型 核心认知 常识性盲区 核心知识 第4张

把MLLM的「高级智能」拆解标题

Finding 1:核心知识缺失——高层推理没地基

大模型认知缺陷暴露:常识性盲区与核心知识缺失 大模型 核心认知 常识性盲区 核心知识 第5张

Finding 2:能力之间「各玩各的」

大模型认知缺陷暴露:常识性盲区与核心知识缺失 大模型 核心认知 常识性盲区 核心知识 第6张

Finding 3:核心知识在更多任务上管用

Finding 4:坏消息——参数多目前并不能「长出」核心知识

Finding 5:规模越大,捷径越香

研究启示,认知指令可带来短期提升

重新思考AI发展路径

从「写诗作画」到「常识翻车」,这项研究再次提醒我们:真正的智能,不只是参数规模,更是对世界最朴素、最基础的理解。