当前位置：首页 > 科技资讯 > 正文

大模型认知缺陷暴露：常识性盲区与核心知识缺失

当前大模型在感知、物理常识等12项核心认知上普遍落后人类10-30%，且越大的模型越容易靠「背答案」糊弄，真正掌握核心知识的极少。团队公开首个系统评测框架和题库，呼吁先把「三岁孩子都懂」的常识打牢，再谈更高层的智能。

最近，一篇被Yann LeCun转发的ICML 2025研究结果显示，在CoreCognition基准1,503题大考中，230个主流模型纷纷暴露对于世界模型的「常识性盲区」。

再大的多模态语言模型，也缺少人类婴儿就有的「核心知识」地基，即使高层推理再花哨，也架不住地基塌陷。

大模型认知缺陷暴露：常识性盲区与核心知识缺失大模型核心认知常识性盲区核心知识第1张

从下面这张震撼的对比表中，我们可以看到模型在12项「幼儿园」测试中，集体翻车。

Object Permanence：人类88.1%，最强模型InternVL3-78B仅74.1%，差距14%；

Perspective Taking：人类91.99%，最强模型QVQ-72B-Preview也仅83.25%，差距9%；

Intuitive Physics：人类91.52%，最强模型GPT-o1仅75.45%，差距超16%，各大模型普遍落后10-30%不等。

大模型认知缺陷暴露：常识性盲区与核心知识缺失大模型核心认知常识性盲区核心知识第2张

来自加州大学圣地亚哥分校、约翰霍普金斯大学等研究机构的研究人员，花费一年时间构造并开源了业界首个核心认知基准CoreCognition。

其中包含1,503道精选题目，全面覆盖人类认知各个发展阶段。

大模型认知缺陷暴露：常识性盲区与核心知识缺失大模型核心认知常识性盲区核心知识第3张

此外，联合团队还维持了三个高标准：

判别性（缺乏目标核心知识的模型必然选错答案）

最小混淆（避免依赖物体识别等无关能力）

最小文本捷径（答案不能仅通过文本推导获得）

12名标注员协作完成数据集构建，经过双轮交叉验证和20人Amazon Mechanical Turk人工校验。

据悉，团队不仅构建了均衡答案位置和混合答案解析的完整评测基础设施，而且还计划开源一个支持这230个模型的MLLM统一测试框架，亮点是极易上手。

「概念黑客」双重盲盒，捅破捷径学习的遮羞布

更绝的是团队独创的Concept Hacking方法，专门用来识破模型是「真懂」还是「假懂」

核心思路：给每道题做一个保持所有无关细节完全相同，只把核心概念反转的「孪生题」

大模型认知缺陷暴露：常识性盲区与核心知识缺失大模型核心认知常识性盲区核心知识第4张

把MLLM的「高级智能」拆解标题

大模型认知缺陷暴露：常识性盲区与核心知识缺失大模型核心认知常识性盲区核心知识第5张

大模型认知缺陷暴露：常识性盲区与核心知识缺失大模型核心认知常识性盲区核心知识第6张

从「写诗作画」到「常识翻车」，这项研究再次提醒我们：真正的智能，不只是参数规模，更是对世界最朴素、最基础的理解。

本文由主机测评网于2026-04-20发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260438909.html