当前大模型在感知、物理常识等12项核心认知上普遍落后人类10-30%,且越大的模型越容易靠「背答案」糊弄,真正掌握核心知识的极少。团队公开首个系统评测框架和题库,呼吁先把「三岁孩子都懂」的常识打牢,再谈更高层的智能。
最近,一篇被Yann LeCun转发的ICML 2025研究结果显示,在CoreCognition基准1,503题大考中,230个主流模型纷纷暴露对于世界模型的「常识性盲区」。
再大的多模态语言模型,也缺少人类婴儿就有的「核心知识」地基,即使高层推理再花哨,也架不住地基塌陷。
从下面这张震撼的对比表中,我们可以看到模型在12项「幼儿园」测试中,集体翻车。
Object Permanence:人类88.1%,最强模型InternVL3-78B仅74.1%,差距14%;
Perspective Taking:人类91.99%,最强模型QVQ-72B-Preview也仅83.25%,差距9%;
Intuitive Physics:人类91.52%,最强模型GPT-o1仅75.45%,差距超16%,各大模型普遍落后10-30%不等。
来自加州大学圣地亚哥分校、约翰霍普金斯大学等研究机构的研究人员,花费一年时间构造并开源了业界首个核心认知基准CoreCognition。
其中包含1,503道精选题目,全面覆盖人类认知各个发展阶段。
论文链接:https://arxiv.org/pdf/2410.10855 项目网站:https://williamium3000.github.io/core-knowledge/ 开源数据集:https://huggingface.co/datasets/williamium/CoreCognition
此外,联合团队还维持了三个高标准:
判别性(缺乏目标核心知识的模型必然选错答案)
最小混淆(避免依赖物体识别等无关能力)
最小文本捷径(答案不能仅通过文本推导获得)
12名标注员协作完成数据集构建,经过双轮交叉验证和20人Amazon Mechanical Turk人工校验。
据悉,团队不仅构建了均衡答案位置和混合答案解析的完整评测基础设施,而且还计划开源一个支持这230个模型的MLLM统一测试框架,亮点是极易上手。
「概念黑客」双重盲盒,捅破捷径学习的遮羞布
更绝的是团队独创的Concept Hacking方法,专门用来识破模型是「真懂」还是「假懂」
核心思路:给每道题做一个保持所有无关细节完全相同,只把核心概念反转的「孪生题」
从「写诗作画」到「常识翻车」,这项研究再次提醒我们:真正的智能,不只是参数规模,更是对世界最朴素、最基础的理解。
本文由主机测评网于2026-04-20发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260438909.html