近年来,以GPT-4o、Gemini 2.5 Pro为代表的多模态大模型,在各大基准测试中频频传来捷报,纷纷刷榜成功。
然而,这些令人瞩目的进展也带来了一个愈发严峻的问题:当现有的“题库”逐渐被提前预训练进模型,我们如何才能持续、准确地评估这些顶尖AI的真实能力?
为了应对这一挑战,上海交通大学王德泉教授课题组巧妙地将“动态基准”理念与不断更新的科学前沿相结合,提出了MAC(多模态学术封面)基准:既然科学知识本身在不断演进,为什么不用最新的科学内容来测试AI呢?
研究团队利用《Nature》《Science》《Cell》等188种顶级期刊的最新封面作为测试素材,从超过25,000个图文对中构建测试集。这些期刊每周或每月都会发布新刊,每期封面都经过顶尖科学家和专业编辑精心打造,蕴含着最前沿、最复杂的科学概念,从而评测多模态大模型是否能够理解艺术化表达的视觉元素与科学概念之间的深层关联。
结果发现,包括GPT-5-thinking在内的顶尖模型在面对这些最新科学内容时表现出了令人意外的局限性。表现最好的Step-3,准确率也仅为79.1%,开源模型Qwen2.5-VL-7B准确率仅为56.8%。
这项研究将发表在2025年语言模型大会(COLM)上。
MAC的核心挑战在于:如何确保AI不能通过肤浅的视觉特征“蒙对”答案,而是更加深入地建立科学概念的理解。
研究者们设计了两种测试任务:
关键在于“陷阱”的设计,为了防止AI通过肤浅特征作答,研究者们利用先进的嵌入模型(如CLIP)精心筛选出三个“语义干扰项”,从而使得它们在表面上与正确答案极为相似,只有真正理解科学概念的AI才能做出正确选择。
举个例子,如果正确的封面故事是关于“癌症耐药性机制”,那么干扰项可能是“癌症产生机理”或“癌细胞”——都与癌症相关,但科学概念完全不同。
尽管顶尖模型例如GPT-5-thinking和Gemini 2.5 Pro都能准确识别出选项图片中的“药丸”和“处方单”等视觉元素,但它们都未能将这些元素与封面故事中核心的“耐药性”或“癌症治疗机制”等科学概念联系起来,最终导致选择错误。
此外,研究者们还构建了MAC-2025年度快照,专门选取2024年1月至2025年2月发布的最新期刊内容,并计划每年更新,从而尽可能减少评估中的数据污染问题,确保即使对最新的模型也能保持足够的挑战性。
研究团队使用MAC-2025测试集,对包括GPT-4o和Step-3在内的业界领先模型进行了全面评估。
结果令人意外:即便是表现最强的Step-3,准确率也仅为79.1%,这与它们在其他基准上近乎完美的表现形成了鲜明对比。更有趣的是,开源模型Qwen2.5-VL-7B准确率仅为56.8%。
同时,GPT-5-thinking和Gemini 2.5 Pro的案例分析也暴露出当前多模态AI的一个关键局限:虽然在视觉识别方面已经相当出色,但在需要跨模态深层推理的科学理解任务上,距离人类水平还有相当差距。
面对这一挑战,研究团队没有止步于发现问题,而是进一步提出了DAD的解决方案。
DAD的核心思想是“分工协作”:
这种结构化的两步法显著提升了模型表现。实验结果显示,使用DAD方法后,多个模型的准确率都获得了明显提升。
本文由主机测评网于2026-04-24发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260440121.html