当前位置:首页 > 科技资讯 > 正文

动态基准挑战:多模态大模型的最新科学评测

近年来,以GPT-4o、Gemini 2.5 Pro为代表的多模态大模型,在各大基准测试中频频传来捷报,纷纷刷榜成功。

然而,这些令人瞩目的进展也带来了一个愈发严峻的问题:当现有的“题库”逐渐被提前预训练进模型,我们如何才能持续、准确地评估这些顶尖AI的真实能力?

为了应对这一挑战,上海交通大学王德泉教授课题组巧妙地将“动态基准”理念与不断更新的科学前沿相结合,提出了MAC(多模态学术封面)基准:既然科学知识本身在不断演进,为什么不用最新的科学内容来测试AI呢?

动态基准挑战:多模态大模型的最新科学评测 多模态大模型  动态基准 AI评估 科学理解 第1张

研究团队利用《Nature》《Science》《Cell》等188种顶级期刊的最新封面作为测试素材,从超过25,000个图文对中构建测试集。这些期刊每周或每月都会发布新刊,每期封面都经过顶尖科学家和专业编辑精心打造,蕴含着最前沿、最复杂的科学概念,从而评测多模态大模型是否能够理解艺术化表达的视觉元素与科学概念之间的深层关联。

动态基准挑战:多模态大模型的最新科学评测 多模态大模型  动态基准 AI评估 科学理解 第2张

结果发现,包括GPT-5-thinking在内的顶尖模型在面对这些最新科学内容时表现出了令人意外的局限性。表现最好的Step-3,准确率也仅为79.1%,开源模型Qwen2.5-VL-7B准确率仅为56.8%

这项研究将发表在2025年语言模型大会(COLM)上。

测试设计:精心设计的”语义陷阱”

MAC的核心挑战在于:如何确保AI不能通过肤浅的视觉特征“蒙对”答案,而是更加深入地建立科学概念的理解。

研究者们设计了两种测试任务:

  • 看图选文:给出期刊封面,从四个封面故事中选出对应的文本;
  • 看文选图:给出封面故事,从四张封面中选出最匹配的图片。

关键在于“陷阱”的设计,为了防止AI通过肤浅特征作答,研究者们利用先进的嵌入模型(如CLIP)精心筛选出三个“语义干扰项”,从而使得它们在表面上与正确答案极为相似,只有真正理解科学概念的AI才能做出正确选择。

动态基准挑战:多模态大模型的最新科学评测 多模态大模型  动态基准 AI评估 科学理解 第3张

举个例子,如果正确的封面故事是关于“癌症耐药性机制”,那么干扰项可能是“癌症产生机理”或“癌细胞”——都与癌症相关,但科学概念完全不同。

尽管顶尖模型例如GPT-5-thinking和Gemini 2.5 Pro都能准确识别出选项图片中的“药丸”和“处方单”等视觉元素,但它们都未能将这些元素与封面故事中核心的“耐药性”或“癌症治疗机制”等科学概念联系起来,最终导致选择错误。

此外,研究者们还构建了MAC-2025年度快照,专门选取2024年1月至2025年2月发布的最新期刊内容,并计划每年更新,从而尽可能减少评估中的数据污染问题,确保即使对最新的模型也能保持足够的挑战性。

顶尖AI也会“理解偏差”

研究团队使用MAC-2025测试集,对包括GPT-4o和Step-3在内的业界领先模型进行了全面评估。

动态基准挑战:多模态大模型的最新科学评测 多模态大模型  动态基准 AI评估 科学理解 第4张

结果令人意外:即便是表现最强的Step-3,准确率也仅为79.1%,这与它们在其他基准上近乎完美的表现形成了鲜明对比。更有趣的是,开源模型Qwen2.5-VL-7B准确率仅为56.8%。

同时,GPT-5-thinking和Gemini 2.5 Pro的案例分析也暴露出当前多模态AI的一个关键局限:虽然在视觉识别方面已经相当出色,但在需要跨模态深层推理的科学理解任务上,距离人类水平还有相当差距。

DAD方法:让AI学会“分步思考”

面对这一挑战,研究团队没有止步于发现问题,而是进一步提出了DAD的解决方案。

DAD的核心思想是“分工协作”:

  • 描述阶段:让多模态大模型(如GPT-4o)对封面图片进行详细的视觉描述,并生成伪思维链;
  • 推理阶段:将描述结果和原始问题一起交给专门的语言推理模型,由它进行高层分析并做出最终选择。

这种结构化的两步法显著提升了模型表现。实验结果显示,使用DAD方法后,多个模型的准确率都获得了明显提升。