当前位置:首页 > 科技资讯 > 正文

WildVideo:重塑多模态模型视频问答评估基准

WildVideo:重塑多模态模型视频问答评估基准 WildVideo 多模态模型 视频问答 幻觉任务 第1张

新智元报道

【导读】针对多模态模型在视频问答中的“幻觉”问题,基准WildVideo首次系统性定义了9类幻觉任务,构建了涵盖双重视角、支持中英双语的大规模高质量视频对话数据集,通过多轮开放问答形式,模拟真实交互场景,全面评估模型能力。

近年来,大模型在多模态理解领域取得显著进展,已能在开放世界中处理图文及视频内容。然而,一个普遍且严重的问题——“幻觉”持续制约其实际应用,尤其在动态、连续的视觉场景中,模型可能生成与视频内容矛盾、违背常识或在多轮对话中前后不一致的回答。

当前主流评测基准多集中于单轮、单视角、选择题型的设定,难以真实反映模型在开放、连续、交互式对话场景中的能力与缺陷。为填补这一空白,国防科技大学与中山大学的研究团队推出了WildVideo,一个面向真实世界视频-语言交互的、系统性的多轮开放问答评测基准。

WildVideo:重塑多模态模型视频问答评估基准 WildVideo 多模态模型 视频问答 幻觉任务 第2张

论文地址:https://ieeexplore.ieee.org/document/11097075

项目主页:https://chandler172857.github.io/WildVideo-leaderboard/

Github:https://github.com/yangsongyuan18/WildVideo

数据集:https://huggingface.co/datasets/yangsongyuan18/wildvideo

该工作从感知、认知与上下文理解三个层面系统定义了9类幻觉任务,并构建了一个涵盖双重视角、支持中英双语的大规模高质量视频对话数据集,旨在对多模态大模型进行更全面、更严格的压力测试,且已被TPAMI 2025正式接收。

WildVideo的设计理念与核心贡献

贴近真实交互的评测框架:WildVideo的设计完全围绕“真实世界应用”展开,摒弃了传统的单选/判断题形式,采用开放问答,模拟了真实对话中并无预设选项的场景。更重要的是,它引入了多轮对话评测(最多5轮),要求模型具备连贯的上下文理解、信息关联与指代消解能力。

细粒度、多维度的幻觉分类体系:研究团队将模型在视频任务中可能产生的幻觉系统性地归纳为三大类、九小项,包括感知幻觉(静态和动态两个维度)、认知幻觉(常识认知和世界知识认知)以及上下文理解幻觉(专为多轮对话设计)。

WildVideo:重塑多模态模型视频问答评估基准 WildVideo 多模态模型 视频问答 幻觉任务 第3张

丰富、高质量的数据集

基准包含1,318段视频,其中既有来自Charades-EGO数据集的874段记录日常人类活动的第一人称与第三人称配对视频,还引入了444段涵盖全球事件与文化现象的YouTube视频。数据集最终包含了13,704个单轮问答对与1,585个多轮对话。

WildVideo:重塑多模态模型视频问答评估基准 WildVideo 多模态模型 视频问答 幻觉任务 第4张WildVideo:重塑多模态模型视频问答评估基准 WildVideo 多模态模型 视频问答 幻觉任务 第5张

主要实验发现与深入洞察

研究团队在WildVideo上对多个主流开源与商业模型进行了全面评估,揭示了若干关键发现:即便是当前最先进的模型,在WildVideo上也面临严峻挑战。在单轮任务中,表现最佳的GPT-4o准确率仅为62.1%;当任务扩展至多轮对话时,其准确率进一步下降至52.7%

WildVideo:重塑多模态模型视频问答评估基准 WildVideo 多模态模型 视频问答 幻觉任务 第6张

能力结构不平衡

感知层面:模型在静态“物体”识别任务上表现最佳,而在需要理解时序的“动作”识别和“视觉定位”任务上表现大幅下滑。认知层面:涉及常识推理和跨模态指代的任务成为所有模型的普遍难点。上下文层面:多轮特有的“上下文理解”任务表现最不理想。

WildVideo:重塑多模态模型视频问答评估基准 WildVideo 多模态模型 视频问答 幻觉任务 第7张

视角偏好与语言差异

视角偏好:几乎所有模型在第三人称(外视角)视频上的表现都优于第一人称(自我视角)视频。中英双语评测显示,模型在中文任务上的表现普遍低于英文。

WildVideo:重塑多模态模型视频问答评估基准 WildVideo 多模态模型 视频问答 幻觉任务 第8张WildVideo:重塑多模态模型视频问答评估基准 WildVideo 多模态模型 视频问答 幻觉任务 第9张