当前位置:首页 > 科技资讯 > 正文

RunawayEvil:多模态自进化,破解图生视频模型安全难题

南京大学PRLab的王淞平与钱儒凡,在单彩峰教授与吕月明助理教授的联合指导下,研发了首个针对图生视频(I2V)模型的多模态自进化越狱攻击框架RunawayEvil。此研究联合了美团、上海交通大学等多家顶尖机构,成功构建了首个支持多模态协同与自主进化的I2V越狱攻击框架。

RunawayEvil创新性地采用“策略-战术-行动”核心范式,有效解决了传统单一模态、静态攻击在I2V场景下效果受限的问题,为I2V模型的安全漏洞分析提供了高效可靠的工具,助力构建更稳健、安全的视频生成系统。

RunawayEvil:多模态自进化,破解图生视频模型安全难题 I2V模型 多模态 自进化 越狱攻击 第1张

  • 论文标题:RunawayEvil: Jailbreaking the Image-to-Video Generative Models
  • 项目地址:https://xzxg001.github.io/RunawayEvil/
  • 论文地址:https://arxiv.org/pdf/2512.06674
  • 代码地址:https://github.com/DeepSota/RunawayEvil

行业痛点:图生视频模型安全研究的三大核心缺口

图生视频(I2V)是融合图像视觉约束与文本语义引导,生成时空连贯、高保真动态内容的核心多模态技术,为内容创作、商业广告等领域提供高效创意支撑。然而,其安全防护体系尚不完善,成为制约行业稳健发展的关键瓶颈。

现有研究虽通过各类越狱方法揭示视觉生成模型的内在漏洞,但针对I2V模型的安全研究仍存在显著空白。研究团队发现,当前存在三大核心缺口,严重阻碍了对其潜在风险的系统性探究与有效防御:

1. 单模态攻击的天然局限性

现有越狱研究多聚焦于文本到图像(T2I)、文本到视频(T2V)等单模态系统,而I2V模型依赖文本-图像跨模态协同工作机制,单一模态攻击无法利用其内在的模态交互特性,难以突破集成化的多模态安全防护。

2. 静态攻击模式的适应性缺失

传统方法多采用人工构造恶意提示或固定攻击模板,缺乏动态调整能力。I2V模型的输入具有多样性(自然图像/合成图像、不同语义文本等),静态攻击模式无法根据输入特性定制策略。

3. 多模态与维度升级的双重挑战

视觉生成模型的安全研究长期聚焦于文本到图像(T2I)单模态场景,而图生视频(I2V)技术的兴起,正带来多模态协同与维度升级的双重核心挑战。

核心成果:首个I2V「自进化」越狱框架是如何炼成的?

RunawayEvil:多模态自进化,破解图生视频模型安全难题 I2V模型 多模态 自进化 越狱攻击 第2张

如果把一次I2V(图生视频)越狱看作一场“对抗安全系统的作战”,RunawayEvil的关键在于构建完整的“作战指挥链”:先选战略、再拆战术、最后执行并复盘。整个框架建立在“Strategy–Tactic–Action(战略-战术-行动)”范式上,由SACU(指挥大脑)+MTPU(战术参谋)+TAU(执行者)三大模块协同组成。

两阶段流水线:先「进化大脑」,再「执行打击」

RunawayEvil将流程分为两个阶段:

  • 进化阶段(Evolution Stage):专门训练/进化SACU,让它不再依赖人工手写提示词,而是能够扩展策略库、并学会“针对不同输入选最合适的策略”。
  • 执行阶段(Execution Stage):进化完成后,SACU先给出策略;MTPU把策略翻译成“跨模态协同”的战术指令;TAU负责执行并把结果反馈回去。

指挥大脑:战略感知指挥单元 (SACU)

RunawayEvil:多模态自进化,破解图生视频模型安全难题 I2V模型 多模态 自进化 越狱攻击 第3张

SACU是RunawayEvil的核心“大脑”,目标是让攻击策略自动增长、并能对不同输入智能定制。它包含三个关键组件:

a)策略定制智能体SCA:用强化学习学会「怎么选策略」

SCA用强化学习把“选哪个策略”变成决策问题:给定当前输入(状态),从策略库里挑一个策略(动作),让成功率更高、同时尽量隐蔽。

b)策略探索智能体SEA:从历史成功案例里「长出新招」

SEA是一个基于LLM的探索智能体,它会利用策略记忆库里“打赢过的案例”,生成新的策略。

c)策略记忆库SMB:把每次成功的「作战记录」存下来

SMB记录“用了什么图、什么编辑指令、什么视频提示、采用什么策略”等信息,为后续策略探索与战术生成提供参考。

战术参谋:多模态战术规划单元 (MTPU)

把「策略」翻译成「跨模态协同指令」

如果说SACU决定“打什么仗”,那MTPU就负责“怎么打”。它在SCA给定策略后,分析输入的图文对,生成协同的战术指令对(文本侧+图像侧)。

执行者:战术行动单元 (TAU)

TAU是“动手干活”的模块,由两部分组成:执行器安全评估器

Attack Executor(执行器):根据MTPU输出的图像侧战术指令,对参考图进行迭代式编辑。

Safety Evaluator(评估器):对生成视频进行安全判定,如果成功,则记录这次成功的经验。

闭环进化:从失败中学习

TAU的执行结果(无论成功还是失败)都会反馈给SACU。如果攻击成功,这条经验会被写入记忆库;如果失败,RL算法会调整策略权重。

实验结果

实验选取COCO2017与MM-SafetyBench两大数据集,以4个主流开源I2V模型为攻击目标。结果显示,RunawayEvil在攻击成功率等关键指标上有效超越了传统单模态越狱方法。