当前位置:首页 > 科技资讯 > 正文

音频驱动视频生成新突破:北京研究团队提出解混音画同步框架

现有的音频驱动视频生成方法常因音频整体处理限制,导致音频与视觉间的对应关系模糊。针对此问题,北京智源人工智能研究院、北京大学及北京邮电大学共同研发了一种基于音频解混的音画同步视频生成框架,此框架将输入音频细分为语音、音效与音乐三类音轨,并验证了音频解混与多流控制在复杂视频生成任务中的有效性。

相较于文本,音频具有独特的连续时间结构和丰富的动态信息,能够为视频生成提供更精确的时序控制。随着视频生成模型的发展,音频驱动的视频生成逐渐成为多模态生成领域的研究热点。然而,在复杂视频内容中实现稳定且精确的音画对齐仍具挑战。

现有方法的主要限制在于对音频信号的建模方式。大多数模型将输入音频视为整体条件引入生成过程,未区分语音、音效与音乐等不同音频成分在视觉层面承担的功能角色。这种处理方式虽然简化了建模复杂度,但使音频与视觉间的对应关系变得模糊,难以满足唇形同步、事件时序对齐及整体视觉氛围控制等需求。

针对此问题,北京智源人工智能研究院等研究团队提出了一种基于音频解混的音画同步视频生成框架,将输入音频拆分为语音、音效和音乐三类音轨,并分别驱动不同层级的视觉生成过程。通过多流时间控制网络及相应的数据集与训练策略,该框架能在时间区间和全局层面实现更明确的音画对应关系。实验数据表明,该方法在视频质量、音画对齐和唇形同步等方面均取得了显著提升,验证了音频解混与多流控制的有效性。

相关研究成果以「Audio-Sync Video Generation with Multi-Stream Temporal Control」为题,已入选NeurIPS 2025。

论文地址:https://arxiv.org/abs/2506.08003

研究亮点:

* 构建由五个重叠子集组成的音频同步视频生成数据集DEMIX,并提出学习视听关系的多阶段训练策略。

* 提出MTV框架,通过将音频拆分为语音、音效和音乐三类音轨,分别控制唇形运动、事件时序和整体视觉氛围等视觉要素,实现更明确的语义控制。

* 设计多流时间控制网络(MST-ControlNet),在同一生成框架内同时处理局部时间区间的精细同步和全局风格调节,支持不同音频成分在时间尺度上的差异化控制。

多功能生成能力

MTV具备多功能生成能力,例如:以角色为中心的叙事、多角色互动、声音触发事件、音乐营造的氛围以及相机运动等。

DEMIX数据集引入解混音轨标注,实现分阶段训练

音频驱动视频生成新突破:北京研究团队提出解混音画同步框架 音频解混 音画同步 多模态生成 视频生成 第1张

本研究通过详尽的过滤流程构建了DEMIX数据集,并将其结构化为五个重叠的子集:基本面部、单人、多人、事件音效和环境氛围。基于这些子集,研究引入了多阶段训练策略,逐步扩大模型规模。首先,使用基本面部子集训练模型学习嘴唇运动;随后在单人子集上学习人体姿势、场景外观和相机移动;接着在多人子集上处理复杂场景;然后转移重点至事件时序,使用事件音效子集扩展主体理解;最后,在环境氛围子集上提高视觉情绪表示。

基于多流时间控制机制,实现精确的视听映射和准确的时间对齐

音频驱动视频生成新突破:北京研究团队提出解混音画同步框架 音频解混 音画同步 多模态生成 视频生成 第2张

研究将音频明确分为三个控制轨道:语音、音效和音乐。这些轨道使MTV框架能精确控制嘴唇动作、事件时序和视觉情绪,解决映射模糊问题。为兼容各种任务,研究创建了文本描述模板,以参与者数量和句子开头构建描述。为实现时间对齐,研究提出多流时间控制网,通过分离轨道控制嘴唇运动、事件时序和视觉情绪。

区间特征注入

对于语音和音效特征,研究设计了区间流控制嘴唇运动和事件时序。通过区间交互模块提取特征,利用自注意力机制模拟相互作用,最后使用交叉注意力将特征注入每个时间区间。

整体特征注入

对于音乐特征,研究设计了整体流控制整个视频片段的视觉情绪。通过整体上下文编码器提取视觉情绪并应用平均池化获得全局特征。最后使用全局特征调制视频潜码。

精准生成电影级音频同步视频

综合评价指标

音频驱动视频生成新突破:北京研究团队提出解混音画同步框架 音频解混 音画同步 多模态生成 视频生成 第3张

为验证多阶段训练策略的有效性,研究采用综合评价指标评估模型在不同学习阶段的稳定性和一致性表现。结果显示,MTV在FVD上显著优于现有方法,同时在Temp-C上保持高时间稳定性。在Audio-C指标上取得明显提升,反映出音频解混与多流控制机制的有效性。

对比结果

音频驱动视频生成新突破:北京研究团队提出解混音画同步框架 音频解混 音画同步 多模态生成 视频生成 第4张

如上图所示,MTV框架在多种场景中能同时保持高视觉质量与稳定的音画同步效果,能精准生成电影级品质的音频同步视频。

参考链接:https://arxiv.org/abs/2506.08003