当前位置：首页 > 科技资讯 > 正文

音频驱动视频生成新突破：北京研究团队提出解混音画同步框架

主机测评网
科技资讯
2026-05-31
555

现有的音频驱动视频生成方法常因音频整体处理限制，导致音频与视觉间的对应关系模糊。针对此问题，北京智源人工智能研究院、北京大学及北京邮电大学共同研发了一种基于音频解混的音画同步视频生成框架，此框架将输入音频细分为语音、音效与音乐三类音轨，并验证了音频解混与多流控制在复杂视频生成任务中的有效性。

相较于文本，音频具有独特的连续时间结构和丰富的动态信息，能够为视频生成提供更精确的时序控制。随着视频生成模型的发展，音频驱动的视频生成逐渐成为多模态生成领域的研究热点。然而，在复杂视频内容中实现稳定且精确的音画对齐仍具挑战。

现有方法的主要限制在于对音频信号的建模方式。大多数模型将输入音频视为整体条件引入生成过程，未区分语音、音效与音乐等不同音频成分在视觉层面承担的功能角色。这种处理方式虽然简化了建模复杂度，但使音频与视觉间的对应关系变得模糊，难以满足唇形同步、事件时序对齐及整体视觉氛围控制等需求。

针对此问题，北京智源人工智能研究院等研究团队提出了一种基于音频解混的音画同步视频生成框架，将输入音频拆分为语音、音效和音乐三类音轨，并分别驱动不同层级的视觉生成过程。通过多流时间控制网络及相应的数据集与训练策略，该框架能在时间区间和全局层面实现更明确的音画对应关系。实验数据表明，该方法在视频质量、音画对齐和唇形同步等方面均取得了显著提升，验证了音频解混与多流控制的有效性。

相关研究成果以「Audio-Sync Video Generation with Multi-Stream Temporal Control」为题，已入选NeurIPS 2025。

论文地址：https://arxiv.org/abs/2506.08003

研究亮点：

* 构建由五个重叠子集组成的音频同步视频生成数据集DEMIX，并提出学习视听关系的多阶段训练策略。

* 提出MTV框架，通过将音频拆分为语音、音效和音乐三类音轨，分别控制唇形运动、事件时序和整体视觉氛围等视觉要素，实现更明确的语义控制。

* 设计多流时间控制网络（MST-ControlNet），在同一生成框架内同时处理局部时间区间的精细同步和全局风格调节，支持不同音频成分在时间尺度上的差异化控制。

多功能生成能力

MTV具备多功能生成能力，例如：以角色为中心的叙事、多角色互动、声音触发事件、音乐营造的氛围以及相机运动等。

DEMIX数据集引入解混音轨标注，实现分阶段训练

音频驱动视频生成新突破：北京研究团队提出解混音画同步框架音频解混音画同步多模态生成视频生成第1张

本研究通过详尽的过滤流程构建了DEMIX数据集，并将其结构化为五个重叠的子集：基本面部、单人、多人、事件音效和环境氛围。基于这些子集，研究引入了多阶段训练策略，逐步扩大模型规模。首先，使用基本面部子集训练模型学习嘴唇运动；随后在单人子集上学习人体姿势、场景外观和相机移动；接着在多人子集上处理复杂场景；然后转移重点至事件时序，使用事件音效子集扩展主体理解；最后，在环境氛围子集上提高视觉情绪表示。