当前位置:首页 > 科技资讯 > 正文

VMem技术:基于3D几何记忆索引的视频生成长时一致性突破

引言:VMem通过基于3D几何的记忆索引,取代了传统依赖最近几帧的短期上下文方法。它检索到的参考视角恰好覆盖当前渲染表面区域,使得模型在小型上下文窗口中也能保持长期一致性。实测显示,每帧处理时间仅4.2秒,比常规21帧上下文的管道快约12倍。

想象一下,用一张图像“游览”整个房屋,多次切换场景后回到起点,仍希望厨房保持原样——这对视频生成模型来说是一项挑战。

牛津大学研究团队提出了VMem(Surfel-Indexed View Memory):将“已观察内容”记录在称为surfel的几何片段中,下次生成时仅选取真正相关的历史视角作为上下文,从而实现更强的一致性、更少的资源消耗和更快的速度

VMem技术:基于3D几何记忆索引的视频生成长时一致性突破 VMem 3D几何记忆 surfel索引 视频生成一致性 第1张

论文链接:https://arxiv.org/abs/2506.18903

· 几何作为“记忆目录”

将过去生成的视图以3D表面元素(surfel)进行索引;每个surfel记录“哪些帧曾观察过我”。

当新视角出现时,渲染surfel并找出“出现频率最高”的帧,直接将这些帧作为参考。显式遮挡建模使检索更加可靠。

· 小上下文,大一致性

RealEstate10KTanks and Temples等基准测试中,尤其是团队提出的回环轨迹(cycle-trajectory)评估中,VMem在长序列回访同一位置时表现出显著稳定性。

· 即插即用

记忆模块可集成到SEVA等图像集生成骨干网络中;将上下文从K=17减少到K=4仍能保持指标,同时将延迟降低至4.2秒/帧(RTX 4090)

为何“回头看”如此困难?

两类主流方法各存短板:

  • 重建+外延补洞(out-painting):先估计几何再补充图像,误差会累积,导致结果逐渐偏离;
  • 多视图/视频式条件生成:不依赖几何,但需要大量参考帧,计算开销大、上下文窗口短,距离远了容易遗忘。

VMem重新思考第二类方法:与其关注“最近”的帧,不如选择“最相关”的帧。相关性通过几何可见性来度量。

VMem技术:基于3D几何记忆索引的视频生成长时一致性突破 VMem 3D几何记忆 surfel索引 视频生成一致性 第2张

写入(Write):新生成的帧通过CUT3R等点图预测获得稀疏点云,转化为surfel(位置、法向、半径),并将“观察到我的帧编号”写入surfel的索引集合;相近的surfel进行合并;整体存入八叉树以便检索。

读取(Read):面对一组待生成相机位姿,先计算一个平均相机,从该视角渲染surfel属性图,统计每个像素投票对应的“出现过的帧编号”,选择Top-K最高频率的作为参考视图集合;对位姿相近的参考进行NMS去冗余。

生成(Gen):将(Top-K参考图像+参考/目标相机的Plücker表达)输入图像集生成器(论文默认SEVA),一次自回归生成M帧。

直观而言,surfel如同“已观察表面的贴纸”,上面标记着“谁曾看过我”;新相机到来时,从新角度投影这些贴纸召唤出现次数最多的“帮手”

作为世界模型的可插拔记忆层

世界模型为何需要此类记忆?

世界模型通常依赖隐式状态(如潜在状态、RNN或Transformer缓存)跨时间保留信息,但在长视野、部分可观测(POMDP)的场景中,隐式状态容易“遗忘”早期细节,且缺乏可解释性。

VMem提供显式、可查询、几何对齐的外部记忆:以surfel作为“记忆索引”,结构化存储“谁看过我”等可见性线索。这带来三大优势:

  • 长时一致性:记忆容量与时间步解耦;跨越数百步仍能稳定回访同一地点与外观。
  • 可解释与可裁剪:基于可见性投票进行检索,减少遮挡和误配;内存可根据区域、密度或热度进行剪枝。
  • 高效取证:将“查看大量无关历史帧”变为“仅关注与当前表面相关的少量关键帧”,显著缩小上下文和计算需求。

如何集成到现有世界模型?(三种常见方式)

外部记忆(External Memory):将VMem作为键值存储,Key=surfel(位置/法向/半径等),Value=出现过该surfel的帧及特征。模型在每步预测前,通过相机姿态渲染surfel可见性图,检索Top-K参考视图与特征并融合到当前状态更新。

检索前端(Retrieval Front-End):在视频/多视图生成骨干网络(如图像集扩散或时空Transformer)之前,使用VMem预先选择参考视图,再传递给主干网络;相当于将“上下文选择”外包给几何索引。

策略+世界模型联合(RL/Embodied):将VMem作为共享记忆供“世界模型+策略”共同读写:世界模型利用它进行长期一致的模拟,策略用它进行定位、导航或回忆证据,降低长期信用分配难度。

实验与结果

评估设置:从单张图像开始,沿真实相机轨迹自回归生成;长期评估关注≥200帧位置;团队额外提出回环轨迹,专门测试“绕一圈再返回”的一致性。

标准长期设置

VMem技术:基于3D几何记忆索引的视频生成长时一致性突破 VMem 3D几何记忆 surfel索引 视频生成一致性 第3张

VMem在多数指标上优于公开基线;当轨迹很少回访时,优势虽未完全体现在LPIPS/PSNR上,但视觉一致性更佳。

回环轨迹

VMem技术:基于3D几何记忆索引的视频生成长时一致性突破 VMem 3D几何记忆 surfel索引 视频生成一致性 第4张

VMem在PSNR、LPIPS等指标上对比LookOut、GenWarp、MotionCtrl、ViewCrafter等普遍领先,回到起点时外观与布局更加一致

效率:LoRA微调的K=4/M=4版本结合VMem,实现约12倍推理加速(4.2秒/帧 vs 50秒/帧),而画质和相机对齐指标接近或优于K=17的大上下文。

消融研究:将检索策略替换为“最近帧/相机距离/FOV重叠”,一致性明显下降;表明基于surfel的可见性投票至关重要。K值越小,效果越显著

与其它方法有何不同?

相比重建+补洞方法:VMem不将几何作为最终表征,仅用它进行检索,因此对几何误差更具鲁棒性

相比FOV/距离/时序检索:VMem的surfel显式考虑遮挡与可见区域的实际重叠,相关性更准确

相比隐藏状态记忆(如世界模型的隐表征):VMem的“记忆”是可解释的空间索引,便于裁剪与加速。

局限与未来展望

非实时性:扩散采样仍需多步;作者预计未来可通过单步图像集模型和更强大算力进一步提速;

数据领域:微调主要基于RealEstate10K(室内场景),对自然景观和动态物体的泛化能力有待拓展;

评估标准:现有指标对“真正多视角一致性”的刻画有限,回环协议是一个起点,仍需更系统的评估方法。

参考资料:

https://arxiv.org/abs/2506.18903