引言:VMem通过基于3D几何的记忆索引,取代了传统依赖最近几帧的短期上下文方法。它检索到的参考视角恰好覆盖当前渲染表面区域,使得模型在小型上下文窗口中也能保持长期一致性。实测显示,每帧处理时间仅4.2秒,比常规21帧上下文的管道快约12倍。
想象一下,用一张图像“游览”整个房屋,多次切换场景后回到起点,仍希望厨房保持原样——这对视频生成模型来说是一项挑战。
牛津大学研究团队提出了VMem(Surfel-Indexed View Memory):将“已观察内容”记录在称为surfel的几何片段中,下次生成时仅选取真正相关的历史视角作为上下文,从而实现更强的一致性、更少的资源消耗和更快的速度。
论文链接:https://arxiv.org/abs/2506.18903
· 几何作为“记忆目录”
将过去生成的视图以3D表面元素(surfel)进行索引;每个surfel记录“哪些帧曾观察过我”。
当新视角出现时,渲染surfel并找出“出现频率最高”的帧,直接将这些帧作为参考。显式遮挡建模使检索更加可靠。
· 小上下文,大一致性
在RealEstate10K、Tanks and Temples等基准测试中,尤其是团队提出的回环轨迹(cycle-trajectory)评估中,VMem在长序列回访同一位置时表现出显著稳定性。
· 即插即用
记忆模块可集成到SEVA等图像集生成骨干网络中;将上下文从K=17减少到K=4仍能保持指标,同时将延迟降低至4.2秒/帧(RTX 4090)。
两类主流方法各存短板:
VMem重新思考第二类方法:与其关注“最近”的帧,不如选择“最相关”的帧。相关性通过几何可见性来度量。
写入(Write):新生成的帧通过CUT3R等点图预测获得稀疏点云,转化为surfel(位置、法向、半径),并将“观察到我的帧编号”写入surfel的索引集合;相近的surfel进行合并;整体存入八叉树以便检索。
读取(Read):面对一组待生成相机位姿,先计算一个平均相机,从该视角渲染surfel属性图,统计每个像素投票对应的“出现过的帧编号”,选择Top-K最高频率的作为参考视图集合;对位姿相近的参考进行NMS去冗余。
生成(Gen):将(Top-K参考图像+参考/目标相机的Plücker表达)输入图像集生成器(论文默认SEVA),一次自回归生成M帧。
直观而言,surfel如同“已观察表面的贴纸”,上面标记着“谁曾看过我”;新相机到来时,从新角度投影这些贴纸,召唤出现次数最多的“帮手”。
世界模型通常依赖隐式状态(如潜在状态、RNN或Transformer缓存)跨时间保留信息,但在长视野、部分可观测(POMDP)的场景中,隐式状态容易“遗忘”早期细节,且缺乏可解释性。
VMem提供显式、可查询、几何对齐的外部记忆:以surfel作为“记忆索引”,结构化存储“谁看过我”等可见性线索。这带来三大优势:
外部记忆(External Memory):将VMem作为键值存储,Key=surfel(位置/法向/半径等),Value=出现过该surfel的帧及特征。模型在每步预测前,通过相机姿态渲染surfel可见性图,检索Top-K参考视图与特征并融合到当前状态更新。
检索前端(Retrieval Front-End):在视频/多视图生成骨干网络(如图像集扩散或时空Transformer)之前,使用VMem预先选择参考视图,再传递给主干网络;相当于将“上下文选择”外包给几何索引。
策略+世界模型联合(RL/Embodied):将VMem作为共享记忆供“世界模型+策略”共同读写:世界模型利用它进行长期一致的模拟,策略用它进行定位、导航或回忆证据,降低长期信用分配难度。
评估设置:从单张图像开始,沿真实相机轨迹自回归生成;长期评估关注≥200帧位置;团队额外提出回环轨迹,专门测试“绕一圈再返回”的一致性。
VMem在多数指标上优于公开基线;当轨迹很少回访时,优势虽未完全体现在LPIPS/PSNR上,但视觉一致性更佳。
VMem在PSNR、LPIPS等指标上对比LookOut、GenWarp、MotionCtrl、ViewCrafter等普遍领先,回到起点时外观与布局更加一致。
效率:LoRA微调的K=4/M=4版本结合VMem,实现约12倍推理加速(4.2秒/帧 vs 50秒/帧),而画质和相机对齐指标接近或优于K=17的大上下文。
消融研究:将检索策略替换为“最近帧/相机距离/FOV重叠”,一致性明显下降;表明基于surfel的可见性投票至关重要。K值越小,效果越显著。
相比重建+补洞方法:VMem不将几何作为最终表征,仅用它进行检索,因此对几何误差更具鲁棒性;
相比FOV/距离/时序检索:VMem的surfel显式考虑遮挡与可见区域的实际重叠,相关性更准确;
相比隐藏状态记忆(如世界模型的隐表征):VMem的“记忆”是可解释的空间索引,便于裁剪与加速。
非实时性:扩散采样仍需多步;作者预计未来可通过单步图像集模型和更强大算力进一步提速;
数据领域:微调主要基于RealEstate10K(室内场景),对自然景观和动态物体的泛化能力有待拓展;
评估标准:现有指标对“真正多视角一致性”的刻画有限,回环协议是一个起点,仍需更系统的评估方法。
参考资料:
https://arxiv.org/abs/2506.18903
本文由主机测评网于2025-12-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20251213612.html