当前位置:首页 > 科技资讯 > 正文

时空视觉CoT:推动自动驾驶从符号走向视觉推理

当前自动驾驶的多模态大模型在“推理链”上依赖文字或符号,这导致空间-时间关系模糊和细粒度信息丢失。为解决这个问题,FSDrive(FutureSightDrive)提出了“时空视觉 CoT”(Spatio-Temporal Chain-of-Thought),让模型直接“以图思考”,用统一的未来图像帧作为中间推理步骤,实现可视化推理。在不改变原有 MLLM 架构的前提下,通过“词表扩展 + 自回归视觉生成”激活图像生成能力,并以“由易到难”的渐进式视觉 CoT 注入物理先验。模型既预测未来又进行轨迹规划。

时空视觉CoT:推动自动驾驶从符号走向视觉推理 时空视觉CoT 自动驾驶 多模态大模型 视觉推理 第1张

  • 项目主页:https://miv-xjtu.github.io/FSDrive.github.io/
  • 论文链地址:https://arxiv.org/abs/2505.17685
  • 代码地址:https://github.com/MIV-XJTU/FSDrive

多模态大语言模型(MLLM)凭借世界知识与可解释推理能力,正加速进入端到端“视觉 - 语言 - 动作”(VLA)自动驾驶范式。但现有做法依赖离散文本 CoT,存在跨模态语义鸿沟与时空关系表征不足的问题。

时空视觉CoT:推动自动驾驶从符号走向视觉推理 时空视觉CoT 自动驾驶 多模态大模型 视觉推理 第2张

核心问题:自动驾驶需更贴近“模拟与想象”的视觉推演,而非纯符号逻辑?

FSDrive 提出 “时空视觉 CoT”:将未来场景与感知结果统一生成到一张未来图像帧中,作为中间推理步骤。用未来帧承载时序演化,用“红色车道线与 3D 框”提供空间先验,完成因果推断与决策规划。

本文关键创新:

1) 统一的 “视觉中介”替代文字 / 表格中介,消除跨模态语义鸿沟;

2) “激活”图像生成能力:仅扩展词表引入 VQ 类视觉 token,无需改架构或海量训练;

3) 渐进式视觉 CoT:先生成粗粒度感知图,再生成细节丰富的未来帧,注入物理合理性。

价值:保持简洁链路与可视化推理,同时利用无标注视频数据学习世界演化规律。

方法

时空视觉CoT:推动自动驾驶从符号走向视觉推理 时空视觉CoT 自动驾驶 多模态大模型 视觉推理 第3张

FSDrive 框架:

  • 输入:环视图像与任务指令;输出:统一未来帧(含红色车道线 / 3D 框)作为时空 CoT,及最终轨迹。
  • 双角色:模型先生成未来统一帧(时空 CoT),再依据当前观测与未来预测进行轨迹规划。

统一预训练范式:理解 + 生成

  • 理解保持:沿用 VQA 任务,维持原 MLLM 的语义理解能力。
  • 生成激活:扩展视觉 token 到词表,自回归生成图像 token 并还原像素。
  • 数据高效:所需数据量约为其他方法的 0.3%。

渐进式视觉 CoT(物理先验→细节补全)

  • 先推理未来车道线,注入静态物理约束;
  • 再推理未来 3D 检测,注入动态约束;
  • 在约束下生成完整未来帧,提升真实性与一致性。

时空视觉 CoT 用于规划

  • “普通未来帧 + 红色车道线 / 3D 框”合成为统一图像中介 QCoT,作为中间推理步骤。
  • 表达式:基于 It 与 QCoT 自回归生成未来轨迹 Wt。

训练策略

  • 初始化:从现成 MLLM 出发,冻结视觉编码器,微调 LLM 主体。
  • 阶段一(统一预训练):混合训练 VQA、未来帧生成与感知生成。
  • 阶段二(SFT):联合优化场景理解与轨迹规划。