当前位置：首页 > 科技资讯 > 正文

时空视觉CoT：推动自动驾驶从符号走向视觉推理

主机测评网
科技资讯
2026-05-02
384

当前自动驾驶的多模态大模型在“推理链”上依赖文字或符号，这导致空间-时间关系模糊和细粒度信息丢失。为解决这个问题，FSDrive（FutureSightDrive）提出了“时空视觉 CoT”（Spatio-Temporal Chain-of-Thought），让模型直接“以图思考”，用统一的未来图像帧作为中间推理步骤，实现可视化推理。在不改变原有 MLLM 架构的前提下，通过“词表扩展 + 自回归视觉生成”激活图像生成能力，并以“由易到难”的渐进式视觉 CoT 注入物理先验。模型既预测未来又进行轨迹规划。

时空视觉CoT：推动自动驾驶从符号走向视觉推理时空视觉CoT 自动驾驶多模态大模型视觉推理第1张

项目主页：https://miv-xjtu.github.io/FSDrive.github.io/
论文链地址：https://arxiv.org/abs/2505.17685
代码地址：https://github.com/MIV-XJTU/FSDrive

多模态大语言模型（MLLM）凭借世界知识与可解释推理能力，正加速进入端到端“视觉 - 语言 - 动作”（VLA）自动驾驶范式。但现有做法依赖离散文本 CoT，存在跨模态语义鸿沟与时空关系表征不足的问题。

时空视觉CoT：推动自动驾驶从符号走向视觉推理时空视觉CoT 自动驾驶多模态大模型视觉推理第2张

核心问题：自动驾驶需更贴近“模拟与想象”的视觉推演，而非纯符号逻辑？

FSDrive 提出 “时空视觉 CoT”：将未来场景与感知结果统一生成到一张未来图像帧中，作为中间推理步骤。用未来帧承载时序演化，用“红色车道线与 3D 框”提供空间先验，完成因果推断与决策规划。

本文关键创新：

1) 统一的 “视觉中介”替代文字 / 表格中介，消除跨模态语义鸿沟；

2) “激活”图像生成能力：仅扩展词表引入 VQ 类视觉 token，无需改架构或海量训练；

3) 渐进式视觉 CoT：先生成粗粒度感知图，再生成细节丰富的未来帧，注入物理合理性。

价值：保持简洁链路与可视化推理，同时利用无标注视频数据学习世界演化规律。

方法

时空视觉CoT：推动自动驾驶从符号走向视觉推理时空视觉CoT 自动驾驶多模态大模型视觉推理第3张

FSDrive 框架：

输入：环视图像与任务指令；输出：统一未来帧（含红色车道线 / 3D 框）作为时空 CoT，及最终轨迹。
双角色：模型先生成未来统一帧（时空 CoT），再依据当前观测与未来预测进行轨迹规划。

统一预训练范式：理解 + 生成

理解保持：沿用 VQA 任务，维持原 MLLM 的语义理解能力。
生成激活：扩展视觉 token 到词表，自回归生成图像 token 并还原像素。
数据高效：所需数据量约为其他方法的 0.3%。

渐进式视觉 CoT（物理先验→细节补全）

先推理未来车道线，注入静态物理约束；
再推理未来 3D 检测，注入动态约束；
在约束下生成完整未来帧，提升真实性与一致性。

时空视觉 CoT 用于规划

“普通未来帧 + 红色车道线 / 3D 框”合成为统一图像中介 QCoT，作为中间推理步骤。
表达式：基于 It 与 QCoT 自回归生成未来轨迹 Wt。

训练策略

初始化：从现成 MLLM 出发，冻结视觉编码器，微调 LLM 主体。
阶段一（统一预训练）：混合训练 VQA、未来帧生成与感知生成。
阶段二（SFT）：联合优化场景理解与轨迹规划。

免费服务器

本文由主机测评网于2026-05-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260542204.html

上一篇

卫星发射加速，太空网络新纪元来临

下一篇

AI赋能，漫剧产业迎来爆发式增长