当前自动驾驶的多模态大模型在“推理链”上依赖文字或符号,这导致空间-时间关系模糊和细粒度信息丢失。为解决这个问题,FSDrive(FutureSightDrive)提出了“时空视觉 CoT”(Spatio-Temporal Chain-of-Thought),让模型直接“以图思考”,用统一的未来图像帧作为中间推理步骤,实现可视化推理。在不改变原有 MLLM 架构的前提下,通过“词表扩展 + 自回归视觉生成”激活图像生成能力,并以“由易到难”的渐进式视觉 CoT 注入物理先验。模型既预测未来又进行轨迹规划。
多模态大语言模型(MLLM)凭借世界知识与可解释推理能力,正加速进入端到端“视觉 - 语言 - 动作”(VLA)自动驾驶范式。但现有做法依赖离散文本 CoT,存在跨模态语义鸿沟与时空关系表征不足的问题。
核心问题:自动驾驶需更贴近“模拟与想象”的视觉推演,而非纯符号逻辑?
FSDrive 提出 “时空视觉 CoT”:将未来场景与感知结果统一生成到一张未来图像帧中,作为中间推理步骤。用未来帧承载时序演化,用“红色车道线与 3D 框”提供空间先验,完成因果推断与决策规划。
本文关键创新:
1) 统一的 “视觉中介”替代文字 / 表格中介,消除跨模态语义鸿沟;
2) “激活”图像生成能力:仅扩展词表引入 VQ 类视觉 token,无需改架构或海量训练;
3) 渐进式视觉 CoT:先生成粗粒度感知图,再生成细节丰富的未来帧,注入物理合理性。
价值:保持简洁链路与可视化推理,同时利用无标注视频数据学习世界演化规律。
FSDrive 框架:
统一预训练范式:理解 + 生成
渐进式视觉 CoT(物理先验→细节补全)
时空视觉 CoT 用于规划
训练策略
本文由主机测评网于2026-05-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260542204.html