当前位置:首页 > 科技资讯 > 正文

英伟达开源Alpamayo-R1 VLA自动驾驶模型,开启因果推理新时代

英伟达近日开源了其视觉-语言-动作(VLA)自动驾驶模型Alpamayo-R1,这一突破性举措使得广大开发者和企业能够轻松接入先进的自动驾驶技术研发。

英伟达(NVIDIA)研究团队正式发布并开源了全新的VLA模型Alpamayo-R1(简称AR1),同时明确宣布将在未来更新中开源该模型的部分核心数据集,为行业创新提供坚实的数据基础。

英伟达开源Alpamayo-R1 VLA自动驾驶模型,开启因果推理新时代 自动驾驶  VLA模型 开源 因果链数据集 第1张

▲Alpamayo-R1对应的数据集已上传至开源社区,供全球开发者使用

目前,该模型对应的数据集也已全面上传至开源社区,总大小约为100TB,这标志着英伟达首次将VLA模型进行开源共享。

在数据许可方面,英伟达明确了数据集可用于商业和非商业用途,这意味着缺乏VLA技术积累的公司也能借助英伟达的资源快速上手开发。

英伟达开源Alpamayo-R1 VLA自动驾驶模型,开启因果推理新时代 自动驾驶  VLA模型 开源 因果链数据集 第2张

▲Alpamayo-R1模型架构展示了其模块化设计

这一举措不仅打破了高端自动驾驶模型的封闭壁垒,更象征着端到端自动驾驶技术从简单的“行为模仿”进化到具备深度“因果思考”的新阶段。

对于自动驾驶行业来说,Alpamayo-R1的出现直接应对了当前最棘手的挑战——长尾场景(Long-tail scenarios)下的安全性能。

英伟达推出的Alpamayo-R1旨在终结这一困境,其实际测试结果表现卓越,令人信服。

英伟达开源Alpamayo-R1 VLA自动驾驶模型,开启因果推理新时代 自动驾驶  VLA模型 开源 因果链数据集 第3张

▲Alpamayo-R1相对基线的提升显著

在极高难度长尾场景的测试中,AR1的规划准确率相比仅依赖轨迹预测的基线模型提升了12%

在闭环仿真测试中,AR1成功将车辆冲出道路的事故率降低了35%

与其他车辆或行人的近距离危险遭遇率也大幅减少了25%

更值得关注的是,即使集成了复杂的推理模块,该模型在NVIDIA RTX 6000 Pro Blackwell车载硬件上仍保持了99毫秒的端到端超低延迟,完全满足实时自动驾驶的严格要求。

01.

解决自动驾驶端到端黑盒问题

引入因果链数据集

过去几年,基于模仿学习的端到端大模型通过数据堆叠取得了显著进展,但它们本质上类似一个只懂记忆的“黑盒”。

这些模型能精准模仿人类驾驶操作,却缺乏对场景的因果理解。它们知道“前面有车需刹车”,但不懂“为何要刹车”。

这种知其然不知其所以然的缺陷,导致车辆在面对未见过的高风险复杂路况时,往往表现脆弱,决策逻辑甚至自相矛盾。

VLA模型将“世界知识”融入驾驶舱的能力,被公认为突破L4级自动驾驶长尾难题的关键方案之一。

英伟达开源Alpamayo-R1 VLA自动驾驶模型,开启因果推理新时代 自动驾驶  VLA模型 开源 因果链数据集 第4张

▲理想汽车VLA模型架构示意图

然而,VLA不仅存在模型幻觉(Hallucination)、延迟等问题,其研发对算力、算法和数据集要求极高,目前仅有小鹏、理想、小米、元戎启行等头部企业在推动VLA上车。

开源项目方面,除英伟达的AR1外,也只有OpenDriveVLA等学术界项目在持续迭代。

因此,英伟达此次开源VLA模型和数据集犹如一枚重磅炸弹,为VLA的研发落地带来新变革。

具体来看,为了让AI学会像人类老司机一样思考,英伟达没有在现有模型上修补,而是从底层数据构建启动了一场革命。

英伟达开源Alpamayo-R1 VLA自动驾驶模型,开启因果推理新时代 自动驾驶  VLA模型 开源 因果链数据集 第5张

▲因果链推理演示图

为解决传统数据集中描述模糊、逻辑关联不足的问题,研究团队构建了全新的“因果链”(Chain of Causation, CoC)数据集。

这套数据集的核心是教会模型建立“观察-原因-决策”的严密逻辑闭环。它不再让AI生成如“天气晴朗、路面宽阔”这类无关紧要的描述。

在此模型下,提示词可明确指如“因为左侧有车辆正在强行并线,且前方有行人横穿,所以我决定减速避让”。

这种数据构建方式不仅消除了因果混淆,还显著提升了模型的逻辑性。

02.

引入新架构 平衡模型性能

在强大数据支撑下,Alpamayo-R1采用了模块化高效架构设计,巧妙平衡了“慢思考”与“快行动”。

其大脑由英伟达专为物理AI打造的Cosmos-Reason视觉语言模型驱动,负责处理复杂的环境理解和逻辑推理。

而行动则由基于流匹配(Flow Matching)技术的动作专家解码器控制。

这种分工机制让模型既能利用大语言模型的广博知识进行深思熟虑,又能通过扩散模型生成流畅且符合车辆动力学的行驶轨迹,完美解决大模型反应迟钝的问题。

不过,真正让Alpamayo-R1脱颖而出的是其在训练阶段引入的强化学习(RL)机制。

英伟达开源Alpamayo-R1 VLA自动驾驶模型,开启因果推理新时代 自动驾驶  VLA模型 开源 因果链数据集 第6张

▲推理-动作高一致性将提升奖励示意图

在监督学习教会模型基本驾驶技能后,研究人员引入了更严苛的“判卷老师”——利用更大规模推理模型作为批评者(Critic),对AR1表现进行评分。

此阶段训练目标明确:要求模型言行一致。

模型中的奖励函数不仅关注车辆驾驶安全,更注重模型推理逻辑与实际驾驶动作是否吻合。

如果模型推理说“因为红灯要停车”,但实际动作却在加速,它就会受到严厉惩罚。

英伟达开源Alpamayo-R1 VLA自动驾驶模型,开启因果推理新时代 自动驾驶  VLA模型 开源 因果链数据集 第7张

▲采用强化学习新模式后质量显著提升图表

这种训练方式让AI解释不再是事后敷衍,而是真正成为指导车辆行动的决策纲领,推理质量因此提升45%推理与行动一致性也提高37%

在论文致谢中,排在第一位的正是英伟达自动驾驶负责人吴新宙。

英伟达开源Alpamayo-R1 VLA自动驾驶模型,开启因果推理新时代 自动驾驶  VLA模型 开源 因果链数据集 第8张

▲吴新宙在致谢第一位显示其领导作用

吴新宙是自动驾驶领域的知名人物,在加入英伟达前,他曾担任小鹏汽车自动驾驶副总裁。

2023年8月,吴新宙正式加盟英伟达,出任英伟达汽车业务副总裁(Vice President of Automotive),直接向CEO黄仁勋汇报,目前全面负责英伟达自动驾驶软件算法的研发与落地。

03.

结语:英伟达首次开源VLA模型

Alpamayo-R1的发布与开源,其意义远超高性能模型本身,对自动驾驶行业而言,这可能引发一次重新洗牌。

长期以来,高阶端到端自动驾驶研发门槛极高,仅掌握在拥有海量数据和算力的巨头手中。

英伟达通过开源AR1及数据集,实则为全行业提供了一套L4级自动驾驶的“参考答案”,有效降低了中小厂商和研究机构的入场门槛,可能催生一批基于AR1微调的自动驾驶方案。

对英伟达自身,这一动作更是其“软硬一体”战略的体现。AR1展现的强大性能,必须依赖英伟达强大的GPU算力和配套Cosmos框架工具链。

通过定义最先进的软件范式,英伟达正在潜移默化地锁定未来硬件市场。