实现Robotaxi如同制造手机般简易,这将是怎样的体验?
英伟达近日在人工智能顶级会议NeurIPS上推出了Alpamayo-R1——
这是英伟达的首个自动驾驶视觉-语言-动作模型,其各项性能指标相较传统端到端系统提升超过30%,并且一经发布便全面开源。
在多模态大模型统一自动驾驶技术趋势的推动下,Robotaxi的准入门槛有望大幅降低:核心芯片可直接采购英伟达产品,算法也能借鉴并移植英伟达的VLA架构,企业只需针对特定驾驶风格或场景进行微调……这与手机厂商的开发模式如出一辙。
黄仁勋的自动驾驶雄心已然公开:英伟达,立志成为自动驾驶领域的“安卓”系统。
有趣的是,英伟达本是端到端自动驾驶技术的“开创者”,而最新的VLA研究,核心目标正是弥补端到端系统的缺陷。
端到端系统从感知到控制一气呵成,基于人类成熟驾驶数据进行训练,理论上能无限逼近“拟人化”驾驶,处理各种复杂情况。
但现实是,已量产的端到端系统仍频繁出现失误——例如:对向车辆违规左转、行人突然闯入车道、临时道路施工、交通标志被遮挡等场景。
端到端系统在复杂场景中折戟的根源,英伟达归结为其局限性——系统能“看见”环境,却未必“理解”场景,也就是常说的“黑盒”特性。
英伟达的解决方案是视觉-语言-动作模型,即当前流行的VLA架构。
直接来看性能对比结果:
对比的基线模型和Alpamayo-R1均在英伟达构建的CoC数据集上训练,该数据集也是本项研究的重要组成部分。
CoC意指因果链,这是模型实现可解释性的关键依据。
对比实验中的基线模型,是在CoC数据集上训练的纯轨迹输出模型,本身不具备推理能力。
实验数据显示的性能提升包括:
规划精度提升12%、越界率降低35%、近碰率降低25%、推理-行动一致性提升37%、端到端延迟降至99ms。
因此,Alpamayo-R1的改进主要体现在以往最易出错的场景中——换言之,它更接近“真正具备判断力的司机”。
以往我们无从知晓端到端系统是否真正“看懂”路况,如今,英伟达如何确认模型具备了“理解”能力?
Alpamayo-R1的重要工作涵盖三点,首当其冲的是前文提到的Chain of Causation(因果链)数据集。
这是一套全新的数据标注体系,每段驾驶数据不仅记录“做了什么”,还阐明“为何这样做”,例如“减速并向左变道,原因是前方有助动车等待红灯,且左侧车道处于空闲状态”:
CoC是对思维链的深化与拓展,着重强化“因果”关联,基本避免了思维链数据集中行为描述模糊、因果关系混淆、行为推理与因果脱节等问题。
当然,CoC标注的校准仍依赖人工介入。
AR1本身基于英伟达的Cosmos Reason模型构建,这是一种专为物理AI设计的推理视觉语言模型:
整体架构的最大特色是基于因果结构化推理而非自由叙事,这意味着模型必须依据历史可观测证据,解释操作的安全性与合规性——
这是第二个重要创新点,采用Multi-Stage Training(多阶段训练策略):
首先在大规模驾驶数据上进行模态注入预训练,学习从视觉输入到动作输出的基本映射;
第二阶段在CoC因果链数据上进行监督微调,教会模型「先推理再行动」;
最后通过强化学习进一步优化推理质量、推理-行动一致性以及轨迹安全性。
这种分阶段、目标明确的训练流程,使模型在开放道路及长尾危险场景中表现更为稳健。
在轨迹输出阶段,AR1引入了基于扩散模型的轨迹解码器,能在实时约束下生成连续、动态可行的驾驶轨迹。该模块将语言推理输出与物理约束相结合,实现从推理到控制的无缝衔接:
扩散模型的基本原理是通过前向过程逐步向数据添加噪声,直至数据转化为完全随机噪声,再通过后向过程逐步去除噪声,从而生成新的数据样本。
这种生成方式使模型能够捕捉数据的复杂分布,并可通过控制噪声的添加与去除过程来生成多样化样本。
总结AR1的工作流程与原理。与其他自动驾驶系统类似,输入由多相机、多时序观测帧组成,同时可选配高层语言输入(如导航指令或驾驶目标)。
所有输入(包括历史自车运动状态)会被统一编码成多模态token序列,按时序和传感器顺序排列,再送入主干模型Cosmos-Reason进行推理与预测。
其中,每个相机视角先经过轻量级CNN与时间注意力模块进行特征压缩与时序建模,随后融合为BEV(鸟瞰图)表征。之后,所有模态(图像、导航文本、自车状态)被token化后统一输入Transformer架构。
模型的输出包含三类token:推理链、中层动作与未来轨迹预测。
最大创新在于让多模态自动驾驶模型具备可解释的语义理解能力,并能与运动状态感知关联,实现有明确因果对应关系的输入-输出映射。
Alpamayo-R1固然可归类为VLA模型,但与业内常见的“端到端+大语言模型外挂”式VLA有本质区别。
Alpamayo-R1是原生的多模态模型,其基础是英伟达在年初CES上发布的Cosmos基础世界模型中的Cosmos Reason组件。
Cosmos实质是英伟达连接AI与物理世界的“中间层”,为各行各业提供最基础的物理AI“安卓”模板——“通才”型世界模型。
基座模型的训练方法包括扩散模型和自回归模型。其中基于扩散的WFM,预训练涵盖“文本到世界生成预训练”以及“视频到世界生成预训练”;基于自回归的WFM,预训练则包括“下一个token生成”以及“文本条件的视频到世界生成”。
对应到Alpamayo-R1,预训练过程实为CoC数据集的训练阶段。
而Alpamayo-R1的基座模型本身,正是Cosmos Reason,即Cosmos的AI推理模型扩展,核心能力是通过思维链推理理解视频数据。
此次Alpamayo-R1的发布,也印证了黄仁勋在AI浪潮中为英伟达谋划的新布局——在计算基础设施之外,还要打造机器人、自动驾驶等物理AI的底层“安卓”平台。
首先是Alpamayo-R1本身,与其说强调基座模型的能力,不如说是黄仁勋在大力推广这套VLA的架构范式与训练方法——Alpamayo-R1灵活开放,可兼容各类基座大模型。
研究的真正价值,在于CoC数据集的全新标注体系,以及可利用思维链推理场景因果关系的大模型范式。
黄仁勋曾多次阐述,物理AI是英伟达认定的下一阶段人工智能“风口”,其中最关键的环节,就是构建连接物理世界与AI的“中间层”。各行各业,甚至缺乏强AI算法能力的企业或个人,都能借助强大的基座模型与流程工具打造定制化产品。
以Robotaxi为例,英伟达此前已官宣自身的Robotaxi战略,涵盖车辆与解决方案,并签约Uber作为合作方。
但更深层的目标,是打破Robotaxi当前的“封闭”模式。
在底层硬件层,统一芯片、传感器的驱动接口,无论车企采用禾赛还是速腾的激光雷达,都能直接适配英伟达算法,避免硬件不兼容的研发内耗。
核心算法层面,正是本次开源的Alpamayo-R1,提供L4级自动驾驶的基础能力,支持开发者通过API进行定制化优化,例如在校园场景中强化行人识别,在高速场景中优化变道逻辑。
至于上层招车、调度、计费、维保等功能接口,有实力的出行平台可接入自有APP,而英伟达也可在底层直接开放,企业只需接入接口便能快速上线Robotaxi服务。
如果说马斯克的多模态大模型路线对传统L4技术构成前所未有的挑战,那英伟达开源Alpamayo-R1,实则是对整个Robotaxi商业模式的冲击——
L4玩家自持车队、自建平台的成型窗口期,正日益缩短。
因为借助英伟达全栈软硬件方案,大量原本无力进军Robotaxi的传统网约车平台、出租车公司,如今可实现“开箱即用”。
那么,自动驾驶赛道最终会形成“安卓”与“苹果”对垒的局面吗?
对应安卓和苹果的,会是英伟达与特斯拉吗?
端到端自动驾驶的“开山之作”,正是英伟达2016年的论文End to End Learning for Self-Driving Cars,只不过当时架构仍基于传统卷积神经网络。
随着Transformer威力显现,端到端思路首先被特斯拉应用并量产,至今仍是汽车工业转型的关键路径。
然而对于头部技术玩家及“祖师爷”英伟达,端到端如今成了需“被颠覆”的旧技术范式——在英伟达领导此项前沿探索的,是我们的老熟人——吴新宙:
Alpamayo-R1的作者团队,也几乎全是华人班底:
甚至,英伟达还详细列出了每位贡献者参与的环节:
人才储备再度充实~
英伟达Alpamayo-R1论文地址:https://d1qx31qr3h6wln.cloudfront.net/publications/Alpamayo-R1_1.pdf
本文由主机测评网于2026-01-31发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260122072.html