
“端到端”尚未普及,而“VLA”已经崭露头角,同时“世界模型”正成为新的技术焦点......自动驾驶行业的术语愈发繁多,也越来越让人难以捉摸。
理想与小鹏都视VLA(Visual language Action,视觉语言动作模型)为下一代技术架构的支柱,宣称其能赋予车辆“思考”的能力;然而,华为却称VLA是“取巧”的技术,转而力推自研的WA(World Behavior Architecture,世界行为模型),将“世界模型”技术直接部署于车端;蔚来副总裁任少卿在一次采访中强调:蔚来才是“第一个在国内提出世界模型这个概念的”。
这些“黑话”背后,是围绕下一代自动驾驶技术的话语权争夺。当硬件与配置趋于同质化,智驾能力成为新势力最关键的身份标签。抢先定义未来,意味着抢占用户认知与技术品牌的高度。晦涩的“黑话”不仅是技术路线的宣言,更是对技术品牌的精心包装。
然而,喧嚣的概念背后,是落地体验的差距与研发团队的承压。正如两年前小鹏自动驾驶副总裁吴新宙所言,“自动驾驶不是广告学”。但“期货式”的技术发布仍然屡见不鲜。有车企高管对《云见Insight》坦言他的苦恼:为抢在对手前发布,团队常在技术未成熟时便被推至台前。临近交付节点,团队人心惶惶。推迟或推送后出现任何失误都是不可接受的结果。
技术本应驱动进步,但当“造词”的速度比技术进步更快时,用户获得的或许不是“颠覆性体验”,而是一个仍需不断优化的Beta版本。本文试图梳理术语背后自动驾驶技术的演进脉络,并为用户附上一份“黑话使用手册”。
在2022年之前,自动驾驶行业的技术演进路径相对清晰,主要由特斯拉和Waymo定义,技术术语也多为对特定功能的客观描述。
早期的辅助驾驶系统基于工程师编写的规则,分为感知、规划、控制三大模块。自2016年起,特斯拉通过自研软件算法和FSD芯片,引领行业从规则时代走向AI(Artificial Intelligence,人工智能)。
2021年和2022年,特斯拉连续举办的两次AI DAY对行业影响深远。第一届AI DAY上,特斯拉公布了BEV+Transformer技术架构。该方案将多个摄像头捕捉的2D图像统一投射到俯视坐标系中,形成车辆周围360°的鸟瞰图(BEV,Bird’s-Eye-View),有效解决了遮挡与透视的问题。同时,特斯拉也提出了将2D图像直接转换为3D矢量空间的占用网络(Occupancy Network)的早期概念。
在这之前,传统方法是用卷积神经网络(CNN)分别处理每个摄像头的二维图像,再将其融合到3D环境。而BEV+Transformer实现了跨摄像头的特征“前融合”,大大提升了感知能力。
这也使得特斯拉摆脱了对高精地图的依赖,仅凭车上的传感器实现更广泛的场景泛化能力。其后,特斯拉在FSD Beta V11版本中将NOA(导航辅助驾驶)功能从高速公路扩展到城市道路。
中国的造车新势力和辅助驾驶供应商们迅速跟进了这一技术。但由于在神经网络算法上与特斯拉存在差距,且对于纯视觉路线还存在怀疑,它们早期普遍融合了激光雷达或4D毫米波雷达提供的信息。
2022年-2023年,小鹏的XNGP、蔚来在NOP+、理想在AD Max 3.0、华为的ADS 2.0相继实现了自研的BEV+Transformer方案量产。并以此为利器,展开无图NOA的“开城”竞速。
如果说2021年的AI DAY引发了感知技术变革,那么2022年的AI DAY则彻底打破了感知与规划的界限,推动了以“端到端”(End-to-End)为核心的范式转移。
特斯拉在发布会上披露了FSD Beta V12的架构预览:用一个庞大的神经网络同时处理感知、规划,取代了工程师编写的30万行代码。升级后的占用网络(Occupancy Network)通过将3D空间划分为微小体素(voxel)来识别未知障碍物,从而实现了感知能力的越级提升。
中国的新势力们再次“摸着特斯拉过河”,集体转向端到端架构。其中,小鹏更是毅然放弃激光雷达,全面转向纯视觉路线。
然而,出于对系统安全与成熟度的考量,小鹏和华为早期都采用了相对保守的“多段式”端到端,将感知和规划模块分别用模型取代,而非完全打通。小鹏发布的XBrain架构中,感知采用Xnet网络驱动BEV+Transformer架构,XPlanner模型负责规划。直到2024年中,小鹏才宣布向所有扶摇架构的车型推送“一段式”的端到端系统。
华为的ADS 2.0同样采用了两段式端到端(BEV感知+PDP预测规划),并于2024年宣布在ADS 3.0上升级为“端到端”的架构,去掉BEV网络,以GOD网络负责感知,PDP网络负责预决策规划。不过,有业内智驾高管曾在今年年终对《云见Insight》指出,华为当时的技术方案实质上仍属多段式。
一位自动驾驶行业的技术人员道出其中的挑战:早期中国新势力对模型的认知有限,多段式设计更易于保障安全。传统系统出了问题,工程师可以通过修改代码解决。但端到端模型是一个黑盒,上限更高,下限也更低。“如果出了问题,都不知道怎么改。”
蔚来向端到端技术的转变配合着组织架构调整。2024年6月,蔚来宣布将感知和规划合并为大模型团队,全力推进端到端研发。半年后,任少卿接管该部门。 2025年1月,基于端到端架构的智能系统Banyan榕3.1.0正式推送。
理想在2024年发布了“端到端+VLM”双系统方案。端到端模型负责“快思考”,处理大多数常规场景;VLM模型负责“深思考”,应对少数复杂情况。
智能驾驶芯片和方案供应商地平线更早提出了类似架构,今年4月发布了基于征程6P的HSD方案,采用一段式端到端+VLM架构。该方案计划于今年11月在奇瑞星纪元ET5上量产上车。
在端到端之前,自动驾驶行业主要跟在特斯拉后面“抄作业”。但随着特斯拉不再披露技术细节,中国新势力们只能边追赶、边摸索。爆火的生成式AI和人形机器人行业成为了它们的新老师。
2023年,ChatGPT的成功验证了单一大型神经网络处理复杂多模态任务的能力。从模仿学习到强化学习的训练方式转变也延续到自动驾驶行业。VLA(Visual-Language-Action,视觉语言动作模型)、世界模型等机器人领域的研究也被引入自动驾驶。
VLA最初被用于让机器人理解人类的语言指令并执行动作。2023年,谷歌DeepMind发布的RT2(Robotic Transformer 2)模型将海量图像、文本与机器人动作数据协同训练,形成了VLA模型。随后,开源模型OpenVLA应运而生,大大降低了VLA的研究门槛。
在VLA之外,理想和华为选择了另一条路径:直接把世界模型用于车端实时控制。此前,世界模型主要被用于数据生成和仿真测试。
AI行业对于世界模型的研究始于2018年两个DeepMind研究员的论文《World Models》。该模型让AI智能体能够通过“想象”进行规划和学习,再迁移到真实环境。
术语原本是对技术的精确定义。回顾自动驾驶技术的演进历程中不难发现:每一个术语的兴起都是行业的一次探索。
特斯拉早期的“黑话”因其开创性实践而被行业接纳且用户体验始终领先。而当下的术语爆炸很多时候是对未来愿景的提前消费。
更有企业故意用模糊的黑话去混淆技术本质以弥合与对手的差距。
当术语从定义本身变成营销热词时用户需要分辨的不仅是各家的技术差异更是话语包装与现实体验之间的落差。
本文由主机测评网于2026-05-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260542954.html