
自动驾驶领域的技术术语层出不穷,“端到端”尚未全面落地,“VLA”(视觉语言动作模型)已悄然兴起,而“世界模型”正成为新的技术图腾。这些行业“黑话”日益晦涩,背后折射出车企对下一代自动驾驶技术话语权的激烈角逐。
理想与小鹏均将VLA押注为下一代架构,宣称其能赋予车辆“思考”能力;华为则质疑VLA为“取巧”技术,转而力推自研的WA(世界行为模型),将“世界模型”直接部署于车端;蔚来副总裁任少卿则强调蔚来是“国内首个提出世界模型概念”的公司。术语爆炸的背后,是硬件同质化下智驾能力成为关键竞争点。抢先定义未来,意味着抢占用户认知与技术品牌高度。然而,喧嚣的概念背后,常是落地体验的落差与研发团队的承压。
技术本应驱动进步,但当“造词”速度快于技术进步,用户获得的可能仍是需不断优化的测试版本。本文旨在梳理术语背后的技术演进脉络,并提供一份“黑话”解读手册。
2022年之前,自动驾驶行业的技术路径相对清晰,主要由特斯拉和Waymo定义,术语多为对功能的客观描述。早期辅助驾驶系统基于工程师编写的规则,分为感知、规划、控制三大模块。自2016年起,特斯拉通过自研软件算法和FSD芯片,引领行业从规则时代走向AI时代。
2021年,特斯拉在AI DAY上公布BEV+Transformer技术架构,将多摄像头2D图像统一投射到俯视坐标系中,形成360度鸟瞰图(BEV),有效解决遮挡与透视问题,并减少对高精地图的依赖。中国造车新势力和辅助驾驶供应商迅速跟进,但早期普遍融合激光雷达或4D毫米波雷达信息。2022-2023年,小鹏的XNGP、蔚来的NOP+、理想的AD Max 3.0、华为的ADS2.0相继实现自研BEV+Transformer方案量产,并展开无图NOA的“开城”竞速。
2022年,特斯拉在AI DAY上披露FSD Beta V12架构预览,推动以“端到端”为核心的范式转移。其用一个庞大神经网络同时处理感知、规划,取代30万行代码,并通过占用网络(OCC)识别未知障碍物,提升感知能力。中国新势力再次跟进,但出于安全考量,早期多采用“多段式”端到端,将感知和规划模块分别用模型取代。
小鹏发布的XBrain架构中,感知采用Xnet网络,规划由XPlanner模型负责,直至2024年中才推送“一段式”端到端系统。华为ADS 2.0采用两段式端到端(BEV感知+PDP预测规划),并计划在ADS 3.0升级。蔚来在2024年6月将感知和规划合并为大模型团队,全力推进端到端,于2025年1月推送Banyan榕3.1.0系统。理想在2024年发布“端到端+VLM”双系统方案,后切换为VLA。地平线将端到端演进分为三代,并指出当时国内尚无真正的一段式端到端。
随着特斯拉不再披露技术细节,中国新势力从生成式AI和机器人领域汲取灵感。VLA模型最初用于让机器人理解人类语言指令并执行动作,后被引入自动驾驶。元戎启行于2023年9月提出研发“感知决策一步到位”的端到端模型,2024年4月正式命名为VLA。理想在2025年3月宣布切换为VLA方案,并于8月在理想i8上量产。小鹏计划2025年三季度推送VLA方案,并在车端堆砌2200 Tops算力。
算力竞赛蔓延到云端。特斯拉、小鹏、理想均在云端算力上增加投入,用于训练大参数基座模型。小鹏和理想都采用知识蒸馏技术,将云端大模型压缩后部署到车端。小鹏基座模型参数量为720亿,理想为32亿,均基于开源LLM训练。
世界模型让AI智能体通过“想象”进行规划和学习,最初用于仿真测试。特斯拉通过占用网络应用世界模型思路。理想和小鹏将其用于仿真测试和云端训练。蔚来和华为则更激进,将世界模型直接用于车端实时控制。蔚来推出NWM(NIO World Model),声称能在行驶中每0.1秒生成216种可能轨迹并评估最优解。华为发布WEWA架构,视其为“通向自动驾驶的终极方案”。然而,这些技术仍不成熟,业内表示研发仍在进行中。
术语原本是对技术的精确定义,但如今常被用于营销和话语权争夺。回顾演进,每个术语的兴起都是行业的探索。特斯拉的“黑话”因开创性实践而被接纳,而当前的术语爆炸,往往是对未来愿景的提前消费。用户需警惕术语包装与现实体验的落差。最终胜利者或许不是最早提出新概念的公司,而是能将技术承诺转化为用户体验的那一个。
规则 / 模型
早期系统依赖规则(工程师编写的代码),分为感知、规划、控制模块。模型是通过海量数据训练的神经网络,能学习复杂规律并泛化推理,实现拟人化决策。
BEV+Transformer
特斯拉提出的视觉感知技术。BEV将多摄像头2D图像投射到统一3D俯视坐标系,形成360度鸟瞰图;Transformer用于关联2D图像到3D空间,建模远距离物体关系。
OCC
占用网络,用于3D环境感知,将空间划分为体素并判断占用情况,识别未知障碍物。特斯拉提出后,国内车企跟进自研,有不同命名如XNet、GOD。
前融合 / 后融合
多传感器数据融合策略。后融合是各传感器独立识别后汇总;前融合将传感器特征合并后再识别,减少信息损失,更准确。
激光雷达 / 纯视觉
两大感知路线。纯视觉依赖摄像头,激光雷达补充距离测量,不受光照影响。特斯拉坚持纯视觉;理想标配激光雷达;小鹏用摄像头+4D毫米波雷达;华为和蔚来高阶方案搭载激光雷达。
有图 / 无图
是否依赖高精地图。无图方案通过车载传感器实时感知道路,泛化能力更强,但对感知决策要求更高。
FSD
特斯拉的高阶辅助驾驶系统,在基础Autopilot上增加NOA、信号灯识别、城市道路自动转向等功能,通过买断或订阅提供。
NOA
导航辅助驾驶,车辆根据导航自动行驶,实现变道、超车、进出匝道。分高速NOA和城市NOA。各公司有不同命名如NCA、NGP、NOP。
开城
向用户开放城市NOA功能。早期需大量测试适配,开城数量象征技术实力;现系统泛化性增强,概念已淡化。
OTA
空中升级技术,远程更新车辆软件,修复漏洞、优化功能,改变汽车迭代方式。
CNN
卷积神经网络,专用于图像识别与目标检测,处理单个摄像头图像,识别路障、行人等。
端到端
系统接收传感器信号后,直接输出行驶轨迹,控制车辆。特斯拉FSD V12首次应用,用单一AI模型取代传统模块。
端到端 +VLM
理想曾提出的双系统架构,端到端模型处理日常场景,VLM应对复杂情况,后切换为VLA;地平线HSD仍采用此架构。
VLA
视觉-语言-动作模型,通过“图像-文本-动作”数据协同训练,让机器根据语言指令或视觉理解执行物理动作。在自动驾驶中,使车辆“理解”场景语义并做出驾驶动作。
OpenVLA
开源VLA项目,提供预训练模型,降低研究门槛,加速在机器人、自动驾驶领域的应用。
模仿学习 / 强化学习
AI训练方法。模仿学习通过观察专家行为学习;强化学习通过环境互动和奖励惩罚学习最优策略,可能超越模仿学习上限。
预训练、后训练、基座模型
大模型训练阶段。预训练用通用数据训练得基座模型;后训练针对特定任务再训练,包括对齐训练使模型符合人类价值观。
知识蒸馏
模型压缩技术,将大“教师模型”知识转移给小“学生模型”。小鹏、理想用此技术将云端大模型蒸馏后部署车端。
云端算力 / 车端算力
云端算力用于训练AI大模型,处理海量数据;车端算力用于实时处理传感器数据,运行算法模型,要求低延迟高可靠性。
Dojo
特斯拉自研的AI训练超级计算机,使用D1芯片,后因效率等问题转向外购芯片为主。
LLM
大语言模型,基于Transformer架构在海量文本上训练,拥有强大语言理解、生成和推理能力。小鹏、理想的基座模型基于开源LLM训练。
世界模型
让智能体内部模拟真实世界动态规律的模型,学会理解物理规则和因果关系,预测未来状态。用于仿真测试或车端实时控制,如蔚来NWM、华为WEWA。
本文由主机测评网于2026-01-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260116645.html