当前位置：首页 > 科技资讯 > 正文

自动驾驶技术黑话全解析：从端到端到世界模型的演进与竞争

主机测评网
科技资讯
2026-01-11
417

自动驾驶技术黑话全解析：从端到端到世界模型的演进与竞争端到端 VLA 世界模型自动驾驶黑话第1张

自动驾驶领域的技术术语层出不穷，“端到端”尚未全面落地，“VLA”（视觉语言动作模型）已悄然兴起，而“世界模型”正成为新的技术图腾。这些行业“黑话”日益晦涩，背后折射出车企对下一代自动驾驶技术话语权的激烈角逐。

理想与小鹏均将VLA押注为下一代架构，宣称其能赋予车辆“思考”能力；华为则质疑VLA为“取巧”技术，转而力推自研的WA（世界行为模型），将“世界模型”直接部署于车端；蔚来副总裁任少卿则强调蔚来是“国内首个提出世界模型概念”的公司。术语爆炸的背后，是硬件同质化下智驾能力成为关键竞争点。抢先定义未来，意味着抢占用户认知与技术品牌高度。然而，喧嚣的概念背后，常是落地体验的落差与研发团队的承压。

技术本应驱动进步，但当“造词”速度快于技术进步，用户获得的可能仍是需不断优化的测试版本。本文旨在梳理术语背后的技术演进脉络，并提供一份“黑话”解读手册。

黑话的起源

2022年之前，自动驾驶行业的技术路径相对清晰，主要由特斯拉和Waymo定义，术语多为对功能的客观描述。早期辅助驾驶系统基于工程师编写的规则，分为感知、规划、控制三大模块。自2016年起，特斯拉通过自研软件算法和FSD芯片，引领行业从规则时代走向AI时代。

2021年，特斯拉在AI DAY上公布BEV+Transformer技术架构，将多摄像头2D图像统一投射到俯视坐标系中，形成360度鸟瞰图（BEV），有效解决遮挡与透视问题，并减少对高精地图的依赖。中国造车新势力和辅助驾驶供应商迅速跟进，但早期普遍融合激光雷达或4D毫米波雷达信息。2022-2023年，小鹏的XNGP、蔚来的NOP+、理想的AD Max 3.0、华为的ADS2.0相继实现自研BEV+Transformer方案量产，并展开无图NOA的“开城”竞速。

范式转移：端到端

2022年，特斯拉在AI DAY上披露FSD Beta V12架构预览，推动以“端到端”为核心的范式转移。其用一个庞大神经网络同时处理感知、规划，取代30万行代码，并通过占用网络（OCC）识别未知障碍物，提升感知能力。中国新势力再次跟进，但出于安全考量，早期多采用“多段式”端到端，将感知和规划模块分别用模型取代。

小鹏发布的XBrain架构中，感知采用Xnet网络，规划由XPlanner模型负责，直至2024年中才推送“一段式”端到端系统。华为ADS 2.0采用两段式端到端（BEV感知+PDP预测规划），并计划在ADS 3.0升级。蔚来在2024年6月将感知和规划合并为大模型团队，全力推进端到端，于2025年1月推送Banyan榕3.1.0系统。理想在2024年发布“端到端+VLM”双系统方案，后切换为VLA。地平线将端到端演进分为三代，并指出当时国内尚无真正的一段式端到端。

自动驾驶车是“轮式”机器人

随着特斯拉不再披露技术细节，中国新势力从生成式AI和机器人领域汲取灵感。VLA模型最初用于让机器人理解人类语言指令并执行动作，后被引入自动驾驶。元戎启行于2023年9月提出研发“感知决策一步到位”的端到端模型，2024年4月正式命名为VLA。理想在2025年3月宣布切换为VLA方案，并于8月在理想i8上量产。小鹏计划2025年三季度推送VLA方案，并在车端堆砌2200 Tops算力。

算力竞赛蔓延到云端。特斯拉、小鹏、理想均在云端算力上增加投入，用于训练大参数基座模型。小鹏和理想都采用知识蒸馏技术，将云端大模型压缩后部署到车端。小鹏基座模型参数量为720亿，理想为32亿，均基于开源LLM训练。

世界模型：从仿真到控车

世界模型让AI智能体通过“想象”进行规划和学习，最初用于仿真测试。特斯拉通过占用网络应用世界模型思路。理想和小鹏将其用于仿真测试和云端训练。蔚来和华为则更激进，将世界模型直接用于车端实时控制。蔚来推出NWM（NIO World Model），声称能在行驶中每0.1秒生成216种可能轨迹并评估最优解。华为发布WEWA架构，视其为“通向自动驾驶的终极方案”。然而，这些技术仍不成熟，业内表示研发仍在进行中。

结语

术语原本是对技术的精确定义，但如今常被用于营销和话语权争夺。回顾演进，每个术语的兴起都是行业的探索。特斯拉的“黑话”因开创性实践而被接纳，而当前的术语爆炸，往往是对未来愿景的提前消费。用户需警惕术语包装与现实体验的落差。最终胜利者或许不是最早提出新概念的公司，而是能将技术承诺转化为用户体验的那一个。

《自动驾驶“黑话”手册》

规则 / 模型

早期系统依赖规则（工程师编写的代码），分为感知、规划、控制模块。模型是通过海量数据训练的神经网络，能学习复杂规律并泛化推理，实现拟人化决策。

BEV+Transformer

特斯拉提出的视觉感知技术。BEV将多摄像头2D图像投射到统一3D俯视坐标系，形成360度鸟瞰图；Transformer用于关联2D图像到3D空间，建模远距离物体关系。

OCC

占用网络，用于3D环境感知，将空间划分为体素并判断占用情况，识别未知障碍物。特斯拉提出后，国内车企跟进自研，有不同命名如XNet、GOD。

前融合 / 后融合

多传感器数据融合策略。后融合是各传感器独立识别后汇总；前融合将传感器特征合并后再识别，减少信息损失，更准确。

激光雷达 / 纯视觉

两大感知路线。纯视觉依赖摄像头，激光雷达补充距离测量，不受光照影响。特斯拉坚持纯视觉；理想标配激光雷达；小鹏用摄像头+4D毫米波雷达；华为和蔚来高阶方案搭载激光雷达。

有图 / 无图

是否依赖高精地图。无图方案通过车载传感器实时感知道路，泛化能力更强，但对感知决策要求更高。

FSD

特斯拉的高阶辅助驾驶系统，在基础Autopilot上增加NOA、信号灯识别、城市道路自动转向等功能，通过买断或订阅提供。

NOA

导航辅助驾驶，车辆根据导航自动行驶，实现变道、超车、进出匝道。分高速NOA和城市NOA。各公司有不同命名如NCA、NGP、NOP。

开城

向用户开放城市NOA功能。早期需大量测试适配，开城数量象征技术实力；现系统泛化性增强，概念已淡化。

OTA

空中升级技术，远程更新车辆软件，修复漏洞、优化功能，改变汽车迭代方式。

CNN

卷积神经网络，专用于图像识别与目标检测，处理单个摄像头图像，识别路障、行人等。

端到端

系统接收传感器信号后，直接输出行驶轨迹，控制车辆。特斯拉FSD V12首次应用，用单一AI模型取代传统模块。

端到端 +VLM

理想曾提出的双系统架构，端到端模型处理日常场景，VLM应对复杂情况，后切换为VLA；地平线HSD仍采用此架构。

VLA

视觉-语言-动作模型，通过“图像-文本-动作”数据协同训练，让机器根据语言指令或视觉理解执行物理动作。在自动驾驶中，使车辆“理解”场景语义并做出驾驶动作。

OpenVLA

开源VLA项目，提供预训练模型，降低研究门槛，加速在机器人、自动驾驶领域的应用。

模仿学习 / 强化学习

AI训练方法。模仿学习通过观察专家行为学习；强化学习通过环境互动和奖励惩罚学习最优策略，可能超越模仿学习上限。

预训练、后训练、基座模型

大模型训练阶段。预训练用通用数据训练得基座模型；后训练针对特定任务再训练，包括对齐训练使模型符合人类价值观。

知识蒸馏

模型压缩技术，将大“教师模型”知识转移给小“学生模型”。小鹏、理想用此技术将云端大模型蒸馏后部署车端。

云端算力 / 车端算力

云端算力用于训练AI大模型，处理海量数据；车端算力用于实时处理传感器数据，运行算法模型，要求低延迟高可靠性。

Dojo

特斯拉自研的AI训练超级计算机，使用D1芯片，后因效率等问题转向外购芯片为主。

LLM

大语言模型，基于Transformer架构在海量文本上训练，拥有强大语言理解、生成和推理能力。小鹏、理想的基座模型基于开源LLM训练。

世界模型

让智能体内部模拟真实世界动态规律的模型，学会理解物理规则和因果关系，预测未来状态。用于仿真测试或车端实时控制，如蔚来NWM、华为WEWA。

阿里云服务器性价比服务器免费服务器

本文由主机测评网于2026-01-11发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260116645.html

自动驾驶技术黑话全解析：从端到端到世界模型的演进与竞争

黑话的起源

范式转移：端到端

自动驾驶车是“轮式”机器人

世界模型：从仿真到控车

结语

《自动驾驶“黑话”手册》

Linux文件复制完全指南

WSL安装Ubuntu全攻略（小白入门指南）

自动驾驶技术黑话全解析：从端到端到世界模型的演进与竞争

黑话的起源

范式转移：端到端

自动驾驶车是“轮式”机器人

世界模型：从仿真到控车

结语

《自动驾驶“黑话”手册》

Linux文件复制完全指南

WSL安装Ubuntu全攻略（小白入门指南）

相关文章