文|富充
编辑|苏建勋
近日,大晓机器人官方小红书账号发布了一条创意短视频,以“晓刚老师养了十只狗”为标题,生动展示了其在具身智能领域的最新突破。视频中,大晓机器人董事长、商汤科技联合创始人王晓刚,无需遥控器,仅凭手势指令便指挥十台不同品牌、形态各异的机器狗同步执行任务:从识别违停车辆并拍照取证,到禁飞区定位非法无人机信号并语音警告,整个过程流畅精准。
“过去,一条机器狗需要两到三人运维;未来,一个人就能在远程控制中心调度整支‘机器狗舰队’。”王晓刚描绘了这一愿景,并透露该方案已进入城市治理试点——在12月18日的发布会上,大晓机器人正式宣布与徐汇公安共同探索基于四足机器人的街面智能巡检新范式。
△搭载大晓具身超级大脑模组A1的“汪汪队”,涵盖宇树、云深处、智元等主流本体品牌,图源:企业提供
王晓刚将这次技术跃迁归因于两项核心发布:首先是具身超级大脑模组A1——一个集成了多模态感知、端侧计算与5G通信的轻量化智能单元。只要将该模组加装至现有四足或人形机器人上,后者便能立刻获得空间智能与自主决策能力。而支撑这颗大脑运转的,则是另一项重磅产品——“开悟”世界模型3.0。
世界模型本质上是在AI中复刻了物理世界的运行规律。有了它,机器人不再需要为每个新场景“从头学起”。例如学会“开门”后,无论面对自家入户门还是陌生餐厅的大门,机器人都能基于物理常识自适应完成。更重要的是,这套模型完全跨本体:无论是四足狗、轮式机器人还是双足人形,都能共享同一套“世界理解力”。
世界模型的升温,直接回击了当前具身智能主流路线——VLA模型(视觉-语言-动作)的软肋。VLA像一位“超级模仿者”,依赖海量配对的“画面—指令—动作”数据,却因缺乏对物理因果的深度理解,一旦环境或对象稍有变化,成功率便急剧下滑。它需要近乎无限的真实数据喂养,但具身领域至今仅有1万至10万小时有效真机数据,远不及自动驾驶的百万小时级积累。世界模型则将范式从“死记硬背例题”转为“掌握通用公式”,从根本上降低了对昂贵真机数据的依赖。
△发布会现场体验区,输入空间描述与动作指令后,“开悟”世界模型3.0实时生成本体第一视角运动画面,图源:作者拍摄
王晓刚强调,世界模型的价值必须通过下游闭环验证才能兑现。早在2024年11月,商汤便发布过智能驾驶世界模型,但当时业内普遍将其视为“高级数据生成器”,信任度不足。转折点出现在与上汽智己的合作中:商汤世界模型规模化生成高难度博弈场景(如环岛通行、大车加塞),再经由智己实车反复校准,最终攻克了传统路采成本极高且危险的边缘场景。这一方法论被完整平移至具身领域,大晓机器人选择以四足狗作为首战场景,正是看中其硬件成熟、落地链路短,可在真实城市巡检中快速验证并迭代世界模型能力。
△大晓机器人董事长王晓刚,图片:企业提供
智能涌现:从VLA到世界模型的“升级”,你认为这是同一技术路径的自然演化,还是范式切换?
王晓刚:这是一脉相承的递进。世界模型、端到端、强化学习是同一技术逻辑在不同阶段的外显。核心始终是让模型理解并预演真实世界的演化,并以此驱动决策。行业真正的变化是:大家开始把“模型能否在物理世界中闭环生效”视为第一性原理,而不再满足于几个酷炫的演示。特斯拉近期披露的世界模型仿真架构,正是这一演进的例证。
智能涌现:去年11月你主导发布智能驾驶世界模型时,行业普遍“不信”。商汤后来通过上汽智己业务验证了什么?
王晓刚:上汽智己专门挑选环岛、大车加塞等高风险博弈场景来检验我们的世界模型。这类场景过去靠实车采集危险且低效,甚至需要演员配合“复刻”事故。世界模型解决了这一痛点:它不仅能批量生成此类场景的视觉画面,更能输出对应的决策策略,经实车验证后形成正向迭代闭环。
智能涌现:世界模型具体补足了VLA哪些短板?
王晓刚:VLA擅长短序技能模仿,但不具备长链条推理和对物理规律的泛化能力,容易产生“看似正确实则无效”的动作。世界模型则致力于学习环境与交互的结构化规律,支持预测、推理与规划。比如VLA学会开启白色冰箱门后,换一台黑色冰箱可能就失效;而世界模型理解的是“门轴旋转”与“把手受力”的物理关系,即使冰箱外观、位置全变,依然能成功操作。我们还致力于将世界模型压缩至端侧,以降低思考到执行的时延。
智能涌现:为何强调“世界模型必须与强化学习结合”?
王晓刚:强化学习擅长在低成本试错环境中逼近最优策略,但物理世界试错成本极高。将策略的推演与试错放在世界模型中进行,再将成熟策略迁移至真机,是当下最务实的技术路径。
智能涌现:Sora等生成式世界模型,与大晓的具身世界模型有何本质区别?
王晓刚:Sora是极佳的视频生成器,但它是“黑箱”——生成画面虽逼真,却无法理解画面中物体的物理属性与因果结构。你不能把瓶子从背景中单独拆出、挪动位置并观测新的交互反应。具身世界模型的目标完全不同:它必须能拆解、编辑、推演物理对象。例如面对桌上散落的积木,世界模型要规划出“以最少步骤搭成‘ACE’三个字母”的具体动作序列:先动哪块、后动哪块、用何种抓取位姿。
智能涌现:大晓世界模型通过哪些具体能力支撑机器人执行复杂任务?
王晓刚:我们将其拆解为三大模块:多模态理解——不仅识别视频内容,还提取相机位姿、3D轨迹、力学属性等深层信息;多模态生成——可生成带可编辑要素的训练场景(换背景、换本体、换机械臂构型);多模态预测——如收到“拿起手机”指令时,能预测左右手不同轨迹并选择最优解。平台还允许用户指定具体本体构型,保证仿真数据与下游真机训练严格对齐。
智能涌现:评价一个世界模型好坏的核心标准是什么?
王晓刚:学术榜单是参考,但我更看重影响力和解决实际问题的能力。一个模型好不好,要看它是否被大量集成进机器人系统,在真实场景中被高频使用、持续迭代。我们会将世界模型开源,真正的评价权在开发者与场景用户手中。
△搭载大晓模组的机器狗自主识别红灯并执行导航避障,图片:企业提供
智能涌现:“开悟”世界模型3.0的架构与数据来源是如何设计的?
王晓刚:架构分为三层,每层对应不同数据采集方式:1)世界描述层——存储物理规律(如重力、摩擦、碰撞响应)的文本化知识;2)人类行为层——通过头戴摄像机、数据手套、三视角捕捉人等第一/三视角数据,记录人如何与物理世界交互(位姿、力度、触觉);3)真机动作层——针对不同自由度本体的真实运动数据,用于跨本体适配微调。
智能涌现:为什么强调“以人为中心”采集数据而非“以机器为中心”?
王晓刚:以机器人为中心会导致数据与特定构型强绑定,无法跨本体复用,且真人遥控采集效率极低。人的自然交互动作数据极易规模化,我们先以此训练出一个具备“物理常识”的基础模型,再通过少量真机数据迁移至各种机器人构型。
智能涌现:世界模型能压缩多少真机数据需求?
王晓刚:自动驾驶真实有效数据可达数百万小时,而机器人真机数据至今困在1万-10万小时量级。利用人体与环境交互数据搭建预训练基座,只需数千小时真机数据进行校准微调,便可达可用水平。现阶段大晓主要复用合作伙伴已有的真机数据,无需额外大规模采集。
智能涌现:物理规律近乎无限,世界模型如何覆盖?
王晓刚:世界模型必须承认场景边界,不可能穷举所有物理规律。我们的策略是渐进扩展:从道路场景切入,中期拓展至无人物流仓,未来再延伸至家庭服务。每个阶段只覆盖该场景所需的物理常识与交互模式。
△大晓机器狗在实战中识别并拍摄违停车辆,图片:企业提供
智能涌现:大晓本次发布的“大脑模组”具体包含哪些组件?
王晓刚:模组是一个标准化硬件单元,集成了全景相机、端侧AI计算板、4G/5G透传模块及电源管理。全景相机提升态势感知广度,端侧板运行世界模型轻量化引擎,通信模组保证远程调度指令低延迟下发。
智能涌现:为何首战选择机器狗而非人形机器人?
王晓刚:四足机器人在运动稳定性、续航、载重方面已高度成熟,适合快速切入真实场景积累数据与案例,为人形机器人后续落地铺平道路。
智能涌现:大晓要复制苹果式软硬垂直整合,还是走开放生态?
王晓刚:我们会坚持关键部件软硬自研,同时广泛协同生态伙伴。与苹果不同,我们的自研仅限于决定体验与成本的核心部分(如世界模型、模组主控),本体、传感器等则与业内头部厂商合作。最终交付的是开箱即用的场景化方案,而非绑定单一硬件品牌。
智能涌现:大晓未来更倾向于将世界模型授权给本体厂商,还是直接服务终端客户?
王晓刚:我们选择直接切入场景。一方面,商汤十一年来在城市、文旅、商业等领域的深厚积累,使我们更懂客户痛点;另一方面,多数本体厂商缺乏场景深耕的意愿与资源。由我们打通场景闭环,不仅能更快获得商业验证,还能通过复用商汤既有渠道大幅降低边际成本。
△轮式双臂机器人无人物流仓场景训练,是大晓中期商业化的重要方向,目前正与合作伙伴联合开发,图片:企业提供
智能涌现:大晓与本体厂商之间既有合作又存潜在竞争,如何平衡?
王晓刚:当前阶段的最大瓶颈是场景尚未爆发,远未到存量博弈时。我们以增量场景为导向,主动避开电力巡检等已充分竞争的存量市场。当大晓探索出城市治理、智慧园区等新场景后,本体厂商反而积极寻求配套,因为此前他们因订单不明而不敢投入产能。
智能涌现:大晓现阶段聚焦To B还是To C?
王晓刚:坚决从To B起步。To C市场容量固然诱人,但对可靠性、安全性、耐久性的要求极其苛刻,产业链在没有看到大规模确定性需求前,难以投入高昂工程成本。我们的策略是通过To B场景(如数字员工、智慧巡检)倒逼产业链成熟,在机器狗的可靠性、成本与场景价值之间形成正循环。
智能涌现:是否有出海计划?
王晓刚:会,且已具备天然优势。商汤在东南亚、中东等地设有分支机构和成熟客户网络,大晓将借助这一体系顺势推进海外落地,将中国具身智能解决方案输出至全球市场。
本文由主机测评网于2026-02-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260224854.html