那个曾因身着“Lululemon”式紧身衣、主打居家陪伴而引发热议的家用人形机器人 NEO,最近展示了其核心技术的重大突破。
过去,舆论曾对人形机器人的“远程操控”模式产生隐私担忧,甚至戏称每个流畅动作背后都藏着一名技术人员。然而,1X 公司近日正式亮相了其全新的“大脑”架构——1X World Model (1XWM),旨在让 NEO 彻底告别后台人工干预,实现真正的自主化。
简单来说,升级后的 NEO 具备了类人的“预见性”。它不再单纯机械地模仿动作,而是通过学习海量互联网视频及第一视角实操数据,掌握了现实世界的物理运行逻辑:它能够理解重力作用、识别物体的开合属性等规律。
1X 团队将类似于 Sora 的视频生成技术融入了 NEO 的控制系统。当收到操作指令时,NEO 会先在脑海中模拟出一段“任务成功”的视觉片段,随后通过逆动力学推算出实现该画面所需的肢体动作。这种“先想象后执行”的逻辑,让机器人更具智慧。
不过,研发团队也在官方博客中坦诚,目前仍存在“脑子跟上了,手还没跟上”的现象:即预想的视频画面很完美,但在现实执行中可能出现抓取偏差。
此次技术革新究竟是人形机器人的“真功夫”,还是仅限于实验室的“剪辑幻象”?即便技术尚在完善中,其热度已不言而喻。截至目前,该项技术的官方推文点击量已突破 500 万大关,足见大众对“长脑子”的机器人的期待。
以下是 1X 技术团队对这套 1XWM 架构进行的硬核技术拆解:
家庭机器人要真正实用化,必须拥有物理常识和行为预判能力。目前主流的 VLA 模型(如 PI0.6、Groot N1.5)多基于 VLM 预测动作,侧重于视觉语义理解而非动态规律预测,往往需要海量的机器人数据进行训练。
基于视频预训练的世界模型——1XWM 则改变了这一现状。它通过文本生成的视频来驱动策略,直接从互联网级视频中吸取动力学规律,这使得机器人能够在没有特定任务遥操作数据的情况下,泛化到未见过的新场景。这标志着机器人智能范式正从“死记硬背”向“逻辑理解”转变。
虽然 Sora 等模型能生成逼真视频,但对于机器人控制而言,还需解决视觉空间一致性、运动学约束(如关节极限)以及物理真实性等核心挑战。1X 通过两阶段对齐过程实现了这一目标:
1. 世界模型主干: 一个拥有 140 亿参数的文本条件扩散模型。通过互联网视频、第一视角人类视频及机器人传感器日志的多阶段训练,使其能精准预测物理场景的演变过程。
2. 逆动力学模型 (IDM): 负责将生成的视频像素点映射为具体的执行器指令。它不仅能确保动作在物理上可行,还能通过采样机制过滤掉不合理的运动轨迹。
1XWM 采用了独特的训练策略:首先利用 900 小时人类视角视频学习通用行为,再利用 70 小时 NEO 专属数据进行具身微调。通过高质量字幕上采样技术,模型对指令的理解力大幅提升。
在实际测评中,NEO 展示了极强的泛化能力,能够完成清洁、抽纸、双手协同等从未在机器人训练集中出现的任务。这证明了人类视频中的常识可以直接迁移到具有相似生理结构的 NEO 身上。
抓取实操展示:
新技能学习:家庭清洁
研究还发现,生成的视频质量与任务成功率直接挂钩。通过引入 VLM 评估器进行自动化筛选,选择最合理的生成路径,可以进一步提升 NEO 在复杂环境下的任务完成率。
总的来看,1XWM 的出现为具身智能提供了一条新路径:利用大规模视频预训练赋予机器人“常识”,再通过逆动力学实现精准落地。这或许正是人形机器人真正走向千家万户的关键一步。
本文由主机测评网于2026-03-19发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260332114.html