当前位置:首页 > 科技资讯 > 正文

它石智航具身智能新突破:机器人刺绣展现世界模型潜力

文|王欣

编辑|苏建勋

2025年,具身智能领域创业热潮涌动,它石智航凭借其强大背景成为备受瞩目的焦点。

它石智航的核心团队堪称“梦之队”,成员来自中国智能驾驶领域的顶尖机构。CEO陈亦伦曾出任华为车BU自动驾驶系统CTO,首席科学家丁文超是前华为“天才少年”,董事长李震宇则曾任百度智能驾驶事业群总裁,并主导打造了全球最大Robotaxi平台“萝卜快跑”。

陈亦伦与李震宇均是在自动驾驶领域带领过千军万马、战功赫赫的领军人物,两人的强强联合使得它石智航迅速赢得资本青睐。2025年3月,公司完成1.2亿美元天使轮融资,刷新了中国具身智能领域天使轮融资纪录。

投资方高度认可它石智航的技术底蕴与人才梯队。线性资本创始人兼CEO王淮评价道:“它石智航团队能够将华为时期积累的自动驾驶软硬件打磨经验,与大模型的思考推理能力相结合,有效迁移至具身机器人领域。”

尽管拥有破纪录的融资和豪华创始阵容,它石智航在2025年却一反常态地保持低调,并未像其他同行那样频繁公布出货量或技术突破。

它石智航具身智能新突破:机器人刺绣展现世界模型潜力 它石智航 具身智能 机器人刺绣 世界模型 第1张

图源:它石智航

直到12月19日,它石智航举办了一场仅40分钟的线上发布会,亮出了“全球首个完成刺绣的机器人”这一惊人成果。

为何选择刺绣?陈亦伦向《智能涌现》解释:“这体现了我们当前技术能力的外溢。”他所说的技术能力,是指应对长程(多环节)、高精度(如刺绣)动作,且操作对象为柔性、难以建模的物体。

当前具身智能行业普遍通过抓取、叠衣、倒咖啡等场景展示技术,但据它石智航透露,此前尚无企业公开展示过机器人刺绣。原因在于,机器人处理柔性物体的难度远超刚性物品。

通用的视觉-语言-动作(VLA)模型难以攻克这一挑战。VLA本质依赖视觉引导,在力觉、触觉等感知维度存在先天短板。因此,尽管行业在视觉领域的探索趋于一致,但对于如何处理力觉和触觉,尚未形成共识,也缺乏统一的数据采集方案。

世界模型的出现为这一难题提供了解决方案。它石智航将世界模型作为核心业务方向,并推出了具身基础模型TARS AWE 2.0(AI World Engine)。该模型通过一段式全身端到端学习,将现实采集的数据直接迁移至机器人本体。

处理柔性物体的核心难点在于:机器人不仅要规划自身动作,还需预判动作后环境的演化,并据此调整行为。世界模型恰好能化解这一矛盾,它具备两大预测能力:一是根据场景决定行动策略,二是构建模型模拟行动后的世界变化。

然而,世界模型的关键瓶颈在于数据获取与空间感知能力。

面对这一挑战,陈亦伦与丁文超回溯了他们在智能驾驶领域的技术积累,发现具身智能的诸多问题都能从智驾演进中找到启示。

陈亦伦在蓝驰创投2025年会上分享过一段经历:2022年离开华为时,他负责的最后一个项目是端到端自动驾驶系统。在复杂的人车混行城中村场景中,该系统展现出令人惊叹的灵活穿行能力,工程师们目睹了一个黑盒神经网络仅凭端到端学习就实现卓越效果。这让他深刻意识到,算法正在取代复杂的工程栈。

由此,他看到了智驾与具身的重叠:“自动驾驶与机器人技术本就同根同源,早期自动驾驶技术栈几乎全部源自机器人领域。既然端到端在自动驾驶中大放异彩,我相信机器人技术也必然存在一套对应的全AI化算法体系。”

陈亦伦向《智能涌现》表示:“当前具身智能的发展阶段相当于智能驾驶的2019年。那时问题单如雪花般纷至沓来,我们开始思考如何真正实现规模化,让解决问题的能力超越发现问题的速度。”

与现今具身智能相似,当时的瓶颈同样是数据匮乏。陈亦伦指出,智驾规模化需要10万小时精选高质量数据,而具身智能由于任务复杂度更高,数据需求将提升一个量级,至少需要100万小时的真实场景数据。

基于此,它石智航确立了技术主线:自主研发具身数据采集系统SenseHub(包含手套与全景相机),用于采集真实人类场景中的动作、语言、触觉等环境语义数据,并以此为基础构建具身基础模型TARS AWE 2.0。

它石智航具身智能新突破:机器人刺绣展现世界模型潜力 它石智航 具身智能 机器人刺绣 世界模型 第2张

图源:它石智航

在陈亦伦和丁文超看来,这是探索具身智能Scaling Law的最短路径——通过海量数据输入,让机器人涌现出类似刺绣这样的高阶能力。

他们坚信这一能力的价值:“只有精通柔性物体操作,才能实现柔性产线级生产力,推动工厂全面自动化。”

以下是《智能涌现》与它石智航CEO陈亦伦、首席科学家丁文超的对话实录,经过编辑整理:

1、Q:发布会上展示的刺绣机器人,是用于技术演示的demo,还是未来会量产的产品?

陈亦伦:量产将针对特定产业场景,此次刺绣展示只是机器人能力的外溢体现。

2、Q:这种能力的外溢具体指什么?

陈亦伦:当前的具身智能应当解决长程、精细复杂的动作问题,且操作对象多为柔性、难以建模的物体。上一代机器人已能很好完成抓取固态大件物品的任务。

3、Q:你们会选择哪些具体的工厂或工作环节作为落地场景?

陈亦伦:我们筛选落地场景遵循三个核心原则:真需求——必须来自市场的明确痛点;细颗粒度——解决方案能覆盖足够大的群体;高难度——真需求和大市场往往意味着极高的技术门槛,这正是我们的核心竞争力。以柔性组装为例,这是一个非常明确的落地场景,目前已进入商业化阶段。

4、Q:与其他具身公司相比,你们显得很低调,外界很关心进展,能否介绍一下2025年取得的关键突破?

陈亦伦:我们主要在做三件事——超级算法、超级本体、超级应用。超级算法是一套比智驾系统更复杂的大型AI系统,需攻克数据、算法及环境交互的Scaling law。超级本体是坚持自研硬件,目标是拥有“为AI随心所欲设计硬件”的能力,确保硬件成为算法的最佳物理载体。超级应用则是追求真正产业化,让技术传递真实商业价值,而非仅做demo。

5、Q:数据方面是否存在量级门槛?

陈亦伦:自动驾驶达到商用级需要10万小时精选高质量数据,而具身智能因任务复杂度高,数据需求至少是智驾的10倍,即100万小时起步。大家可以想象如何获取这100万小时真实场景数据。大语言模型的数据来自互联网真实文本,自动驾驶数据来自真实驾驶,因此我们认为具身数据也应源自人类的感官与行为数据。

6、Q:展示视频的数据采集设备是手套吗?

陈亦伦:是的。我们首创了Human Centric(以人为中心)的数据采集新范式,核心是“手”和“眼”,做到“看人之所看,感人之所感”。这套自研的手套和全景相机比现有方案更复杂,能高保真还原手部位置和触觉权重信息,即使手套放在被子里也能精准定位。我们以前做自动驾驶激光雷达时精度为厘米级,但对机器人操作而言,必须达到毫米级甚至更高。

7、Q:自动驾驶与具身智能领域是否有共通之处?不同创业者看法差异大,你们怎么看?

陈亦伦:自动驾驶是一个十年的赛道,不同背景团队进入的时间段不同,看到的景象也不同。在我看来,当前AI领域遇到的问题与挑战,和我刚开始做自动驾驶时几乎一模一样,都能找到对应。我们将具身智能分为3+3+3三个阶段:第一个三年以demo展示为主;我们切入的是第二个三年,即把前沿技术真正落地到产品化。我们团队最大的优势是完整经历过自动驾驶的工程化过程,面对过用户雪花般的问题,知道如何解决数据配比、训练、数据闭环搭建等问题,有信心将具身智能的数据到模型的工程化链路做好。

8、Q:你们认为现在相当于智能驾驶的哪一年?

陈亦伦:2019年。2019年是智驾全栈转向AI的关键节点,头部公司开始思考规模化商用,当时的瓶颈在于数据不足以及数据与算法能力的匹配。22年自驾技术开始向行业扩散,公众视野中的自驾繁荣始于22年。今天的具身智能处境与当时非常相似:问题如“雪花”般涌来,迫使行业必须以AI方式(如端到端)提高解题效率。

9、Q:在具身智能领域,遇到的瓶颈也是数据采集成本与规模化问题吗?

陈亦伦:第一,如何在有限条件下获取大量高质量数据;第二,如何在过程中持续获得源源不断的真实数据。

10、Q: 所以AI算法上的瓶颈源于数据不够好、不够多?

陈亦伦: AI的本质就是一段X映射到Y的函数,智能的涌现需要足够的真实数据量来压缩。没有足够的数据,就无法压缩出智能。

11、Q:如何定义它石智航?它是AI公司、机器人公司、大脑公司还是本体公司?

陈亦伦:我们认为下一代的超级单品可能是机器人。我们将硬件、软件、AI三者合一,所有硬件都为AI服务,目标是打造完整的产品价值,构建一个可持续演进的系统。

封面来源|AI生成