当前位置：首页 > 科技资讯 > 正文

它石智航具身智能新突破：机器人刺绣展现世界模型潜力

主机测评网
科技资讯
2026-03-12
370

文｜王欣

编辑｜苏建勋

2025年，具身智能领域创业热潮涌动，它石智航凭借其强大背景成为备受瞩目的焦点。

它石智航的核心团队堪称“梦之队”，成员来自中国智能驾驶领域的顶尖机构。CEO陈亦伦曾出任华为车BU自动驾驶系统CTO，首席科学家丁文超是前华为“天才少年”，董事长李震宇则曾任百度智能驾驶事业群总裁，并主导打造了全球最大Robotaxi平台“萝卜快跑”。

陈亦伦与李震宇均是在自动驾驶领域带领过千军万马、战功赫赫的领军人物，两人的强强联合使得它石智航迅速赢得资本青睐。2025年3月，公司完成1.2亿美元天使轮融资，刷新了中国具身智能领域天使轮融资纪录。

投资方高度认可它石智航的技术底蕴与人才梯队。线性资本创始人兼CEO王淮评价道：“它石智航团队能够将华为时期积累的自动驾驶软硬件打磨经验，与大模型的思考推理能力相结合，有效迁移至具身机器人领域。”

尽管拥有破纪录的融资和豪华创始阵容，它石智航在2025年却一反常态地保持低调，并未像其他同行那样频繁公布出货量或技术突破。

它石智航具身智能新突破：机器人刺绣展现世界模型潜力它石智航具身智能机器人刺绣世界模型第1张

图源：它石智航

直到12月19日，它石智航举办了一场仅40分钟的线上发布会，亮出了“全球首个完成刺绣的机器人”这一惊人成果。

为何选择刺绣？陈亦伦向《智能涌现》解释：“这体现了我们当前技术能力的外溢。”他所说的技术能力，是指应对长程（多环节）、高精度（如刺绣）动作，且操作对象为柔性、难以建模的物体。

当前具身智能行业普遍通过抓取、叠衣、倒咖啡等场景展示技术，但据它石智航透露，此前尚无企业公开展示过机器人刺绣。原因在于，机器人处理柔性物体的难度远超刚性物品。

通用的视觉-语言-动作（VLA）模型难以攻克这一挑战。VLA本质依赖视觉引导，在力觉、触觉等感知维度存在先天短板。因此，尽管行业在视觉领域的探索趋于一致，但对于如何处理力觉和触觉，尚未形成共识，也缺乏统一的数据采集方案。

世界模型的出现为这一难题提供了解决方案。它石智航将世界模型作为核心业务方向，并推出了具身基础模型TARS AWE 2.0（AI World Engine）。该模型通过一段式全身端到端学习，将现实采集的数据直接迁移至机器人本体。

处理柔性物体的核心难点在于：机器人不仅要规划自身动作，还需预判动作后环境的演化，并据此调整行为。世界模型恰好能化解这一矛盾，它具备两大预测能力：一是根据场景决定行动策略，二是构建模型模拟行动后的世界变化。

然而，世界模型的关键瓶颈在于数据获取与空间感知能力。

面对这一挑战，陈亦伦与丁文超回溯了他们在智能驾驶领域的技术积累，发现具身智能的诸多问题都能从智驾演进中找到启示。

陈亦伦在蓝驰创投2025年会上分享过一段经历：2022年离开华为时，他负责的最后一个项目是端到端自动驾驶系统。在复杂的人车混行城中村场景中，该系统展现出令人惊叹的灵活穿行能力，工程师们目睹了一个黑盒神经网络仅凭端到端学习就实现卓越效果。这让他深刻意识到，算法正在取代复杂的工程栈。

由此，他看到了智驾与具身的重叠：“自动驾驶与机器人技术本就同根同源，早期自动驾驶技术栈几乎全部源自机器人领域。既然端到端在自动驾驶中大放异彩，我相信机器人技术也必然存在一套对应的全AI化算法体系。”

陈亦伦向《智能涌现》表示：“当前具身智能的发展阶段相当于智能驾驶的2019年。那时问题单如雪花般纷至沓来，我们开始思考如何真正实现规模化，让解决问题的能力超越发现问题的速度。”

与现今具身智能相似，当时的瓶颈同样是数据匮乏。陈亦伦指出，智驾规模化需要10万小时精选高质量数据，而具身智能由于任务复杂度更高，数据需求将提升一个量级，至少需要100万小时的真实场景数据。

基于此，它石智航确立了技术主线：自主研发具身数据采集系统SenseHub（包含手套与全景相机），用于采集真实人类场景中的动作、语言、触觉等环境语义数据，并以此为基础构建具身基础模型TARS AWE 2.0。

它石智航具身智能新突破：机器人刺绣展现世界模型潜力它石智航具身智能机器人刺绣世界模型第2张

图源：它石智航

在陈亦伦和丁文超看来，这是探索具身智能Scaling Law的最短路径——通过海量数据输入，让机器人涌现出类似刺绣这样的高阶能力。

他们坚信这一能力的价值：“只有精通柔性物体操作，才能实现柔性产线级生产力，推动工厂全面自动化。”

以下是《智能涌现》与它石智航CEO陈亦伦、首席科学家丁文超的对话实录，经过编辑整理：

1、Q：发布会上展示的刺绣机器人，是用于技术演示的demo，还是未来会量产的产品？

陈亦伦：量产将针对特定产业场景，此次刺绣展示只是机器人能力的外溢体现。

2、Q：这种能力的外溢具体指什么？

陈亦伦：当前的具身智能应当解决长程、精细复杂的动作问题，且操作对象多为柔性、难以建模的物体。上一代机器人已能很好完成抓取固态大件物品的任务。

3、Q：你们会选择哪些具体的工厂或工作环节作为落地场景？

陈亦伦：我们筛选落地场景遵循三个核心原则：真需求——必须来自市场的明确痛点；细颗粒度——解决方案能覆盖足够大的群体；高难度——真需求和大市场往往意味着极高的技术门槛，这正是我们的核心竞争力。以柔性组装为例，这是一个非常明确的落地场景，目前已进入商业化阶段。

4、Q：与其他具身公司相比，你们显得很低调，外界很关心进展，能否介绍一下2025年取得的关键突破？

陈亦伦：我们主要在做三件事——超级算法、超级本体、超级应用。超级算法是一套比智驾系统更复杂的大型AI系统，需攻克数据、算法及环境交互的Scaling law。超级本体是坚持自研硬件，目标是拥有“为AI随心所欲设计硬件”的能力，确保硬件成为算法的最佳物理载体。超级应用则是追求真正产业化，让技术传递真实商业价值，而非仅做demo。

5、Q：数据方面是否存在量级门槛？

陈亦伦：自动驾驶达到商用级需要10万小时精选高质量数据，而具身智能因任务复杂度高，数据需求至少是智驾的10倍，即100万小时起步。大家可以想象如何获取这100万小时真实场景数据。大语言模型的数据来自互联网真实文本，自动驾驶数据来自真实驾驶，因此我们认为具身数据也应源自人类的感官与行为数据。

6、Q：展示视频的数据采集设备是手套吗？

陈亦伦：是的。我们首创了Human Centric（以人为中心）的数据采集新范式，核心是“手”和“眼”，做到“看人之所看，感人之所感”。这套自研的手套和全景相机比现有方案更复杂，能高保真还原手部位置和触觉权重信息，即使手套放在被子里也能精准定位。我们以前做自动驾驶激光雷达时精度为厘米级，但对机器人操作而言，必须达到毫米级甚至更高。

7、Q：自动驾驶与具身智能领域是否有共通之处？不同创业者看法差异大，你们怎么看？

陈亦伦：自动驾驶是一个十年的赛道，不同背景团队进入的时间段不同，看到的景象也不同。在我看来，当前AI领域遇到的问题与挑战，和我刚开始做自动驾驶时几乎一模一样，都能找到对应。我们将具身智能分为3+3+3三个阶段：第一个三年以demo展示为主；我们切入的是第二个三年，即把前沿技术真正落地到产品化。我们团队最大的优势是完整经历过自动驾驶的工程化过程，面对过用户雪花般的问题，知道如何解决数据配比、训练、数据闭环搭建等问题，有信心将具身智能的数据到模型的工程化链路做好。

8、Q：你们认为现在相当于智能驾驶的哪一年？

陈亦伦：2019年。2019年是智驾全栈转向AI的关键节点，头部公司开始思考规模化商用，当时的瓶颈在于数据不足以及数据与算法能力的匹配。22年自驾技术开始向行业扩散，公众视野中的自驾繁荣始于22年。今天的具身智能处境与当时非常相似：问题如“雪花”般涌来，迫使行业必须以AI方式（如端到端）提高解题效率。

9、Q：在具身智能领域，遇到的瓶颈也是数据采集成本与规模化问题吗？

陈亦伦：第一，如何在有限条件下获取大量高质量数据；第二，如何在过程中持续获得源源不断的真实数据。

10、Q: 所以AI算法上的瓶颈源于数据不够好、不够多？

陈亦伦: AI的本质就是一段X映射到Y的函数，智能的涌现需要足够的真实数据量来压缩。没有足够的数据，就无法压缩出智能。

11、Q：如何定义它石智航？它是AI公司、机器人公司、大脑公司还是本体公司？

陈亦伦：我们认为下一代的超级单品可能是机器人。我们将硬件、软件、AI三者合一，所有硬件都为AI服务，目标是打造完整的产品价值，构建一个可持续演进的系统。

封面来源｜AI生成