当前位置：首页 > 科技资讯 > 正文

Generalist发布GEN-0具身智能模型：揭示Scaling Law与和谐推理新突破

主机测评网
科技资讯
2026-01-26
160

Generalist是一家由Google DeepMind前高级研究科学家Pete Florence创立的具身智能模型公司。近期，该公司推出了名为GEN-0的新型具身基础模型，该模型能够随着物理交互数据的增长实现可预测的扩展，不仅在训练过程中验证了具身智能的Scaling Law，还为真实世界应用奠定了坚实基础。

Generalist发布GEN-0具身智能模型：揭示Scaling Law与和谐推理新突破具身智能 Scaling Law GEN-0模型和谐推理第1张

Generalist的早期投资者涵盖了Spark Capital、NVIDIA、Boldstart Ventures、Bezos Expeditions、NFDG等知名投资机构，但具体融资金额尚未公开披露。

DeepMind与波士顿动力专家携手探索具身智能Scaling Law

Generalist由Google DeepMind高级研究科学家Pete Florence联合创立，他在Google期间领导开发了PaLM-E、RT-2等视觉与具身智能模型，学术引用次数超过19000次，彰显了其在该领域的深厚影响力。

与Pete Florence共同创办Generalist的还有Andrew Barry（首席技术官）和Andy Zeng（首席科学家）。Andrew Barry此前任职于波士顿动力，而Andy Zeng则与Pete在Google合作进行了PaLM-E等项目。公司核心团队还包括来自OpenAI、Waymo等顶尖公司的资深研究人员，他们在人工智能和机器人领域均有卓越贡献。

Generalist致力于开发通用机器人，创始人Pete Florence强调：“我们的目标坚定不移，即创造能够执行任何任务的机器人。想象一下，在这个世界里，体力劳动的边际成本将降至零。”

目前，Generalist首要聚焦于提升机器人的灵巧性，通过在模型架构和数据收集等方面进行前沿探索，不断推动技术边界。

Generalist的首个里程碑成果是全新的具身基础模型——GEN-0。该模型基于高保真度原始物理交互数据进行多模态训练，其架构融合了视觉与语言模型的优势，并实现了超越，原生设计旨在模拟人类水平的反应反射与物理常识。

“和谐推理”：实现思考与行动的无缝融合

GEN-0的核心特性之一是“和谐推理”（Harmonic Reasoning），即模型被训练为能够无缝同步进行思考与行动。对于语言模型，在响应前进行长时间思考是可行的，但对于在现实世界中操作的物理系统，模型必须即时反馈，反应时间越短越好。

例如，当向机器人抛出一个玻璃杯时，如果机器人反应迟缓，杯子就会摔碎。或在物流机器人场景中，若机器人在车流或人流中移动时反应稍慢，极易引发碰撞事故。

为解决机器人在物理世界中的快速推理问题，已有多种方案，例如Figure的Helix采用了“系统1（快思考）+系统2（慢思考）”架构，但仍需显式设计切换逻辑。

“和谐推理”则允许模型在连续时间中同时思考与行动，能够维护两个异步、连续时间流：感知流（持续接收传感器数据）和行动流（持续输出控制指令）。这两个流在时间域中“和谐”交织，无需显式同步点，使得模型无需复杂架构即可扩展到极大规模。

具身智能模型智能的规模“相变”点

Generalist的规模化实验表明，GEN-0模型必须达到足够大的规模，才能有效吸收海量物理交互数据。在训练扩展过程中，团队发现了模型智能容量的“相变”点。

10亿参数模型在预训练期间难以吸收复杂多样的感知运动数据——模型权重随时间推移逐渐无法吸收新信息；60亿参数模型开始从预训练中受益，并展现出强大的多任务能力；70亿参数以上模型能够内化大规模机器人预训练数据，仅需数千步后训练即可将能力迁移至下游任务。

Generalist发布GEN-0具身智能模型：揭示Scaling Law与和谐推理新突破具身智能 Scaling Law GEN-0模型和谐推理第2张

扩展GEN-0模型尺寸能够提升模型在完全未见（零样本）的长序列下游任务中的性能，性能指标为下一动作验证预测误差（y轴数值越低越好）。这是首次在具身智能领域观察到模型的固化现象，此前该现象仅在高数据量环境的大语言模型中被记录，但参数规模要小得多。在具身智能中，相变发生在远大于语言模型的参数规模上，这一发现呼应了莫拉维克悖论：人类认为简单的感知和灵巧动作，其计算复杂度远超抽象推理。

此后，Generalist将GEN-0扩展至100亿以上参数，并观察到模型能以越来越少的数据快速适应新任务。

具身智能模型的Scaling Law实证

在训练过程中，GEN-0模型展现出明显的Scaling Law，即更多的预训练数据和计算资源，能够持续且可预测地提升模型在众多任务中的下游后训练性能。具体而言，在模型达到足够大规模后，预训练数据规模与下游后训练性能之间存在强大的幂律关系，适用于包括服装、制造、物流、汽车和电子等多个工业领域的机器人测试任务。

Generalist在论文中拟合出预测公式，以量化数据与性能的关系。有了这个公式，可以回答诸如“要达到特定下一动作预测误差需要多少预训练数据？”或“增加预训练数据能节省多少后训练数据？”等关键问题。结合Scaling Law，这些结果可用于预测任何下游后训练任务的最优计算和数据分配。

Generalist发布GEN-0具身智能模型：揭示Scaling Law与和谐推理新突破具身智能 Scaling Law GEN-0模型和谐推理第3张

既然已证明具身智能模型的Scaling Law，数据的数量和质量就变得至关重要。GEN-0模型在一个庞大的自有数据集上训练，该数据集包含从全球数千个家庭、仓库和工作场所收集的27万小时真实世界操控轨迹，且数据量仍在加速增长。GEN-0使用的真实世界操控数据量，比现有最大规模机器人数据集高出几个数量级。通过大规模实验，Generalist发现数据质量和多样性比纯粹的数据量更重要，精心构建的数据混合可以产生具有不同特性的预训练模型。

得益于数据优势和GEN-0模型架构设计，该模型可适用于不同机器人平台，已在6自由度、7自由度以及超过16自由度的半人形机器人上成功测试。

具身智能模型发展早期：每个突破都推动落地更近一步

机器人基础模型领域已有不少顶尖创业公司在探索。例如，Physical Intelligence采用与Generalist类似的基础模型+微调路线，其模型已迭代到π 0.6，能够制作浓缩咖啡并完成从浇注到擦拭的全过程，体现了连续长序列任务完成能力和鲁棒性。Skild AI的模型则强调泛化性，支持多形态机器人（如人形、四足、机械臂）泛化，能完成爬楼梯、平衡恢复、杂乱环境抓取等任务。这两家公司的模型还有一个共同技术特点：能够根据机器人实际运行中积累的“经验”自主进化。

如前所述，Figure的Helix采用“系统1（快思考）+系统2（慢思考）”架构，支持机器人在工厂环境中完成复杂操作并实现多机器人协作。尽管众多顶尖公司投身具身智能基础模型，但该领域的技术思路尚未收敛，数据也还不够丰富。目前，具身智能在实际商业化和落地方面仍缺乏足够案例。

然而，曙光越来越近。具身智能的Scaling Law已被一定程度发现，模型的多形态泛化、动作延时、连续长序列任务完成等难题正被逐步攻克。每解决一个问题，具身智能行业的潜力就更大，商业化落地前景也更明朗。

中国创业者在具身智能领域具有独特优势：硬件产业链更成熟、应用场景丰富、数据来源开发潜力大。如果创业者能同时发展硬件和软件（包括模型等），采用软硬件结合模式，并在具体场景中持续创造价值，就有望在该领域脱颖而出。