Generalist是一家由Google DeepMind前高级研究科学家Pete Florence创立的具身智能模型公司。近期,该公司推出了名为GEN-0的新型具身基础模型,该模型能够随着物理交互数据的增长实现可预测的扩展,不仅在训练过程中验证了具身智能的Scaling Law,还为真实世界应用奠定了坚实基础。
Generalist的早期投资者涵盖了Spark Capital、NVIDIA、Boldstart Ventures、Bezos Expeditions、NFDG等知名投资机构,但具体融资金额尚未公开披露。
Generalist由Google DeepMind高级研究科学家Pete Florence联合创立,他在Google期间领导开发了PaLM-E、RT-2等视觉与具身智能模型,学术引用次数超过19000次,彰显了其在该领域的深厚影响力。
与Pete Florence共同创办Generalist的还有Andrew Barry(首席技术官)和Andy Zeng(首席科学家)。Andrew Barry此前任职于波士顿动力,而Andy Zeng则与Pete在Google合作进行了PaLM-E等项目。公司核心团队还包括来自OpenAI、Waymo等顶尖公司的资深研究人员,他们在人工智能和机器人领域均有卓越贡献。
Generalist致力于开发通用机器人,创始人Pete Florence强调:“我们的目标坚定不移,即创造能够执行任何任务的机器人。想象一下,在这个世界里,体力劳动的边际成本将降至零。”
目前,Generalist首要聚焦于提升机器人的灵巧性,通过在模型架构和数据收集等方面进行前沿探索,不断推动技术边界。
Generalist的首个里程碑成果是全新的具身基础模型——GEN-0。该模型基于高保真度原始物理交互数据进行多模态训练,其架构融合了视觉与语言模型的优势,并实现了超越,原生设计旨在模拟人类水平的反应反射与物理常识。
GEN-0的核心特性之一是“和谐推理”(Harmonic Reasoning),即模型被训练为能够无缝同步进行思考与行动。对于语言模型,在响应前进行长时间思考是可行的,但对于在现实世界中操作的物理系统,模型必须即时反馈,反应时间越短越好。
例如,当向机器人抛出一个玻璃杯时,如果机器人反应迟缓,杯子就会摔碎。或在物流机器人场景中,若机器人在车流或人流中移动时反应稍慢,极易引发碰撞事故。
为解决机器人在物理世界中的快速推理问题,已有多种方案,例如Figure的Helix采用了“系统1(快思考)+系统2(慢思考)”架构,但仍需显式设计切换逻辑。
“和谐推理”则允许模型在连续时间中同时思考与行动,能够维护两个异步、连续时间流:感知流(持续接收传感器数据)和行动流(持续输出控制指令)。这两个流在时间域中“和谐”交织,无需显式同步点,使得模型无需复杂架构即可扩展到极大规模。
Generalist的规模化实验表明,GEN-0模型必须达到足够大的规模,才能有效吸收海量物理交互数据。在训练扩展过程中,团队发现了模型智能容量的“相变”点。
10亿参数模型在预训练期间难以吸收复杂多样的感知运动数据——模型权重随时间推移逐渐无法吸收新信息;60亿参数模型开始从预训练中受益,并展现出强大的多任务能力;70亿参数以上模型能够内化大规模机器人预训练数据,仅需数千步后训练即可将能力迁移至下游任务。
扩展GEN-0模型尺寸能够提升模型在完全未见(零样本)的长序列下游任务中的性能,性能指标为下一动作验证预测误差(y轴数值越低越好)。这是首次在具身智能领域观察到模型的固化现象,此前该现象仅在高数据量环境的大语言模型中被记录,但参数规模要小得多。在具身智能中,相变发生在远大于语言模型的参数规模上,这一发现呼应了莫拉维克悖论:人类认为简单的感知和灵巧动作,其计算复杂度远超抽象推理。
此后,Generalist将GEN-0扩展至100亿以上参数,并观察到模型能以越来越少的数据快速适应新任务。
在训练过程中,GEN-0模型展现出明显的Scaling Law,即更多的预训练数据和计算资源,能够持续且可预测地提升模型在众多任务中的下游后训练性能。具体而言,在模型达到足够大规模后,预训练数据规模与下游后训练性能之间存在强大的幂律关系,适用于包括服装、制造、物流、汽车和电子等多个工业领域的机器人测试任务。
Generalist在论文中拟合出预测公式,以量化数据与性能的关系。有了这个公式,可以回答诸如“要达到特定下一动作预测误差需要多少预训练数据?”或“增加预训练数据能节省多少后训练数据?”等关键问题。结合Scaling Law,这些结果可用于预测任何下游后训练任务的最优计算和数据分配。
既然已证明具身智能模型的Scaling Law,数据的数量和质量就变得至关重要。GEN-0模型在一个庞大的自有数据集上训练,该数据集包含从全球数千个家庭、仓库和工作场所收集的27万小时真实世界操控轨迹,且数据量仍在加速增长。GEN-0使用的真实世界操控数据量,比现有最大规模机器人数据集高出几个数量级。通过大规模实验,Generalist发现数据质量和多样性比纯粹的数据量更重要,精心构建的数据混合可以产生具有不同特性的预训练模型。
得益于数据优势和GEN-0模型架构设计,该模型可适用于不同机器人平台,已在6自由度、7自由度以及超过16自由度的半人形机器人上成功测试。
机器人基础模型领域已有不少顶尖创业公司在探索。例如,Physical Intelligence采用与Generalist类似的基础模型+微调路线,其模型已迭代到π 0.6,能够制作浓缩咖啡并完成从浇注到擦拭的全过程,体现了连续长序列任务完成能力和鲁棒性。Skild AI的模型则强调泛化性,支持多形态机器人(如人形、四足、机械臂)泛化,能完成爬楼梯、平衡恢复、杂乱环境抓取等任务。这两家公司的模型还有一个共同技术特点:能够根据机器人实际运行中积累的“经验”自主进化。
如前所述,Figure的Helix采用“系统1(快思考)+系统2(慢思考)”架构,支持机器人在工厂环境中完成复杂操作并实现多机器人协作。尽管众多顶尖公司投身具身智能基础模型,但该领域的技术思路尚未收敛,数据也还不够丰富。目前,具身智能在实际商业化和落地方面仍缺乏足够案例。
然而,曙光越来越近。具身智能的Scaling Law已被一定程度发现,模型的多形态泛化、动作延时、连续长序列任务完成等难题正被逐步攻克。每解决一个问题,具身智能行业的潜力就更大,商业化落地前景也更明朗。
中国创业者在具身智能领域具有独特优势:硬件产业链更成熟、应用场景丰富、数据来源开发潜力大。如果创业者能同时发展硬件和软件(包括模型等),采用软硬件结合模式,并在具体场景中持续创造价值,就有望在该领域脱颖而出。
本文由主机测评网于2026-01-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260120743.html