一群机械臂在虚拟环境中灵活自如地完成各种任务,彼此间默契配合,避免了任何碰撞。
科幻电影中的场景正逐步成为现实。这一场景显得如此优雅,令人叹为观止。
这段视频展示了8个机械臂,其中4个被安装在桌子上,另外4个则安装在天花板上。
这是刊登在《Science Robotics》上的一项最新研究成果,由DeepMind、Intrinsic AI和UCL等研究机构共同研发——RoboBallet(机械芭蕾)。
RoboBallet创新性地将图神经网络(GNN)应用于强化学习,作为策略网络和状态-动作价值估计,解决了多机器人协作运动规划中的复杂问题。
这一方法最多能同时控制8个机械臂,协调多达56个自由度的配置空间,并处理多达40个共享任务。每一步规划仅需0.3毫秒,且任务分配和调度完全不受约束。
值得一提的是,该论文的通讯作者——Matthew Lai,是谷歌DeepMind的资深研究员。自2016年加入谷歌DeepMind以来,他曾参与过AlphaGo、AlphaZero等明星项目。
简而言之,RoboBallet的核心在于将图神经网络与强化学习相结合,采用图神经网络(GNN)作为策略网络和状态-动作价值估计,解决了大规模多机器人任务分配、调度和运动规划的联合问题,实现了高效、可扩展且能零样本泛化的高质量轨迹规划。
在现代自动化制造中,核心挑战在于如何使多个机器人在共享的、充满障碍物的空间中无碰撞地高效协作,以完成大量任务(如焊接、装配等)。
这涉及三个高度复杂的子问题:
这三个子问题结合在一起,使得复杂度急剧增加。传统算法在真实场景中往往难以找到可行解,而工业界目前主要依赖耗时且劳动密集的人工规划。
为了应对这种高维复杂性,RoboBallet被用于在随机生成的环境中进行任务和运动规划。它能够为与训练期间所见环境不同的环境(具有任意障碍物几何形状、任务姿态和机器人位置)规划多臂抓取轨迹。
其中,图中的节点代表场景中的核心实体,包括机器人、任务和障碍物,而边(Edge)则表示这些实体之间的关系(例如,相对姿态)。
机器人节点之间存在双向边,以支持相互协调和避碰。而任务节点和障碍物节点到机器人节点则存在单向边,用于向机器人传递规划所需的环境信息(如图c所示)。
接下来,RoboBallet使用图神经网络(GNN)作为策略网络,通过权重共享来处理不断变化的图大小。它以观测图作为输入,并在每个时间步为所有机器人生成指令关节速度。这使得机械臂能够在只接收原始状态作为输入的情况下进行关系和组合推理。
在具体策略学习和评估阶段,RoboBallet通过微调TD3(Twin-Delayed Deep Deterministic Policy Gradient)算法来训练策略网络,使模型能够生成多机械臂轨迹。同时解决任务分配、调度和运动规划等子问题,将昂贵的在线计算转移到离线训练阶段。
(注:在此任务中,机械臂因成功解决任务和避免碰撞而获得奖励)
同时,为了解决稀疏奖励的问题,RoboBallet还采用了Hindsight Experience Replay方法,使模型能够在没有人工设计的奖励函数的情况下高效学习。
在具体部署方面,RoboBallet使用Franka Panda的七自由度机械臂在随机障碍物和任务的模拟环境进行训练。
为了验证性能,研究团队在一个包含4(或8)个机器人、40个任务和30个障碍物的模拟工作单元中进行测试,并与RRT-Connect方法进行比较。值得一提的是,这一切都只需在一块GPU(图形处理单元)上完成。
本文由主机测评网于2026-04-28发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260441041.html