当前位置：首页 > 科技资讯 > 正文

吴翼专访：AI强化学习与智能体创新的深度探索

主机测评网
科技资讯
2026-01-27
822

作者｜富充

编辑｜苏建勋

在学术研究或与蚂蚁集团等大型企业的合作项目中，吴翼始终倡导团队维持创业精神：敢于直面挑战、快速迭代优化。

身为清华大学交叉信息学院助理教授及AReaL项目负责人，吴翼专注于强化学习算法与AI应用创新。其清华团队与蚂蚁研究院在2025年5月开源了首个异步强化学习训练框架AReaL-lite，显著提升AI训练效率并减少GPU资源浪费。

作为90后技术领导者，吴翼要求团队“在试错中成长”。他目前最反感的借口是“缺乏资源导致工作无法推进”，因为从零到一的本质，正是创造资源的过程。

在今年9月的外滩大会上，吴翼阐述的产品观也体现了这一理念：产品应迅速发布，即使市场反馈不佳，也需明确问题所在并持续改进，而非等待完美开局。

这份对创新的深刻理解，源于吴翼早前的创业经历。2023年，其团队创立了基于强化学习的AI Agent公司边塞科技，这也是AReaL项目的前身。

因在AI领域相似的背景与研究经历，吴翼与星动纪元创始人陈建宇、千寻智能联创高阳、星海图首席科学家许华哲三位留美AI学者被并称为“伯克利四子”。

鲜为人知的是，吴翼是四人中最早决定回国的，正是他的建议与推动促成了其他三位的归来。

吴翼热衷于开创性事业。在清华，他常告诫学生“创新就是勇闯无人区”。他坚信，AI创新不能依赖多点布局的“赌博”，而应基于深度思考与长期坚持。

他对AI未来有独到判断：智能体必将能理解人类的模糊意图，完成长程任务，并最终从数字世界迈向物理世界，成为具身智能的“核心大脑”。

在今年WAIC的演讲中，他举例描述，未来只需对机器人说“整理房间”，它便能花费数小时妥善完成。

对于这一目标，吴翼认为，其正在研究的强化学习训练方法，将是大幅提升AI智能水平的关键。

因为强化学习训练让AI在实践中自主学习，培养探索能力。而传统的监督学习需要人工持续指导，难以适应长时间执行的任务。

吴翼专访：AI强化学习与智能体创新的深度探索强化学习 AI智能体创业心态具身智能第1张

△在杭州参加机器人学术会IROS后，吴翼在小红书分享照片，手捧奶茶笑容灿烂，图片：采访人提供

在专业领域严谨的吴翼，在社交媒体上展现出另一面。

这位自称的“高能量I人博导”，常在小红书分享科研进展，并乐于回复AI求职与发展相关提问。

因喜爱奶茶，吴翼不仅认真评选Top5奶茶口味，还专门拍照打卡心仪品牌。

吴翼专访：AI强化学习与智能体创新的深度探索强化学习 AI智能体创业心态具身智能第2张

△吴翼的奶茶爱好，其小红书招聘配图也常为奶茶，图片：网络截图

近日，吴翼接受《智能涌现》专访，分享了大量对AI前景、创业的思考，包括快速决策与提升团队效率的方法。内容经整理如下：

AI的未来在于智能体的演进

智能涌现：当前AI尚未出现大规模普及应用，您认为AI产品的未来机遇何在？它将如何服务大众生活？

吴翼：我认为AI实现长程任务是不可逆的趋势。此外，人类对AI的命令将越来越简单、模糊。

最终产品形态虽难定论，但AI产品将出现“从用户主动驱动AI，到AI预判需求并执行”的转变。

这在移动互联网时代已有先例。例如搜索引擎时代，人们主动寻找信息；而随着知乎、字节等产品出现，算法能将内容推送至用户，实现被动接收。

因此，未来人们可能逐渐淡忘主动搜索。聪明的AI将更多服务于“懒人”需求，终将催生全新的产品，这是一个时代的巨大机遇。

智能涌现：您在WAIC等活动中提到，智能体（Agent）具身化后成为具身智能体（Embodied Agent），可与物理世界交互。简言之，即AI机器人。具身智能体能承担哪些工作？

吴翼：聪明的具身智能体仅凭模糊指令，便能准确推测用户意图，高质量完成任务，甚至主动考虑用户未意识到的需求。

例如，在家中对机器人说“我的充电宝不见了”，它会自行推理、行动，根据你的使用习惯和记忆中的位置寻找。

智能涌现：聪明的具身智能体能实现多机协作吗？多具身智能体如何配合？

吴翼：具身智能体可协同完成复杂任务。

如在机器人足球队中，机器人们像人类球员一样，通过训练形成默契阵型。

若拥有多个智能体，下一步是定义它们之间的沟通方式。

在数字世界中，智能体沟通可能通过一个主智能体（Master Agent）驱动多个子智能体。你可以使用不同模型，或单一模型，但结构上如同有人持续规划，多人同步执行，即所谓的多智能体系统（Multi-Agent System）。

我常以Claude Code与Gemini的协作为例。

Claude Code代码能力强但上下文短、成本高；Gemini虽笨拙却能处理大量内容。因此可让Gemini先读取整个代码库，筛选关键内容，再交由Claude Code编写代码。

这如同一个聪明但体弱的人与一个体力无限的助手协作，形成高效的多智能体组合。

在具身智能体工作场景中，如多个机器人协同打扫空间，通过“沟通”形成任务规划，分配职责，共同完成。

智能涌现：从数字世界智能体到物理世界具身智能体，如何过渡？

吴翼：这一过渡需要多模态数据，训练环境也从虚拟转向现实。

在数字世界中，工具基本是比特（Bits），执行成功率较高，例如编写代码即可执行功能，确定性较强。但编写代码本身并非易事。

而在物理世界中使用工具，如拎包开门，机器人执行任务时失误率仍较高。因此具身智能发展更复杂、缓慢。

但从宏观长远看，若有一天智能体的底层物理世界充分数字化，各种智能体的核心技术挑战将趋于统一。

例如，当机器能对大部分物理世界工具实现100%成功调用，在此基础上构建自主运行整日的具身智能体，技术上便与比特世界的智能体无异。

吴翼专访：AI强化学习与智能体创新的深度探索强化学习 AI智能体创业心态具身智能第3张

△今年WAIC上，吴翼与伯克利时期导师Stuart Russell的合影，图片：采访人提供

AI创新不能依赖“赌博”

智能涌现：您曾在字节实习，创办边塞科技，后选择与大厂合作推进强化学习技术。回顾这段历程，有何思考？

吴翼：早期边塞科技团队在选人上踩过不少坑。部分员工以上班心态参与，未意识到创业的意义。客观上，团队未充分准备好，不符合AI时代的创业精神。当然，首次尝试难免踩坑。

我如今最不喜听到“缺乏资源，无法做事”。创业团队条件有限，正是要创造资源实现目标。

因此，创业团队更需要创新火苗与相应觉悟。

创新无“赌博”之说，创业需对所做事坚信不疑。我们资源有限，不能押注多个赛道赌未来，否则易产生中庸方案。

创业精神是：即使我未成功，也坚信此事正确，终将被实现，哪怕非我之手。

智能涌现：“伯克利四子”中您最先决定回清华任教，并带动他人回国。为何如此？

吴翼：2018年8月我结束在北京字节的实习。虽在Berkeley读博，但受字节影响颇深。

自2016年起，我断续在字节不同团队实习，亦是字节AI Lab早期成员，恰逢中国移动互联网尾声。2018年8月最后实习结束后，我决意回国。

一方面是感知中国发展的巨大机遇，另一方面是清楚华人在美天花板。除非成为美国人，这回到根本：若想做出影响力，你愿做中国人还是美国人？我选择不妥协。

面对选择，许多人说“我未准备好，等未来再行动”。但我的理论是：若未来确定想做某事，最佳时间是过去，其次是现在。于是我决定回国。

回国做什么？思考一月后，我拒了字节的Return Offer；2018年10月，我敲开姚期智院士办公室的门，选择回清华任教。

随后我与Berkeley同学们分享想法，呼吁大家尽早回国。看到机会便想分享，确实影响了一些人。

回顾多年，那个时间点回国是良机，我们作为早期归国学者也享受了红利。

智能涌现：您似乎总勇于挑战，边学边调整，如博士先选不喜专业后转强化学习；同批学者中您先创业，待他人创业时您又选择与大厂合作。您的经历是否也像强化学习过程？

吴翼：是的，我一路强化学习，踩遍能想到的坑。通过踩坑学习比监督微调（SFT）更深刻，泛化更好。

做产品也类似。我常说要快速推出产品，AI时代酒香也怕巷子深，需尽快让用户使用并获得反馈。即使市场失败，也知坑在何处，快速试错迭代。

当然，若有高质量SFT数据，再做强化学习可提高效率。因为强化学习探索中负反馈消耗大，我愿分享经历与看法，助大家进步更快。

智能涌现：开创性机会往往缺乏参考经验，您如何说服自己下定决心？

吴翼：遇需决心之事，我用快速决策法：先抛硬币。硬币落地前，心里已有答案。

我永远是先抛硬币的人。

智能涌现：对您而言，是想做的事重要，还是光环重要？若能为理想做出伟大成绩但需隐姓埋名，您愿意吗？

吴翼：我愿意。

我曾思考：若我从零到一创立优秀公司，进入一到百阶段时组织扩大，我不再是光环围绕的管理者，能否接受？答案是肯定的。

到那拐点，我很可能引入职业经理人，自己再创下一个零到一。原因简单：从一到十甚至百需上百人协作，庞大管理非我最爱。

但我现也在反思，是否被这种理想主义限制。也许届时我会做不同选择。但目前问，我倾向于持续做零到一。

强化学习是通向AI未来的关键

智能涌现：AReaL团队所做的强化学习，为何能有效服务AI训练？

吴翼：强化学习训练让AI在实践中自主学习，更能培育聪明的人工智能。

传统的监督学习或SFT方式，需人工指导AI如何工作。但这很难，因可能性繁多，人无法在长时间内持续指令。

且人工指令可能偏离AI思路，指令过多时AI死记硬背而非真正“理解”，导致模型泛化能力差。

因此，我们希望通过强化学习技术，让AI主动与环境交互，甚至学会在不确定时间问题。这种鼓励AI自我迭代的训练模式，本质是培养探索能力，唯有强化学习可实现。

智能涌现：做好强化学习，技术上奖励机制（Reward Model）、搜索与探索、提示词（Prompt）三点很重要但都难。如何解决？

吴翼：我现感觉最关键的是Prompt，即如何创造大量高质量Prompt。

这三点可用具体例子解释：如老师辅导高中生数学，Prompt相当于老师出题，搜索与探索是学生解题能力与过程，Reward model是老师反馈。

出题质量至关重要。给中学生高等代数题可能太难，太简单又无提升。出恰到好处的题是关键。

这也是强化学习框架下对数据的最大挑战：量大多无用，核心在合适，才能提升模型能力。

智能涌现：强化学习与具身智能体有何关系？它如何让聪明机器人为人类服务？

吴翼：强化学习与具身智能体的关系有两个方向：一是运动控制（Locomotion），此方向强化学习技术较早成熟，无需预训练。

二是长程推理与规划相关，常与预训练大模型结合。此方向随ChatGPT诞生才普及，较新。

这两方面代表具身智能的谱线：从高频控制完成短期任务，到抽象任务规划完成复杂推理。

传统强化学习解决控制问题无需预训练，如机器狗跑酷、机器人跑跳。这些通过微小神经网络在物理仿真环境中强化学习训练后直接迁移现实，不依赖预训练。

在此，强化学习训练神经网络输出关节底层控制信号，控制机器人运动。这些任务特点是控制频次高、完成周期短，如跑跳通过几十次关节控制在几秒内完成。

而ChatGPT、Deepseek R1代表的强化学习技术，与大模型预训练紧密结合：先有预训练基础模型，再通过强化学习后训练激发模型思考推理能力。

如Deepseek R1。最近OpenAI与Gemini在数奥竞赛中比拼，也通过强化学习增强模型推理实现。

经强化学习训练的大模型，可做分钟到小时级思考，具备常识，能拆解复杂问题、调用工具。但目前推理强化学习的成功实践仍在数字世界，未广泛影响物理世界。

但这存在中间态，即具身智能常说的视觉-语言-动作模型（VLA）。

智能涌现：如何从VLA中间态推进到具身智能体最终态？

吴翼：VLA是尝试用预训练思想解决物理世界问题的方法。

人们收集大量数据，预训练针对物理世界的大模型，使其不仅能完成几秒跑跳任务，还具备足够泛化能力完成分钟级任务，如叠毛巾、倒水。

再往后发展？若我们希望完成更长程任务，如做饭、打扫卫生。

这些任务或需数小时，涉及极多机器人控制，需抽象常识性分解规划，甚至与人交互——如同数字世界智能体，但在物理世界中。

因此我称此类智能体为具身智能体。个人认为，具身智能体需将Locomotion强化学习或VLA视为物理世界工具或小脑，并将类似ChatGPT基于预训练的强化学习技术视为大脑。两部分需结合。

与数字世界智能体LLM Agent的爆火不同，物理世界智能体概念关注较少。多数人更关注硬件、底层控制，如抓握杯子、分拣准确性。这些确是具身智能与LLM的不同——改造物理世界总困难。

因我更关注强化学习与智能体技术本身，我会先关注大脑部分，思考如何让智能体稳定可靠完成10小时任务。再与物理世界强化学习技术结合。

智能涌现：在具身智能上，您的强化学习如何与VLA在何节点配合？

吴翼：我们现给的方案是分层。

这也是我在WAIC所讲：世界的两端，越往上越需人类知识，越往下越不需要。

往下部分或是直觉反应，如拿杯子，可能需力反馈或简单物理知识即可。

但往上需要先验知识。

上下切割点在于区分物理世界与数字世界智能体。

我不认为VLA是最终范式，因VLA预训练规模不足以支撑其成为优秀智能体。

因此我会先做好数字世界智能体。同时其他从业者探索具身与物理世界相关，未来再在合适机会结合。

智能涌现：您在外滩大会上说，在AReaL团队寻求全新、极简组织形态。为何？

吴翼：互联网时代，做一个产品需四五人：前端、后端、产品经理等。

但在AI时代，这些工作可能由一人与AI完成。

过去小组织常找外包团队。AI时代，不仅组织内部可被AI简化，外包部分也可节省。

我认为若组织内大量AI化，能力必将溢出。因AI服务自身的方式也可服务他人，这定会带来新产品机会。

AReaL团队现6人，但外部需支持团队。若将所有外部同学算入AReaL大团队，仍可调整更精简。我希望团队保持AI时代极简状态，这也是AReaL核心团队人少的原因。

智能涌现：但大公司组织庞大，您如何在大公司内实现AReaL团队组织简化？

吴翼：首先，作为现代Agent团队，必须每日大量使用Agent。

其次，我将算法与Infra团队组合，形成全栈团队。

传统组织将算法与系统团队分开，另有工程团队如数据团队做数据收集清洗。传统方式做模型强调分工投入，工程团队支持算法团队，使算法团队似甲方，工程团队似做“脏活”的乙方。

问题在于，一旦为乙方，便失创新空间；一旦习惯为甲方，易不愿做脏活累活，失去对技术底层的观察、感知及创新所需自驱力。

OpenAI未发明震惊世界的算法，而是将许多细节做到极强。

因此我认为，做好Infra、数据，下苦功堆细节，算法方可能出色表现。

故算法与Infra不能脱离成两团队。两者需无边界，共同设计、协同演进，形成小而有战斗力团队。

大团队管理问题在于，若有200人，必有边界。因人类沟通带宽有限，必走向职责划分管理，人类低效的Context Sharing能力成团队效率瓶颈。

所以极简组织形式与全栈创新能力相辅相成。我认为大家应忘记200人组织，AI时代皆为零到一，需激进尝试全新。

服务器教程云服务器高防服务器

本文由主机测评网于2026-01-27发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260120949.html

吴翼专访：AI强化学习与智能体创新的深度探索

AI的未来在于智能体的演进

强化学习是通向AI未来的关键

AI科技入主传统家纺：真爱美家控制权变更与智能化转型探析

PyTorch安装全攻略（在Ubuntu 24.04上轻松搭建深度学习环境）

吴翼专访：AI强化学习与智能体创新的深度探索

AI的未来在于智能体的演进

强化学习是通向AI未来的关键

AI科技入主传统家纺：真爱美家控制权变更与智能化转型探析

PyTorch安装全攻略（在Ubuntu 24.04上轻松搭建深度学习环境）

相关文章