文|富充
编辑|苏建勋
无论是在清华大学的科研工作中,还是在与蚂蚁集团等行业巨头的合作项目里,吴翼始终倡导团队保持创业精神:勇于试错,迅速迭代。
身为清华大学交叉信息研究院助理教授及AReaL项目负责人,吴翼主要研究强化学习算法与AI应用创新。他的团队与蚂蚁研究院合作,于2025年5月开源了全球首个异步强化学习训练框架AReaL-lite,该框架大幅提高了AI训练效率,并减少了GPU资源的浪费。
作为一名90后技术领导者,吴翼鼓励团队成员“在错误中学习”。他如今最反感听到的借口是“缺乏资源,无法推进工作”,因为他认为从零到一的本质恰恰在于创造资源。
在9月的外滩大会上,吴翼分享了他的产品理念:产品完成后应立即推出,即便市场反应不佳,也能从中发现问题并快速优化,切勿追求所谓的完美开局。
这种创新观念源自吴翼早年的创业实践。2023年,他创立了专注于强化学习的AI Agent企业边塞科技,该公司正是AReaL项目的前身。
由于在人工智能领域拥有相似的学术背景和研究经历,吴翼与星动纪元创始人陈建宇、千寻智能联合创始人高阳、星海图首席科学家许华哲三位留美学者一同被誉为“伯克利四子”。
鲜少有人知道,吴翼是四人中最先决定回国的,正是他的建议和鼓励,促使了其他三人的归国。
吴翼热衷于从事开创性工作。在清华,他常对学生说:“创新就要勇于踏入无人区。”他坚信,AI领域的创新不能依赖多点布局的“赌博式”尝试,而应源于深度思考和长期坚持。
他对AI的未来有着独到见解:智能体终将能够领会人类的模糊指令,执行长时间跨度的任务,并最终从数字世界延伸至物理世界,充当具身智能的“大脑”。
在今年世界人工智能大会(WAIC)的演讲中,他举例道,未来人们只需对机器人说一句“收拾一下房间”,它便能自动花费数小时将房间整理妥当。
吴翼认为,他目前所专注的强化学习训练方法,将是大幅提升AI智能水平的关键所在。
强化学习的核心特点是让AI在实践过程中自主学习,并培养探索能力。相比之下,传统的监督学习需要人类持续指导AI的工作方式,这种方法难以应对长时间执行的任务。
△在杭州参加IROS机器人学术会议后,吴翼在小红书上发布了一张照片,照片中的他手捧奶茶,笑容满面。图片:受访者提供
在学术领域一向严谨的吴翼,在社交媒体上却展现出了截然不同的一面。
这位自称为“高能量I人博导”的学者,经常在小红书上分享科研动态,并积极回复关于AI求职与发展的提问。
由于酷爱奶茶,吴翼不仅会精心评选出Top5奶茶口味,还会特意拍照打卡自己钟爱的奶茶品牌。
△吴翼对奶茶情有独钟,他在小红书上发布的招聘信息,配图同样是一杯奶茶。图片:网络截图
近日,吴翼接受了《智能涌现》的专访,畅谈了他对AI未来、创业的诸多思考,以及帮助自己快速决策、提升团队效率的方法。以下为经整理的内容:
智能涌现:当前AI尚未出现大规模普及的应用,你认为AI产品的未来机遇何在?它将如何服务大众生活?
吴翼:我认为,让AI能够执行长时间跨度的任务是一个不可逆转的趋势。同时,人们向AI下达的指令将变得越来越简洁、模糊。
目前还很难预测最终的产品形态,但AI产品最终将实现从“用户主动驱动AI”到“AI提前预判用户需求并自动完成”的转变。
这一变化在移动互联网时代已经发生过。例如,在搜索引擎时代,用户需主动查找信息;随后出现了知乎,再到字节跳动的各类产品,算法能够将用户感兴趣的内容推送过来,使用户被动接收信息。
因此,我预测,人们最终将逐渐遗忘主动搜索的对话框。聪明的AI将能够越来越多地服务于“懒人”的需求。
最终,必然会出现这样一种全新的产品,它代表着一次重大的时代机遇。
智能涌现:你在WAIC等活动中提到,当智能体拥有了身体,就演变为具身智能体,能够与物理世界进行交互。简而言之,这就是AI机器人。具身智能体可以胜任哪些工作?
吴翼:一个聪明的具身智能体,仅凭模糊的指令,就能准确推断用户的意图,高质量地完成任务,甚至主动考虑到用户尚未察觉的需求。
例如,你在家中对机器人说“我的充电宝找不到了”,它便会自行推理和行动,依据你的使用习惯以及它记忆中你最后一次使用充电宝的位置,帮你寻找。
智能涌现:聪明的具身智能体是否也能实现多机协作?多个具身智能体之间是如何配合的?
吴翼:具身智能体可以相互协同,完成更为复杂的任务。
例如在机器人足球队中,机器人们如同人类球员一般,当遇到训练过的场景时,彼此交换一个眼神,就能默契地组成相应阵型。
如果拥有了多个聪明好用的智能体,那么额外需要做的就是定义它们之间的沟通方式。
在数字世界中,智能体之间的沟通可能由一个主智能体驱动多个子智能体。你可以使用不同的模型,也可以使用同一个模型,但在结构上,如同有一个人不断进行规划,而许多人同时围绕规划执行任务,这就是所谓的多智能体系统(Multi-Agent System)。
我常举的一个例子是Claude Code与Gemini的协作。
Claude Code的编程能力很强,但其上下文窗口短、成本较高;而Gemini虽然相对笨拙,却能处理大量内容。因此,可以让Gemini先通读整个代码库,筛选出最关键的部分,再交给Claude Code来编写代码。
这好比一个聪明但体弱的人与一个体力无穷的“傻子”合作,两者协同,便形成了一个高效的多智能体系统组合。
将这一概念应用到具身智能体的工作场景中,例如需要多个机器人共同打扫一个空间。它们经过“沟通”后,会形成任务规划,明确谁负责扫地、谁负责擦地,并协同完成。
智能涌现:从数字世界的智能体到物理世界的具身智能体,这一过渡如何实现?
吴翼:从数字世界到物理世界的过渡,需要多模态数据的支持,训练环境也从计算机内转移到了现实世界。
在数字世界中,所使用的工具基本上是比特(Bits),执行成功率很高。你只需编写一段代码,就能实现相应功能,确定性相对较高。当然,如何编写代码本身并非易事。
然而,一旦进入物理世界使用工具,例如拎包开门,机器人执行此类任务时,目前的失误率仍然较高。因此,具身智能的发展将更为复杂,进程也会相对缓慢。
但从宏观视角审视长远发展,如果未来智能体所面对的物理世界已经基本完成数字化改造,那么各类智能体的核心技术挑战最终将趋于统一。
例如,一旦我们拥有一个能够对大部分物理世界工具实现100%成功调用的机器,那么在此基础上构建一个能够自主运行一整天的具身智能体,从技术上讲,与比特世界中的智能体并无本质区别。
△在今年WAIC上,吴翼与他在伯克利时期的导师Stuart Russell合影留念。图片:受访者提供
智能涌现:你曾在字节跳动实习,后来又创办了边塞科技,近期选择与大厂合作推动强化学习技术。回顾这段历程,你有什么思考?
吴翼:边塞科技早期在人员选拔上确实踩过不少坑。当时许多员工抱着“上班”的心态,并未真正理解创业的内涵。客观而言,整个团队尚未完全准备好,与AI时代的创业精神有所差距。当然,大家都是初次尝试,犯错在所难免。
我现在最反感的一句话是:“没有资源,我无法做这件事。”创业团队的条件往往有限,真正的创业者会主动创造资源,去实现自己的目标。
因此,创业团队更需要拥有创新火种和相应觉悟的人。
创新并非“赌一把”,创业需要对所从事的事业抱有坚定信念。我们没有足够的资源去押注多个赛道,期望其中一条能跑出未来,这种做法往往只会产生平庸的方案。
创业精神在于,我坚信有些事情即使我未能做成,但它本身是正确的,终有一天会被实现,哪怕不是由我完成。
智能涌现:在“伯克利四子”中,你是最早决定回清华任教的,并且带动了其他人回国。这是出于什么原因?
吴翼:2018年8月,我结束了在北京字节跳动的实习。尽管我在伯克利攻读博士学位,但字节的经历对我影响颇深。
自2016年起,我陆续在字节跳动的不同团队实习,也是字节AI Lab的早期成员之一,有幸见证了中国移动互联网的尾声。2018年8月,完成最后一段实习后,我坚定了回国的决心。
一方面,我感受到了中国发展的巨大机遇;另一方面,也清晰看到了华人在美国发展的天花板。除非你选择成为美国人,但这又回到了一个根本问题:如果你想做出有影响力的事业,你希望自己是中国身份还是美国身份?我发现,我不愿妥协成为美国人。
面对抉择时,许多人会说:“我现在还没准备好,等将来准备好了再如何如何。”例如,对于回国,有人会说:“我在美国再发展几年,之后再回国。”
但我有一个理论:如果你未来确定想做某件事,最佳时机是过去,其次就是现在。因此,我认为不如立即回国。
回国后该做什么?经过一个月的思考,我拒绝了字节的返聘邀请;2018年10月,我敲开了姚期智先生办公室的门,选择回到清华任教。
随后,我与几位伯克利的同学分享了我的想法,建议大家尽快回国,这里充满机遇。我的想法很简单,看到好的机会就希望与大家分享,也确实影响了一些人。
如今回顾,对于回国这件事而言,那个时间点的确是个好时机,我们作为早期回国的学者也确实享受到了某些红利。
智能涌现:印象中你总是勇于挑战,然后边学习边调整,最终走到今天。例如,博士期间你先选了一个不喜欢的专业,后来转向强化学习;在同批回国的学者中,你似乎又是最先创业的,而当他们纷纷开始创业时,你又选择了与大厂合作。你的经历听起来就像是一个强化学习的过程?
吴翼:没错,我确实是一路强化学习,一路踩坑,几乎把所有能想到的坑都快速踩了一遍。哈哈,我个人感觉,通过踩坑学习比监督微调(SFT)学得更深刻,泛化能力也更强。
做产品也是如此。我常说,产品完成后要尽快推出。在AI时代,酒香也怕巷子深,必须尽快将产品推向市场,让用户使用并获得反馈。即便市场反馈是失败的,也能明确问题所在,快速试错迭代。
当然,我也想借此机会说明,如果能够获得高质量的SFT数据,再结合强化学习,学习效率会更高。因为强化学习的探索过程往往会得到大量负反馈,消耗较大。因此,我希望分享自己的经历和看法,帮助大家更快地进步。
智能涌现:开创性的机会往往缺乏可借鉴的经验,你是如何说服自己下定决心的?
吴翼:面对需要决策的事情时,我有一套快速决策法:先抛硬币。在硬币落地之前,内心其实已经知道了答案。
我总是那个先抛硬币的人。
智能涌现:对你而言,是想做的事情重要,还是光环重要?如果能够实现理想、做出伟大成绩,但需要隐姓埋名,你愿意吗?
吴翼:我愿意。
我思考过这个问题:如果我能从0到1创建一家优秀的创业公司,随后公司进入1到100的阶段,组织迅速扩张,而我逐渐不再是光环围绕的管理者。我能否接受这一变化?答案是肯定的。
到了那个转折点,我可能会引入职业经理人,自己则投身于下一个0到1的征程。原因很简单,从1到10甚至1到100往往需要数百人协作,如此庞大的管理工作并非我所热衷的。
不过,我现在也在反思,是否被这种理想主义的状态所局限。也许当那个时间点真正到来时,我会做出不同的选择。但若现在问我,我可能仍倾向于一直做那个0到1的人。
智能涌现:AReaL团队所从事的强化学习研究,为何能够很好地服务于AI训练?
吴翼:强化学习的训练特点在于让AI在实践过程中自主学习,这种方式更有可能培养出真正聪明的人工智能。
此前的监督学习、监督微调(SFT)方式,需要人类告诉AI如何完成具体任务。然而,这存在很大困难,因为可能性众多,人类无法在长达10小时的任务中持续下达指令。
此外,人类给出的指令可能与AI的思考方式不符,过多指令往往导致AI死记硬背,并未真正“理解”,从而使得模型的泛化能力较差。
因此,我们期望借助强化学习技术,让AI主动与环境交互,甚至在不确定时学会提问。这种鼓励AI自我迭代的训练模式,本质上是在培养AI的自主探索能力,而这只能通过强化学习实现。
智能涌现:接下来我们探讨一下技术层面的Know-How。你曾提到,要做好强化学习,技术上有三个关键要素:奖励机制、搜索与探索,以及提示词(Prompt),但这三方面都极具挑战。既然都很难,该如何解决?
吴翼:目前我认为最重要的是提示词(Prompt),即如何生成大量高质量的提示词。
这三点可以通过一个例子来解释:好比老师辅导高中生做数学题,Prompt相当于老师出的题目,搜索和探索则是学生独立解题的能力与过程,Reward model则是老师给予学生的反馈。
题目难易程度对提升学生水平至关重要。例如,给中学生高等代数题目可能过难;而题目过于简单则无法促进提高。因此,如何设计难度适中的题目显得尤为重要。
这也正是强化学习框架下数据面临的最大挑战:数据量并非关键,核心在于数据是否合适,只有合适的数据才能提升模型能力。
智能涌现:强化学习与具身智能体之间存在怎样的关系?强化学习如何使聪明的机器人为人类服务?
吴翼:强化学习与具身智能体的关系主要体现在两个方向:其一是运动控制(Locomotion),这一领域的强化学习技术较早成熟,且完全无需预训练。
其二是与长程推理和规划相关,通常与经过预训练的大模型相结合。这一方向随着ChatGPT的诞生才逐渐普及,相对较新。
这两个方面实际上代表了具身智能的一个谱系,从高频控制完成短期任务,到抽象的任务规划完成复杂推理任务。
传统的强化学习在解决控制问题时无需预训练,例如各种跑酷机器狗、机器人跑跳控制等。这些应用通常通过微型神经网络,在物理仿真环境中进行强化学习训练,然后直接迁移到现实世界,完全不依赖预训练。
在此过程中,强化学习通过算法训练神经网络,输出对机器人每个关节的底层控制信号,从而控制机器人运动。这类任务的特点是控制频率极高,而任务完成周期极短:例如跑跳可能通过数十次关节控制在几秒钟内完成。
而ChatGPT、DeepSeek R1所代表的强化学习技术,则与大模型预训练紧密结合:首先需要经过预训练的基础模型;预训练完成后,再通过强化学习进行后训练,以激发模型强大的思考与推理能力。
例如DeepSeek R1便是如此。近期OpenAI和Gemini参与IMO、IOI等数学奥林匹克竞赛,也是通过强化学习增强了模型的推理能力才得以实现。
经过强化学习训练的大模型,能够进行分钟级乃至小时级的思考,具备常识,能够将复杂问题拆解为子任务,并调用工具。然而,目前推理强化学习的成功实践仍局限于数字世界,尚未广泛影响物理世界。
但其中存在中间状态,即具身智能领域常说的视觉-语言-动作模型(VLA)。
智能涌现:那么,如何从VLA这一中间状态,推进到具身智能体的最终形态?
吴翼:VLA是研究人员尝试运用预训练思想,解决物理世界问题的一种方法。
研究人员收集大量数据,试图预训练一个针对物理世界的大模型,使其不仅能够完成数秒钟的跑跳任务,还能具备足够的泛化能力,执行几分钟级别的任务,例如叠毛巾、给杯子倒水等。
那么再往后发展呢?如果我们希望完成更长时间跨度的任务,例如做饭、打扫卫生。
这类任务可能需要数小时才能完成,其间需要大量的机器人控制,以及抽象、常识性的分解与规划,甚至需要与人交互——正如数字世界的智能体一样,只不过场景转移到了物理世界。
因此,我将这类智能体称为具身智能体。个人认为,具身智能体可能需要将运动控制的强化学习或VLA视为物理世界的工具或小脑,而将类似ChatGPT这样基于预训练的强化学习技术视为大脑。两者需要有机结合。
与数字世界中大语言模型智能体的火爆不同,物理世界智能体的概念受到的关注相对较少。大多数人更关注硬件、底层控制,以及杯子能否抓取、分拣是否准确等问题。当然,这些确实是具身智能与大语言模型的不同之处——改造物理世界总是充满挑战。
由于我本人更关注强化学习和智能体技术本身,因此我会优先研究“大脑”部分,思考如何让智能体稳定可靠地完成长达10小时的任务。之后再与物理世界的强化学习技术相结合。
智能涌现:那么,在具身智能领域,你的强化学习研究与VLA将如何、在哪个节点进行配合?
吴翼:我们目前提出的方案是分层。
这也是我在WAIC上提到的观点:观察这个世界,你会发现越往上层越需要人类世界的知识,越往下层则越不需要。
下层部分可能是一些直觉反应,例如拿杯子,只需具备一定的力反馈或简单直观的物理知识即可完成。
而上层则需要一定的先验知识。
那么,上下层之间的切割点在哪里?可以将涉及物理世界与数字世界智能体的部分加以区分。
我并不认为VLA是最终范式,因为VLA的预训练规模尚不足以支撑其直接成为一个优秀的智能体。
因此,我会优先做好数字世界的智能体。同时,其他从业者正在从事具身与物理世界相关的探索,待时机成熟时再进行结合。
智能涌现:你在外滩大会上提到,在负责的AReaL团队中,也在探索一种全新的、极简的组织形态。这是出于什么考虑?
吴翼:在互联网时代,开发一个产品至少需要四五个人:一个前端、一个后端,再加一个产品经理。
但在AI时代,这些工作或许只需一个人加上AI就能完成。
过去,许多小型组织会寻求外包团队。而AI时代,不仅组织内部结构会被AI简化,外包环节也可以省去。
我认为,如果组织内部能够实现大量AI化,其能力必然会产生溢出效应。因为用AI的方式服务自己,同样可以服务他人,这必将催生新的产品机遇。
AReaL团队目前有6名成员,但从外部来看,仍需要一些支持团队。如果将外部所有成员都纳入AReaL大家庭,团队规模无疑可以进一步精简。我希望团队能够保持AI时代的极简状态,这也是AReaL核心团队始终维持较小规模的原因。
智能涌现:然而,大公司的组织形态通常较为庞大,你是如何在大公司内部实现AReaL团队的组织简化的?
吴翼:首先,作为一个现代的智能体团队,自身每天必须大量使用智能体工具。
此外,我将算法团队与基础设施(Infra)团队合并,形成全栈团队。
在传统组织架构中,算法团队与系统团队往往分离,并设有其他工程团队,例如数据团队负责数据收集与清洗等。这种模式在做模型时强调分工与投入,让工程团队为算法团队提供支持。结果,算法团队仿佛成了甲方,而工程团队则沦为从事“脏活累活”的乙方。
这种模式的问题在于,一旦成为乙方,便会失去创新空间;而一旦习惯于做甲方,则容易不愿涉足“脏活累活”,从而丧失对技术底层的观察、感知以及创新所需的自驱力。
事实上,OpenAI并未发明什么震惊世界的算法,而是将无数细节做到了极致。
因此,我认为,只有扎实做好基础设施、数据,在细节上下功夫,算法才可能表现出色。
因此,算法与基础设施不能割裂为两个团队。两者之间不能存在边界,必须共同设计、协同演进,这样才能形成一支小而精悍、富有战斗力的团队。
大型团队的管理难题在于,一旦组织规模达到200人,就不可能没有边界。由于人类的沟通带宽有限,必然会走向职责划分与管理,而人类低效的上下文共享能力,便成为整个团队的效率瓶颈。
因此,极小的组织形式与全栈创新能力是相辅相成的。我认为,大家应当忘掉200人的组织架构,毕竟AI时代都是从0到1,需要更激进地尝试全新模式。
本文由主机测评网于2026-02-19发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260225952.html