7月17日,OpenAI正式推出了ChatGPT Agent,标志着其正式进军通用AI Agent领域。
外界普遍认为,在即将发布GPT-5的关键时刻,ChatGPT Agent的亮相更像是仓促应战的“占位”之举。通用Agent有望成下一代互联网的“万亿流量入口”,引发市场格局的再次洗牌。
在通用AI Agent赛道中,多家AI初创公司崭露头角,技术路线各有千秋:从浏览器为主的万能路线,到沙盒虚拟机的高效执行,再到工作流集成的专业化方案,几大技术流派正在激烈角逐。
本篇文章中,硅谷101和Pokee.ai创始人、前MetaAI应用强化学习团队负责人朱哲清(Bill Zhu),以及硅谷101特约研究员Nathan Wang将探讨:OpenAI入局是否意味着Agent将成为又一个被巨头吞噬的市场?还是说,技术壁垒和差异化路线将为创业公司保留生存空间?当“幽灵光标”成为互联网访问的主力军时,广告生态将如何被颠覆?新时代的流量入口霸主又将花落谁家?
7月17日,OpenAI CEO Sam Altman和四位研究员在直播中介绍了OpenAI ChatGPT Agent。
简单来说,你可以让Agent帮你完成任务:例如,婚礼缺双鞋,去电商平台直接订购;或者设计个宠物周边,直接下单打印;查找信息后直接生成PPT等等。
这些任务的演示看起来完成度都还挺高。它们由OpenAI此前推出的两个工具驱动:Deep Research和Operator。
Deep Research是一款深入研究的分析工具,可以阅读大量网页,生成深度的调研报告,主打“搜索”;而Operator之前是一款只开放给GPT Pro用户的浏览器Agent工具,可以查看网页,同时为用户带来特定操作,主打“执行”。
OpenAI表示,在两样工具分别推出的过程中,发现很多用户用Operator写的提示词经常很像会用Deep Research去做的任务,比如旅行计划、行程预定等;而Deep Research用户们也在呼吁能增加如登陆不同网站、访问受保护资源的能力,这恰好又是Operator擅长的。
因此OpenAI决定将两个产品融合起来,相当于打通了“搜索与执行”,也就是通用Agent所需要的技能。
同时,这也决定了OpenAI做通用AI的底层路线与目前市面上的其它产品有所区别,存在优势和弊端。
接下来,我们将探讨目前通用Agent的四大技术派系。
第一个技术派系是所谓“browser-based”(浏览器为主)的技术路线,之前OpenAI的Operator就专注于这个路线。
这类智能体主要通过控制网页浏览器来工作。简单说,就是通过视觉模型让AI像人一样去网上搜索信息、点击链接、浏览网页,从而完成用户交代的任务。
这种模式因为可以访问全网信息,通用性很强,几乎是无所不能的。
Bill Zhu(朱哲清)
Pokee.ai创始人
前Meta AI应用强化学习团队负责人:
我认为浏览器的意义在于,世界上所有的网页和互联网服务都可以集中呈现在某个页面。因此我只需要我的Agent能够看到网页、去操作网页,我就可以完成任务。用户可以看到这个基于浏览器的Agent在页面上点了哪些地方,一页一页地去看浏览器是不是跟人一样在操作网页。
它的缺点是很慢,而且Token消耗特别高。原因在于你看一个网页等于把HTML文件直接拉下来,可能还包含一些脚本(script),然后把它全部拉下来从零开始全部读一遍只为了操作一个网页。但它确实是万能的。
就像朱哲清说的,这个万能的路线有一个致命问题:慢。
原因很简单:浏览器为主的路线背后的技术是Agent配合视觉模型来做Screencatch(屏幕截图),进而进行图像识别。所以它要等待主页加载网页、等待响应。
“速度慢”是不少人对这次ChatGPT Agent的一个不满之处,很多任务都要耗费几十分钟才能完成。
Bill Zhu(朱哲清)
Pokee.ai创始人
前Meta AI应用强化学习团队负责人:
因为Deep Research相对于市面上所有的产品来说还是比较慢的一个Research产品。再加上Operator本身我们也知道它的基准测试速度很慢。所以把两者结合了以后整体速率就更慢了。
但这个“慢”可能也会因为大模型的优化和算力的优化而在未来实现速度提升。
OpenAI的视觉模型和browser点击能力比市面上其它通用Agent更强,所以这个技术派系在之后还会有很大的优化空间。
本文由主机测评网于2026-04-19发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260438809.html