根据OpenAI定义的L3人工智能标准,谷歌正迅速推进,有望率先实现这一目标。
最新内部测试显示:Gemini能够连续运行40分钟处理同一项任务。。
在此期间,Gemini可根据用户输入,自动生成超过100个创意点子,并由一组智能体代理对这些创意进行打分、排序,产出结构化的评审报告。
如此一来,用户无需再面对人工智能的草稿式输出,只需像筛选成熟方案一样,从智能体打磨后的结果中直接挑选即可,大幅减少了与单个代理来回磨合的时间成本。
换句话说,用户只需负责决策拍板,探索和迭代的全过程,均由代理代劳。
据悉,这种“先由点子生成器构思方案,再由评审团进行竞赛式打分”的多智能体系统,在面向用户的产品中尚属首次亮相。
果然,巴菲特的眼光绝对不会错——谷歌依旧保持着创新领先地位。
如何让智能体不再仅仅“回答问题”,而是将用户输入“认真对待并执行”?
谷歌的做法是将多智能体工作流、长时思考与对抗式生成三者深度融合。
本质上,这是以“时间”交换“质量”。
一条用户提示会在多智能体系统内部经历长达40多分钟的完整生成—竞争—筛选流程,而非一次性输出答案。
具体来看,Gemini for Enterprise的多智能体系统会首先接收主题与评估标准,大规模生成初始创意(超过100个)。
随后,多个代理以竞赛方式对这些创意进行评分和排序。
由此,呈现给用户的不是单一回答,而是一套经过完整流程沉淀的成果:
约100个创意,按标准排序,并附带概述、细节、评论、完整评审记录,以及独立生成的“比赛表现报告”。
在当前预览版中,谷歌推出了两个基于此竞赛系统的应用场景:
创意生成:用户提供主题后,系统启动多智能体竞赛流程,生成并排序与主题相关的创意。
合作科研:用户指定研究主题并提供数据,由智能体通过相同机制生成和评估创意,更侧重于科研类任务。
事实上,谷歌早在今年2月就发布过科研辅助类代理,但与这次内测的能力相比,功能规模和表现都不可同日而语。
一方面,单次推理的可持续时长直接被提升到40分钟。
另一方面,系统在推理期间能够结合对抗式生成,产出结构化、富有洞见的内容。
这不仅让代理能够承担更复杂的任务,也显著提升了人机协作效率。
此外,为了方便系统确认需求和节省算力,系统在正式运转前会先给出一份“计划评估项目和创意维度”的概要,只有用户确认后才开始执行任务。
除了竞赛系统,谷歌还在测试一个新的“文档对话智能体”。
它拥有独立界面,允许用户上传最大30MB的PDF文件,并直接与文档内容进行对话。
系统会把最多30MB的PDF内容整合到模型上下文中,使用户能够从长文档中提取更高质量的结论与信息。
尽管这些功能目前都集成在Gemini 企业版并仍在开发中,但我们仍可以将谷歌的这次尝试视作其向L3级人工智能产品迈进的一次重要探索。
去年,OpenAI提出了五级AI分类体系,用以追踪通用人工智能(AGI)的发展进程。
按照这一体系,去年处于L1(会话型AI)向L2(推理型AI)过渡的阶段。
而今年,随着代理技术的快速发展,L3级代理型AI开始崭露头角。
L3的核心在于“代理能力”,即AI可以在用户授权下自主执行任务,并在多天内持续运行、适应环境变化。
可以说,L3的关键在于长时间自主运行。
这也是Gemini能够连续40分钟进行多智能体对抗式生成的意义所在:
通过长时运行、多代理协作和企业级算力支撑,它将“在单一任务上持续工作数十分钟并迭代优化”的能力落地为可用产品,向L3的定义靠近了一步。
有网友甚至推测,照这个发展速度,明年可能就会出现能够连续工作3小时的代理。
而另一位网友则回应到:Anthropic给的时间线是2026年连续工作8小时。
到时,人类所做的将仅是设计好问题和评估标准,其余任务都可以交给代理自主完成。
而随着合作科研的进一步开发,Gemini或许也能够触及L4(创新者)的门槛。
让我们拭目以待。
参考链接:
[1]https://www.testingcatalog.com/google-to-enable-research-automation-on-gemini-enterprise/
[2]https://x.com/testingcatalog/status/1990177061852328329
本文由主机测评网于2026-01-25发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260120525.html