当前位置:首页 > 科技资讯 > 正文

双智能体登顶权威榜单:openJiuwen助力AI新突破

2026年初至今,人工智能界最耀眼的明星莫过于Clawdbot的进化版——OpenClaw。

从Clawdbot到OpenClaw,尽管更名两次,但人们对它的热情却丝毫未减,全球范围内对于更高级、更通用、更可靠的超级智能体的渴望愈发强烈。

过去一年,智能体如雨后春笋般涌现,2025年甚至被誉为“AI智能体元年”。衡量一款智能体的真正实力,需综合考量其在通用场景下的解决能力,以及在垂直领域的核心专项能力。GAIA通用智能基准榜单与BrowseComp-Plus深度研究基准榜单,成为了最直接的评价工具。

去年,创业公司Manus的智能体爆红,也带火了GAIA榜单。自此,几乎每款智能体都试图在GAIA上占一席之地。而BrowseComp-Plus基准测试,凭借严苛的评测标准,成为了智能体检索能力的竞技场。

最近,我们注意到两大榜单的榜首均出现了新面孔:基于openJiuwen构建的DeepAgent与DeepSearch,在GAIA与BrowseComp-Plus中双双夺冠。

DeepAgent 登顶GAIA榜首

基于openJiuwen构建的DeepAgent以91.69%的成绩位居GAIA榜首,超越了包括英伟达Nemotron在内的众多领先智能体。

双智能体登顶权威榜单:openJiuwen助力AI新突破 DeepAgent DeepSearch GAIA BrowseComp-Plus 第1张

榜单链接:https://gaia-benchmark-leaderboard.hf.space/

  • GAIA挑战:直面智能体的最大考验

GAIA并非讨好大型模型的榜单。

双智能体登顶权威榜单:openJiuwen助力AI新突破 DeepAgent DeepSearch GAIA BrowseComp-Plus 第2张

GAIA是由Meta与Hugging Face联合打造,专门评估通用智能体能力的基准,涵盖长程任务规划、多模态理解等12类核心能力,分为Level 1-3三个难度等级。Level 3任务难度已接近人类水平,采用封闭测试集和自动化评分机制,全面而严苛地评估智能体的综合能力。

根据Hugging Face上的简介,人类参与者在GAIA测试上的平均成功率约为92%,而GPT-4即使借助插件,也只能达到约15%的表现。

GAIA的评测设计独具特色,与传统AI基准显著不同,能够淘汰大量“看似聪明”的智能体。

1. 真实世界难度(Real-world difficulty):任务不仅涉及语言理解,还要求推理、计划等,逼近真实场景中智能体的工作。

2. 人类可解释性(Human interpretability):任务对人类而言清晰可验证,使评估结果更可信。

3. 防刷榜策略(Non-gameability):强调任务执行全过程的质量,“暴力破解”无效。

openJiuwen-deepagent以91.69%的分数登顶,几乎与人类参与者的成绩持平。

这一成绩表明DeepAgent在规划、执行稳定性等方面具备系统级优势,意味着通用智能体已接近人类任务执行能力。

DeepSearch 登顶BrowseComp-Plus榜首

基于openJiuwen构建的DeepSearch以80%的准确率位居BrowseComp-Plus榜首

双智能体登顶权威榜单:openJiuwen助力AI新突破 DeepAgent DeepSearch GAIA BrowseComp-Plus 第3张

榜单链接:https://huggingface.co/spaces/Tevatron/BrowseComp-Plus

  • BrowseComp-Plus挑战:深度搜索的核心考验

BrowseComp-Plus是衡量智能体深度搜索能力的权威基准,作为OpenAI BrowseComp的升级版,涵盖多跳检索等核心能力。评分机制科学严谨:

1. 采用固定人工验证语料库构建测试环境。

2. 以严格准确率为核心评分维度。

3. 结果可验证

凭借专业的评测设计,BrowseComp-Plus成为全球顶尖机构检验智能体实力的依据。openJiuwen-deepsearch以80%的准确率登顶,意味着其在多跳搜索等维度具备核心技术优势。

冲榜背后:openJiuwen提供核心支撑

剖析登顶GAIA的DeepAgent与摘得BrowseComp-Plus榜首的DeepSearch,我们发现它们均依托同一个“技术底座”——openJiuwen。

作为面向生产环境的开源平台,openJiuwen聚焦智能体的高精准执行,构建了从开发到优化的全链路能力体系。这意味着任何团队都能在此基础上构建自己的“DeepAgent”和“DeepSearch”。

openJiuwen官网

开源地址

从平台设计来看,openJiuwen为原生支持多智能体协同和自演进而设计。其打造的智能体控制器作为中枢,结合上下文引擎的异步压缩与动态卸载能力,使DeepAgent、DeepSearch在复杂任务中实现高效调度。

总结:智能体的分水岭

当前,智能体领域已出现清晰的分水岭。

一边是仍停留在“语言交互”的智能体;另一边则是能够规划任务、调度资源、稳定执行的生产级系统。

“AI智能体元年”后,基于openJiuwen构建的DeepAgent与DeepSearch凭借系统性架构设计脱颖而出,成为生产级智能体的一站式AI Agent平台。