当前位置：首页 > 科技资讯 > 正文

双智能体登顶权威榜单：openJiuwen助力AI新突破

主机测评网
科技资讯
2026-07-05
156

2026年初至今，人工智能界最耀眼的明星莫过于Clawdbot的进化版——OpenClaw。

从Clawdbot到OpenClaw，尽管更名两次，但人们对它的热情却丝毫未减，全球范围内对于更高级、更通用、更可靠的超级智能体的渴望愈发强烈。

过去一年，智能体如雨后春笋般涌现，2025年甚至被誉为“AI智能体元年”。衡量一款智能体的真正实力，需综合考量其在通用场景下的解决能力，以及在垂直领域的核心专项能力。GAIA通用智能基准榜单与BrowseComp-Plus深度研究基准榜单，成为了最直接的评价工具。

去年，创业公司Manus的智能体爆红，也带火了GAIA榜单。自此，几乎每款智能体都试图在GAIA上占一席之地。而BrowseComp-Plus基准测试，凭借严苛的评测标准，成为了智能体检索能力的竞技场。

最近，我们注意到两大榜单的榜首均出现了新面孔：基于openJiuwen构建的DeepAgent与DeepSearch，在GAIA与BrowseComp-Plus中双双夺冠。

DeepAgent 登顶GAIA榜首

基于openJiuwen构建的DeepAgent以91.69%的成绩位居GAIA榜首，超越了包括英伟达Nemotron在内的众多领先智能体。

双智能体登顶权威榜单：openJiuwen助力AI新突破 DeepAgent DeepSearch GAIA BrowseComp-Plus 第1张

榜单链接：https://gaia-benchmark-leaderboard.hf.space/

GAIA挑战：直面智能体的最大考验

GAIA并非讨好大型模型的榜单。

双智能体登顶权威榜单：openJiuwen助力AI新突破 DeepAgent DeepSearch GAIA BrowseComp-Plus 第2张

GAIA是由Meta与Hugging Face联合打造，专门评估通用智能体能力的基准，涵盖长程任务规划、多模态理解等12类核心能力，分为Level 1-3三个难度等级。Level 3任务难度已接近人类水平，采用封闭测试集和自动化评分机制，全面而严苛地评估智能体的综合能力。

根据Hugging Face上的简介，人类参与者在GAIA测试上的平均成功率约为92%，而GPT-4即使借助插件，也只能达到约15%的表现。

GAIA的评测设计独具特色，与传统AI基准显著不同，能够淘汰大量“看似聪明”的智能体。

1. 真实世界难度（Real-world difficulty）：任务不仅涉及语言理解，还要求推理、计划等，逼近真实场景中智能体的工作。

2. 人类可解释性（Human interpretability）：任务对人类而言清晰可验证，使评估结果更可信。

3. 防刷榜策略（Non-gameability）：强调任务执行全过程的质量，“暴力破解”无效。

openJiuwen-deepagent以91.69%的分数登顶，几乎与人类参与者的成绩持平。

这一成绩表明DeepAgent在规划、执行稳定性等方面具备系统级优势，意味着通用智能体已接近人类任务执行能力。

DeepSearch 登顶BrowseComp-Plus榜首

基于openJiuwen构建的DeepSearch以80%的准确率位居BrowseComp-Plus榜首。

双智能体登顶权威榜单：openJiuwen助力AI新突破 DeepAgent DeepSearch GAIA BrowseComp-Plus 第3张

榜单链接：https://huggingface.co/spaces/Tevatron/BrowseComp-Plus

BrowseComp-Plus挑战：深度搜索的核心考验

BrowseComp-Plus是衡量智能体深度搜索能力的权威基准，作为OpenAI BrowseComp的升级版，涵盖多跳检索等核心能力。评分机制科学严谨：

1. 采用固定人工验证语料库构建测试环境。

2. 以严格准确率为核心评分维度。

3. 结果可验证。

凭借专业的评测设计，BrowseComp-Plus成为全球顶尖机构检验智能体实力的依据。openJiuwen-deepsearch以80%的准确率登顶，意味着其在多跳搜索等维度具备核心技术优势。

冲榜背后：openJiuwen提供核心支撑

剖析登顶GAIA的DeepAgent与摘得BrowseComp-Plus榜首的DeepSearch，我们发现它们均依托同一个“技术底座”——openJiuwen。

作为面向生产环境的开源平台，openJiuwen聚焦智能体的高精准执行，构建了从开发到优化的全链路能力体系。这意味着任何团队都能在此基础上构建自己的“DeepAgent”和“DeepSearch”。

openJiuwen官网
开源地址

从平台设计来看，openJiuwen为原生支持多智能体协同和自演进而设计。其打造的智能体控制器作为中枢，结合上下文引擎的异步压缩与动态卸载能力，使DeepAgent、DeepSearch在复杂任务中实现高效调度。

总结：智能体的分水岭

当前，智能体领域已出现清晰的分水岭。

一边是仍停留在“语言交互”的智能体；另一边则是能够规划任务、调度资源、稳定执行的生产级系统。

“AI智能体元年”后，基于openJiuwen构建的DeepAgent与DeepSearch凭借系统性架构设计脱颖而出，成为生产级智能体的一站式AI Agent平台。

高防服务器阿里云服务器云服务器

本文由主机测评网于2026-07-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260748786.html

双智能体登顶权威榜单：openJiuwen助力AI新突破

DeepAgent 登顶GAIA榜首

DeepSearch 登顶BrowseComp-Plus榜首

冲榜背后：openJiuwen提供核心支撑

总结：智能体的分水岭

哲学博士跨界教AI「做人」：一场跨物种的育儿实验

GLM-5：开源AI架构师，重塑编程未来

双智能体登顶权威榜单：openJiuwen助力AI新突破

DeepAgent 登顶GAIA榜首

DeepSearch 登顶BrowseComp-Plus榜首

冲榜背后：openJiuwen提供核心支撑

总结：智能体的分水岭

哲学博士跨界教AI「做人」：一场跨物种的育儿实验

GLM-5：开源AI架构师，重塑编程未来

相关文章