2026年初至今,人工智能界最耀眼的明星莫过于Clawdbot的进化版——OpenClaw。
从Clawdbot到OpenClaw,尽管更名两次,但人们对它的热情却丝毫未减,全球范围内对于更高级、更通用、更可靠的超级智能体的渴望愈发强烈。
过去一年,智能体如雨后春笋般涌现,2025年甚至被誉为“AI智能体元年”。衡量一款智能体的真正实力,需综合考量其在通用场景下的解决能力,以及在垂直领域的核心专项能力。GAIA通用智能基准榜单与BrowseComp-Plus深度研究基准榜单,成为了最直接的评价工具。
去年,创业公司Manus的智能体爆红,也带火了GAIA榜单。自此,几乎每款智能体都试图在GAIA上占一席之地。而BrowseComp-Plus基准测试,凭借严苛的评测标准,成为了智能体检索能力的竞技场。
最近,我们注意到两大榜单的榜首均出现了新面孔:基于openJiuwen构建的DeepAgent与DeepSearch,在GAIA与BrowseComp-Plus中双双夺冠。
基于openJiuwen构建的DeepAgent以91.69%的成绩位居GAIA榜首,超越了包括英伟达Nemotron在内的众多领先智能体。
榜单链接:https://gaia-benchmark-leaderboard.hf.space/
GAIA并非讨好大型模型的榜单。
GAIA是由Meta与Hugging Face联合打造,专门评估通用智能体能力的基准,涵盖长程任务规划、多模态理解等12类核心能力,分为Level 1-3三个难度等级。Level 3任务难度已接近人类水平,采用封闭测试集和自动化评分机制,全面而严苛地评估智能体的综合能力。
根据Hugging Face上的简介,人类参与者在GAIA测试上的平均成功率约为92%,而GPT-4即使借助插件,也只能达到约15%的表现。
GAIA的评测设计独具特色,与传统AI基准显著不同,能够淘汰大量“看似聪明”的智能体。
1. 真实世界难度(Real-world difficulty):任务不仅涉及语言理解,还要求推理、计划等,逼近真实场景中智能体的工作。
2. 人类可解释性(Human interpretability):任务对人类而言清晰可验证,使评估结果更可信。
3. 防刷榜策略(Non-gameability):强调任务执行全过程的质量,“暴力破解”无效。
openJiuwen-deepagent以91.69%的分数登顶,几乎与人类参与者的成绩持平。
这一成绩表明DeepAgent在规划、执行稳定性等方面具备系统级优势,意味着通用智能体已接近人类任务执行能力。
基于openJiuwen构建的DeepSearch以80%的准确率位居BrowseComp-Plus榜首。
榜单链接:https://huggingface.co/spaces/Tevatron/BrowseComp-Plus
BrowseComp-Plus是衡量智能体深度搜索能力的权威基准,作为OpenAI BrowseComp的升级版,涵盖多跳检索等核心能力。评分机制科学严谨:
1. 采用固定人工验证语料库构建测试环境。
2. 以严格准确率为核心评分维度。
3. 结果可验证。
凭借专业的评测设计,BrowseComp-Plus成为全球顶尖机构检验智能体实力的依据。openJiuwen-deepsearch以80%的准确率登顶,意味着其在多跳搜索等维度具备核心技术优势。
剖析登顶GAIA的DeepAgent与摘得BrowseComp-Plus榜首的DeepSearch,我们发现它们均依托同一个“技术底座”——openJiuwen。
作为面向生产环境的开源平台,openJiuwen聚焦智能体的高精准执行,构建了从开发到优化的全链路能力体系。这意味着任何团队都能在此基础上构建自己的“DeepAgent”和“DeepSearch”。
从平台设计来看,openJiuwen为原生支持多智能体协同和自演进而设计。其打造的智能体控制器作为中枢,结合上下文引擎的异步压缩与动态卸载能力,使DeepAgent、DeepSearch在复杂任务中实现高效调度。
当前,智能体领域已出现清晰的分水岭。
一边是仍停留在“语言交互”的智能体;另一边则是能够规划任务、调度资源、稳定执行的生产级系统。
“AI智能体元年”后,基于openJiuwen构建的DeepAgent与DeepSearch凭借系统性架构设计脱颖而出,成为生产级智能体的一站式AI Agent平台。
本文由主机测评网于2026-07-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260748786.html