当前位置:首页 > 科技资讯 > 正文

WebExplorer:革新网络搜索智能体性能的高质量数据构建方法

当前网络搜索智能体的表现时常不尽如人意,即便投入海量数据进行训练,性能提升仍有限。香港科技大学与MiniMax团队指出症结所在:并非模型参数不足,而是缺乏具有足够挑战性的训练数据。

换言之,单纯记忆已不够用,智能体需要应对更贴近实际的“真题”考验。为此,他们提出了名为WebExplorer的高质量问答对构建方法。

利用该方法生成的数据集进行训练,即便是较小规模的模型,也能在复杂、长程的搜索任务中超越参数量更大的模型。

WebExplorer:革新网络搜索智能体性能的高质量数据构建方法 网络搜索智能体 训练数据质量 WebExplorer框架 长程推理能力 第1张

训练后的8B模型支持高达128K的上下文长度100次工具调用轮次的长期推理,在参数量低于10B的模型中取得了领先成果。

行业观察者评价:这种模型驱动的探索方式,相较于传统图谱方法,能显著增强智能体浏览行为的灵活性。

WebExplorer:革新网络搜索智能体性能的高质量数据构建方法 网络搜索智能体 训练数据质量 WebExplorer框架 长程推理能力 第2张

模型及相关数据集均已开源,详细链接见文末。

优质训练数据的稀缺挑战

随着大语言模型的快速发展,智能体的能力边界不断扩展。网络搜索智能体作为重要组成部分,能够自主从广泛的在线资源中检索信息;长视野网络智能体则需要在多个网站间进行复杂的推理与搜索。

然而,现有开源网络智能体在处理复杂搜索任务时能力有限,而更强大的商业模型又缺乏透明的训练细节。

研究团队强调,开发高性能网络搜索智能体的关键在于提升训练数据质量。当前的评测基准已发展至极其困难的水平:例如,在BrowseComp-en基准测试中,超过一半的问题连人类标注者都无法在两小时内解决。虽然这类难题在日常应用中较少见,但构建高质量、高难度的问答对,对于实现超越人类水平的信息搜索智能体至关重要。

不过,现有常见方法存在局限性,可能导致查询表达不自然且合成灵活性不足。

WebExplorer:革新网络搜索智能体性能的高质量数据构建方法 网络搜索智能体 训练数据质量 WebExplorer框架 长程推理能力 第3张

针对上述问题,研究团队提出了创新的两阶段方法WebExplorer——采用探索-演化框架,创建需要多步推理和复杂网络导航的高难度问答对。

WebExplorer:革新网络搜索智能体性能的高质量数据构建方法 网络搜索智能体 训练数据质量 WebExplorer框架 长程推理能力 第4张

该框架的第一阶段是模型驱动的探索,使模型能更自主灵活地探索信息空间。具体来说,从种子实体开始,系统利用强大的语言模型,通过迭代搜索和浏览操作模拟图构建过程。这种方法能够动态探索与种子实体相关的信息空间,并在此基础上构建初步问答对。

由于初步问答对相对简单,WebExplorer引入了第二阶段的迭代查询演化过程。这一阶段通过系统移除明确线索并引入战略性模糊化,来提升查询难度。

WebExplorer:革新网络搜索智能体性能的高质量数据构建方法 网络搜索智能体 训练数据质量 WebExplorer框架 长程推理能力 第5张

简而言之,该方法采用“从长到短”的演化策略,通过以下三个方向优化查询:

1、移除显著信息:去掉过于明显的提示;

2、引入战略性模糊化:对日期、地点和专有名词等具体细节进行模糊处理;

3、寻找替代描述:用模糊的描述符替换原始的明确引用。

例如,一个初始查询如“这位球员44岁时去世”,经演化后变为模糊描述“这位球员于中年去世”,需要更多探索性搜索才能找到正确答案。

通过这个探索-演化过程,研究团队构建了WebExplorer-QA数据集,包含约4万个演化后的最终问答对。

WebExplorer:革新网络搜索智能体性能的高质量数据构建方法 网络搜索智能体 训练数据质量 WebExplorer框架 长程推理能力 第6张

为验证数据质量,他们使用Claude-4-Sonnet模型进行了全面比较分析。上图为工具调用次数分布的比较:左边显示初始问答对与演化问答对,右边显示演化问答对与BrowseComp-en。可见,演化过程有效增加了解决问题所需的工具调用次数。

演化效果显著:强性能商业模型的准确率从86.6%大幅下降至67.1%,而平均工具调用次数从7.9次显著增加至9.9次。这表明演化过程成功创建了需要广泛多步推理和探索的复杂查询。

研究团队使用WebExplorer-QA数据集,通过监督微调加强化学习的经典训练方法,训练出8B规模的WebExplorer-8B。该模型在多个信息搜索基准测试中取得了同等规模下的最先进性能。

数据质量优于模型规模

WebExplorer-8B基于Qwen3-8B模型训练,实现了支持128K上下文长度100次工具调用的长视野推理。

尽管只有8B参数,WebExplorer-8B在多个基准测试中持续超越了更大的开源模型。

WebExplorer:革新网络搜索智能体性能的高质量数据构建方法 网络搜索智能体 训练数据质量 WebExplorer框架 长程推理能力 第7张

WebExplorer-8B在强化学习训练后能够平均高效搜索16轮,在BrowseComp-en/zh上实现了比WebSailor-72B更高的准确率,并在WebWalkerQA和FRAMES数据集上取得了小于100B参数模型中的最佳性能。

WebExplorer:革新网络搜索智能体性能的高质量数据构建方法 网络搜索智能体 训练数据质量 WebExplorer框架 长程推理能力 第8张

此外,尽管WebExplorer的问答对合成方法受BrowseComp-en启发,但该模型在不同基准测试和领域中都展现出有效的泛化能力。即使训练数据不专注于STEM领域,在学术前沿基准HLE上也取得了17.3%的成绩,超越了之前的32B模型,进一步验证了方法的稳健性和可转移性。

研究团队表示,WebExplorer方法为训练高级网络智能体提供了一条实用路径。证明了通过精心设计的数据合成方法和训练策略,较小模型可以在复杂任务上超越更大模型。这种参数效率对于AI技术在资源受限环境中的应用和部署具有重要意义。

网友评价:这种方法看起来极具前景。

WebExplorer:革新网络搜索智能体性能的高质量数据构建方法 网络搜索智能体 训练数据质量 WebExplorer框架 长程推理能力 第9张

您如何看待这一进展?

参考链接:https://x.com/WenhuChen/status/1965537550937792934

论文地址:https://arxiv.org/abs/2509.06501

Github:https://github.com/hkust-nlp/WebExplorer

模型:https://huggingface.co/hkust-nlp/WebExplorer-8B

数据集:https://huggingface.co/datasets/hkust-nlp/WebExplorer-QA