当前位置：首页 > 科技资讯 > 正文

WebExplorer：革新网络搜索智能体性能的高质量数据构建方法

主机测评网
科技资讯
2025-12-31
490

当前网络搜索智能体的表现时常不尽如人意，即便投入海量数据进行训练，性能提升仍有限。香港科技大学与MiniMax团队指出症结所在：并非模型参数不足，而是缺乏具有足够挑战性的训练数据。

换言之，单纯记忆已不够用，智能体需要应对更贴近实际的“真题”考验。为此，他们提出了名为WebExplorer的高质量问答对构建方法。

利用该方法生成的数据集进行训练，即便是较小规模的模型，也能在复杂、长程的搜索任务中超越参数量更大的模型。

WebExplorer：革新网络搜索智能体性能的高质量数据构建方法网络搜索智能体训练数据质量 WebExplorer框架长程推理能力第1张

训练后的8B模型支持高达128K的上下文长度和100次工具调用轮次的长期推理，在参数量低于10B的模型中取得了领先成果。

行业观察者评价：这种模型驱动的探索方式，相较于传统图谱方法，能显著增强智能体浏览行为的灵活性。

WebExplorer：革新网络搜索智能体性能的高质量数据构建方法网络搜索智能体训练数据质量 WebExplorer框架长程推理能力第2张

模型及相关数据集均已开源，详细链接见文末。

优质训练数据的稀缺挑战

随着大语言模型的快速发展，智能体的能力边界不断扩展。网络搜索智能体作为重要组成部分，能够自主从广泛的在线资源中检索信息；长视野网络智能体则需要在多个网站间进行复杂的推理与搜索。

然而，现有开源网络智能体在处理复杂搜索任务时能力有限，而更强大的商业模型又缺乏透明的训练细节。

研究团队强调，开发高性能网络搜索智能体的关键在于提升训练数据质量。当前的评测基准已发展至极其困难的水平：例如，在BrowseComp-en基准测试中，超过一半的问题连人类标注者都无法在两小时内解决。虽然这类难题在日常应用中较少见，但构建高质量、高难度的问答对，对于实现超越人类水平的信息搜索智能体至关重要。

不过，现有常见方法存在局限性，可能导致查询表达不自然且合成灵活性不足。

WebExplorer：革新网络搜索智能体性能的高质量数据构建方法网络搜索智能体训练数据质量 WebExplorer框架长程推理能力第3张

针对上述问题，研究团队提出了创新的两阶段方法WebExplorer——采用探索-演化框架，创建需要多步推理和复杂网络导航的高难度问答对。

WebExplorer：革新网络搜索智能体性能的高质量数据构建方法网络搜索智能体训练数据质量 WebExplorer框架长程推理能力第4张

该框架的第一阶段是模型驱动的探索，使模型能更自主灵活地探索信息空间。具体来说，从种子实体开始，系统利用强大的语言模型，通过迭代搜索和浏览操作模拟图构建过程。这种方法能够动态探索与种子实体相关的信息空间，并在此基础上构建初步问答对。

由于初步问答对相对简单，WebExplorer引入了第二阶段的迭代查询演化过程。这一阶段通过系统移除明确线索并引入战略性模糊化，来提升查询难度。

WebExplorer：革新网络搜索智能体性能的高质量数据构建方法网络搜索智能体训练数据质量 WebExplorer框架长程推理能力第5张

简而言之，该方法采用“从长到短”的演化策略，通过以下三个方向优化查询：

1、移除显著信息：去掉过于明显的提示；

2、引入战略性模糊化：对日期、地点和专有名词等具体细节进行模糊处理；

3、寻找替代描述：用模糊的描述符替换原始的明确引用。

例如，一个初始查询如“这位球员44岁时去世”，经演化后变为模糊描述“这位球员于中年去世”，需要更多探索性搜索才能找到正确答案。

通过这个探索-演化过程，研究团队构建了WebExplorer-QA数据集，包含约4万个演化后的最终问答对。

WebExplorer：革新网络搜索智能体性能的高质量数据构建方法网络搜索智能体训练数据质量 WebExplorer框架长程推理能力第6张

为验证数据质量，他们使用Claude-4-Sonnet模型进行了全面比较分析。上图为工具调用次数分布的比较：左边显示初始问答对与演化问答对，右边显示演化问答对与BrowseComp-en。可见，演化过程有效增加了解决问题所需的工具调用次数。

演化效果显著：强性能商业模型的准确率从86.6%大幅下降至67.1%，而平均工具调用次数从7.9次显著增加至9.9次。这表明演化过程成功创建了需要广泛多步推理和探索的复杂查询。

研究团队使用WebExplorer-QA数据集，通过监督微调加强化学习的经典训练方法，训练出8B规模的WebExplorer-8B。该模型在多个信息搜索基准测试中取得了同等规模下的最先进性能。

数据质量优于模型规模

WebExplorer-8B基于Qwen3-8B模型训练，实现了支持128K上下文长度和100次工具调用的长视野推理。

尽管只有8B参数，WebExplorer-8B在多个基准测试中持续超越了更大的开源模型。

WebExplorer：革新网络搜索智能体性能的高质量数据构建方法网络搜索智能体训练数据质量 WebExplorer框架长程推理能力第7张

WebExplorer-8B在强化学习训练后能够平均高效搜索16轮，在BrowseComp-en/zh上实现了比WebSailor-72B更高的准确率，并在WebWalkerQA和FRAMES数据集上取得了小于100B参数模型中的最佳性能。

WebExplorer：革新网络搜索智能体性能的高质量数据构建方法网络搜索智能体训练数据质量 WebExplorer框架长程推理能力第8张

此外，尽管WebExplorer的问答对合成方法受BrowseComp-en启发，但该模型在不同基准测试和领域中都展现出有效的泛化能力。即使训练数据不专注于STEM领域，在学术前沿基准HLE上也取得了17.3%的成绩，超越了之前的32B模型，进一步验证了方法的稳健性和可转移性。

研究团队表示，WebExplorer方法为训练高级网络智能体提供了一条实用路径。证明了通过精心设计的数据合成方法和训练策略，较小模型可以在复杂任务上超越更大模型。这种参数效率对于AI技术在资源受限环境中的应用和部署具有重要意义。

网友评价：这种方法看起来极具前景。

WebExplorer：革新网络搜索智能体性能的高质量数据构建方法网络搜索智能体训练数据质量 WebExplorer框架长程推理能力第9张

您如何看待这一进展？

参考链接：https://x.com/WenhuChen/status/1965537550937792934

论文地址：https://arxiv.org/abs/2509.06501

Github：https://github.com/hkust-nlp/WebExplorer

模型：https://huggingface.co/hkust-nlp/WebExplorer-8B

数据集：https://huggingface.co/datasets/hkust-nlp/WebExplorer-QA

免费vps 高防服务器免费服务器

本文由主机测评网于2025-12-31发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20251214060.html

WebExplorer：革新网络搜索智能体性能的高质量数据构建方法

优质训练数据的稀缺挑战

数据质量优于模型规模

影石创新与大疆全面对垒：多条产品线硬碰硬，市场竞争升级

苹果iPhone Air因eSIM设计延迟在华上市，运营商等待审批

WebExplorer：革新网络搜索智能体性能的高质量数据构建方法

优质训练数据的稀缺挑战

数据质量优于模型规模

影石创新与大疆全面对垒：多条产品线硬碰硬，市场竞争升级

苹果iPhone Air因eSIM设计延迟在华上市，运营商等待审批

相关文章