当前位置：首页 > 科技资讯 > 正文

突破性能瓶颈：WebExplorer重塑网络搜索智能体

网络搜索Agent表现不佳，即使数据充足，问题依旧？港科大&MiniMax团队揭示核心：不是参数多，而是训练数据缺乏挑战。

换言之，别只依赖死记硬背，多来点“实战”吧。他们推出了一种构建高质量QA对的方法WebExplorer。

用此法构建的数据集训练，小模型也能在复杂、远程搜索任务上超越大模型。

突破性能瓶颈：WebExplorer重塑网络搜索智能体 WebExplorer 高质量训练数据网络搜索智能体模型效率第1张

训练后的8B模型支持长达128K的上下文长度和100次工具调用轮次的长期推理，能在小于10B参数的模型中取得顶尖结果。

用户反馈：相比传统图谱方法，模型驱动的探索让智能体的浏览行为更灵活。

突破性能瓶颈：WebExplorer重塑网络搜索智能体 WebExplorer 高质量训练数据网络搜索智能体模型效率第2张

模型及数据集均已开源，详见文末链接。

优质训练数据稀缺

随着大语言模型（LLM）快速发展，智能体的能力边界不断扩展。网络搜索智能体作为重要一环，能自主检索在线资源；而长视野网络智能体更需跨网站复杂推理和搜索。

但现有开源网络智能体在复杂任务上表现有限，商业模型虽强却缺乏透明训练细节。港科大联合MiniMax团队提出，提升训练数据质量是开发高能力网络搜索智能体的关键。

当前评测基准已极为困难：如在BrowseComp-en基准测试中，超半数问题连人类标注者也无法在两小时解决。构建高质量、难题的QA对，对开发超性能信息搜索智能体至关重要。

针对此，研究团队提出新颖两阶段方法WebExplorer——

采用创新探索-演化框架，创建需多步推理和复杂网络导航的高难度QA对。

突破性能瓶颈：WebExplorer重塑网络搜索智能体 WebExplorer 高质量训练数据网络搜索智能体模型效率第3张

框架第一阶段为模型驱动探索(Model-Based Exploration)，让模型更自主灵活探索信息空间。从种子实体出发，系统利用强大LLM，通过迭代搜索和浏览模拟图构建。

此方法能灵活、动态探索与种子实体相关信息空间。基于此，模型构建初步QA对。初步QA对较简单，于是引入第二阶段的迭代查询演化(Iterative Query Evolution)。

此阶段通过系统移除明确线索和引入战略性模糊，提高查询难度。采用“从长到短”的演化策略，通过以下三个方向改进查询：

1. 移除显著信息：去掉明显提示

2. 引入战略性模糊化：模糊日期、地点和专有名词等

3. 寻找替代描述：用模糊描述符替换明确引用

例如，将“这位球员44岁时去世”模糊为“这位球员于中年去世”，需更多探索性搜索找到答案。

通过此探索-演化过程，研究团队构建了WebExplorer-QA数据集，含约4万个最终问答对。

突破性能瓶颈：WebExplorer重塑网络搜索智能体 WebExplorer 高质量训练数据网络搜索智能体模型效率第4张

为验证数据质量，使用Claude-4-Sonnet模型进行比较分析。上图为工具调用次数分布比较，左为初始问答对vs演化问答对，右为演化问答对vs BrowseComp-en。

可见，演化过程有效增加了解决问题所需的工具调用次数。

演化效果显著：强性能商业模型的准确率从86.6%大幅降至67.1%，平均工具调用次数从7.9次增至9.9次。表明演化成功创建了需广泛多步推理和探索的复杂查询。

研究团队用WebExplorer-QA，结合监督微调+强化学习训练出8B大小的WebExplorer-8B。该模型在多个信息搜索基准测试中取得同等规模的最先进性能。

本文由主机测评网于2026-04-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260441272.html