当前位置:首页 > 科技资讯 > 正文

突破性能瓶颈:WebExplorer重塑网络搜索智能体

网络搜索Agent表现不佳,即使数据充足,问题依旧?港科大&MiniMax团队揭示核心:不是参数多,而是训练数据缺乏挑战。

换言之,别只依赖死记硬背,多来点“实战”吧。他们推出了一种构建高质量QA对的方法WebExplorer

用此法构建的数据集训练,小模型也能在复杂、远程搜索任务上超越大模型。

突破性能瓶颈:WebExplorer重塑网络搜索智能体 WebExplorer 高质量训练数据 网络搜索智能体 模型效率 第1张

训练后的8B模型支持长达128K的上下文长度100次工具调用轮次的长期推理,能在小于10B参数的模型中取得顶尖结果。

用户反馈:相比传统图谱方法,模型驱动的探索让智能体的浏览行为更灵活。

突破性能瓶颈:WebExplorer重塑网络搜索智能体 WebExplorer 高质量训练数据 网络搜索智能体 模型效率 第2张

模型及数据集均已开源,详见文末链接。

优质训练数据稀缺

随着大语言模型(LLM)快速发展,智能体的能力边界不断扩展。网络搜索智能体作为重要一环,能自主检索在线资源;而长视野网络智能体更需跨网站复杂推理和搜索。

但现有开源网络智能体在复杂任务上表现有限,商业模型虽强却缺乏透明训练细节。港科大联合MiniMax团队提出,提升训练数据质量是开发高能力网络搜索智能体的关键。

当前评测基准已极为困难:如在BrowseComp-en基准测试中,超半数问题连人类标注者也无法在两小时解决。构建高质量、难题的QA对,对开发超性能信息搜索智能体至关重要。

针对此,研究团队提出新颖两阶段方法WebExplorer——

采用创新探索-演化框架,创建需多步推理和复杂网络导航的高难度QA对。

突破性能瓶颈:WebExplorer重塑网络搜索智能体 WebExplorer 高质量训练数据 网络搜索智能体 模型效率 第3张

框架第一阶段为模型驱动探索(Model-Based Exploration),让模型更自主灵活探索信息空间。从种子实体出发,系统利用强大LLM,通过迭代搜索和浏览模拟图构建。

此方法能灵活、动态探索与种子实体相关信息空间。基于此,模型构建初步QA对。初步QA对较简单,于是引入第二阶段的迭代查询演化(Iterative Query Evolution)。

此阶段通过系统移除明确线索和引入战略性模糊,提高查询难度。采用“从长到短”的演化策略,通过以下三个方向改进查询:

1. 移除显著信息:去掉明显提示

2. 引入战略性模糊化:模糊日期、地点和专有名词等

3. 寻找替代描述:用模糊描述符替换明确引用

例如,将“这位球员44岁时去世”模糊为“这位球员于中年去世”,需更多探索性搜索找到答案。

通过此探索-演化过程,研究团队构建了WebExplorer-QA数据集,含约4万个最终问答对。

突破性能瓶颈:WebExplorer重塑网络搜索智能体 WebExplorer 高质量训练数据 网络搜索智能体 模型效率 第4张

为验证数据质量,使用Claude-4-Sonnet模型进行比较分析。上图为工具调用次数分布比较,左为初始问答对vs演化问答对,右为演化问答对vs BrowseComp-en。

可见,演化过程有效增加了解决问题所需的工具调用次数。

演化效果显著:强性能商业模型的准确率从86.6%大幅降至67.1%,平均工具调用次数从7.9次增至9.9次。表明演化成功创建了需广泛多步推理和探索的复杂查询。

研究团队用WebExplorer-QA,结合监督微调+强化学习训练出8B大小的WebExplorer-8B。该模型在多个信息搜索基准测试中取得同等规模的最先进性能。