当前位置:首页 > 科技资讯 > 正文

Deep Research综述:从自主搜索到全栈AI科学家的演进与未来挑战

深度研究(Deep Research)推动人工智能(AI)系统跨越式发展,使其从单纯的“文本生成”能力跃升至“知识发现”层面,从而能够处理各种复杂的开放式任务。

现阶段,Deep Research已渗透至文本创作、科学研究、软件开发等诸多领域,助力用户轻松完成学术综述撰写、会议海报设计、PPT制作、科研课题构思、实验操作与论文写作,以及地球观测分析、软件库补全等多样化任务。

不过,Deep Research仍处于发展初期,业界尚未形成对其发展路线图、核心组件、实践方法、主要挑战与未来趋势的系统性梳理。

近日,山东大学、中国人民大学与清华大学的研究团队联合发布了一篇综述论文,全面回顾了Deep Research的演进历程与未来展望,为智能体(Agentic)研究范式奠定了理论基础。

Deep Research综述:从自主搜索到全栈AI科学家的演进与未来挑战 Research 人工智能 自主智能体 知识发现 第1张

论文链接:https://arxiv.org/abs/2512.02038

Deep Research的概念与发展阶段

Deep Research为大语言模型(LLM)提供了一个完整的研究工作流,使其能够以智能代理的形式,在极少人工介入的情况下生成逻辑连贯且来源可溯的研究报告。在具体实践中,Deep Research系统的LLM代理首先规划研究问题,随后从多种异构数据源中搜集并筛选相关信息,动态维护工作记忆,最终产出经过验证并清晰标注来源的答案。

研究者将Deep Research的能力演进划分为三个核心阶段,每个阶段均代表着能力的跃升。

第一阶段:自主搜索(Agentic Search)——聚焦于自动化信息搜寻,旨在精准定位可靠信源,生成简洁且引证清晰的答复,突出检索的精确度与高效性。

第二阶段:整合研究(Integrated Research)——能够将多方证据融合为条理清晰、结构完整的报告,妥善处理信息矛盾与不确定性,为长期任务与决策提供支撑。

第三阶段:全栈AI科学家(Full-stack AI Scientist)——不仅具备证据整合能力,还能自主提出假设、设计并执行实验、批判既有观点并开拓新思路,致力于实现科学发现的新颖性、深刻见解与可复现结论。

总体而言,这三个阶段完整勾勒出Deep Research系统从基础信息检索,到深度综合分析,最终迈向尖端科学研究的能力进化轨迹。

Deep Research的核心构成要素

Deep Research系统本质上是一个闭环工作流:它接受复杂问题作为输入,通过迭代式的分析、资料查阅与信息整合,最终以长篇报告或文档形式输出结构化答案。

该流程包含四个核心模块:查询规划(Query Planning)、知识检索(Knowledge Acquisition)、记忆管理(Memory Management)和答案生成(Answer Generation)。这四个模块循环往复,直至问题得到全面解答。

Deep Research综述:从自主搜索到全栈AI科学家的演进与未来挑战 Research 人工智能 自主智能体 知识发现 第2张

图示:Deep Research的四大核心模块

查询规划(Query Planning)

查询规划旨在将复杂问题拆解为一系列结构化、可执行的子任务。每个子任务均可逐步求解,通过这种分解策略,系统得以实现渐进式推理与信息收集,从而提高最终答案的精确度与可信度。

查询规划通常采用三种策略:其一,并行规划(parallel planning)将输入分解为相互独立的子任务,可同步求解;其二,顺序规划(sequential planning)按照线性次序排列子任务,每一步需依赖上一步的中间结果;其三,树状规划(tree-based planning)在分支决策空间中探索,通过过滤、回溯或启发式搜索从多条候选路径中择优选择。

Deep Research综述:从自主搜索到全栈AI科学家的演进与未来挑战 Research 人工智能 自主智能体 知识发现 第3张

图示:三种查询规划策略

知识检索(Knowledge Acquisition)

在Deep Research框架中,知识检索已超越传统的词汇匹配与密集文本搜索,演进为借助实时网络搜索引擎获取最新信息。多模态检索(multimodal retrieval)通过对视觉及结构化数据建模,拓展了检索范围,但同时也带来了计算开销增大、跨模态对齐困难及格式处理风险等挑战。

记忆管理(Memory Management)

记忆管理作为Deep Research系统的核心,负责调控系统在复杂、长期任务中上下文的动态生命周期,以确保任务解决过程中上下文的连贯性与相关性。

记忆管理包含四个环节:其一,整合(consolidation)将短期经验转化为持久化表示,为后续索引奠定基础;其二,索引(indexing)将这些表示组织为可高效检索的结构,便于问题求解过程中快速调用;其三,更新(updating)对已存储知识进行修正或优化;其四,遗忘(forgetting)有选择地剔除过时或无关内容,以减少噪声干扰。

Deep Research综述:从自主搜索到全栈AI科学家的演进与未来挑战 Research 人工智能 自主智能体 知识发现 第4张

图示:记忆管理的四个阶段

答案生成(Answer Generation)

答案生成是Deep Research系统的输出阶段。与常规文本生成相比,它面临多重挑战:需协调矛盾证据、维持长程一致性,并在输出中呈现透明的推理轨迹与准确的引用来源。

研究者将其划分为四个递进阶段:首先整合多元信息源;其次综合证据并维持逻辑自洽;然后构建推理骨架与叙事结构;最终拓展至跨模态生成的前沿应用。

Deep Research综述:从自主搜索到全栈AI科学家的演进与未来挑战 Research 人工智能 自主智能体 知识发现 第5张

图示:Deep Research答案生成过程

Deep Research面临的主要挑战

研究人员指出,Deep Research未来发展需应对以下几方面挑战:

检索时机(Retrieval Timing)

当前Deep Research系统过度依赖“答案正确性”来驱动搜索过程,缺少对检索时机的精细化判断,易导致检索过度或不足。此外,即便持续检索,模型在无法获取相关证据时仍可能强行作答,存在误导用户的风险。

记忆进化(Memory Evolution)

当前主流记忆架构(如文本块向量化存储)普遍采用扁平化存储范式,难以捕捉知识元素间的深层逻辑或关系结构,这一局限性从根本上制约了系统的复杂推理能力。

训练算法(Training Algorithms)

在Deep Research系统中,智能体需与环境进行多轮交互。尽管PPO、GRPO等强化学习算法在单轮场景下表现稳定,但扩展至多轮设置时往往出现不稳定性,表现为奖励逐步或骤降、生成无效响应,以及熵崩塌、梯度爆炸等问题。

评估体系(Evaluation Systems)

LLM-as-Judge(大模型作为评估者)已成为长文本生成评估的主流方法,但存在两大局限:一是偏差问题,评估者可能偏好更长答案或与其自身相似的生成系统,削弱评估协议的稳健性与公平性;二是效率问题,大规模成对比较成本高昂,尤其当依赖付费API及对长文本使用昂贵比较方法时,资源消耗急剧增加。

针对上述挑战,Deep Research需具备灵活适配不同底层模型、任务风格与用户偏好的能力,发展出更强的统一推理范式以兼容多种LLM。同时,需要构建标准化、泛化能力强的记忆系统,确保系统能准确存储、追踪并引用研究过程中发现的证据。此外,成熟的Deep Research系统还应具备通用、模块化、可扩展的框架,使其能够在不同环境与工具集之间自由切换。

总之,Deep Research正处在推动LLM从被动应答者向自主研究者转变的前沿,使其能够进行迭代推理、证据整合与可验证知识生成。

未来,研究者将持续推动Deep Research系统向更通用、更可靠、更具可解释性的智能体形态演进。