面对大模型算力消耗巨大的挑战,英伟达最新推出的80亿参数模型Orchestrator扮演了「智能调度者」角色,通过高效组合工具实现成本降低与性能提升,仅用30%预算就在HLE基准测试中取得37.1%的优异成绩。
近期,NVIDIA Research的研究发现,经过适当微调,小模型已能有效「指挥」大模型完成复杂任务。
英伟达研究团队的新模型Orchestrator仅拥有80亿参数,不仅比以往的工具使用类AI智能体准确率更高、成本更低,还能在工具选择上精准匹配用户偏好。
在HLE基准测试中,Orchestrator获得了37.1%的高分,超越了GPT-5的35.1%,同时效率提升了2.5倍。
在tau2-Bench和FRAMES测试中,Orchestrator同样以显著优势领先GPT-5,而成本仅为后者的30%左右。
在多项指标上,Orchestrator均实现了性能与成本的最佳平衡,并能出色泛化到未见过的工具中。
预印本链接:https://arxiv.org/abs/2511.21689
面对Humanity’s Last Exam(HLE)这类超难综合推理考试,当前大模型虽然「知识面广」,但在深度推理和成本控制上显得吃力。
仅依赖单一大型模型(如GPT-5)调用搜索、代码解释器等基础工具,很难同时实现高精度、低成本和强可控性。
为了节约成本,业界首先想到的是:并非所有任务都需最强模型处理,引入「调度者」分配任务。
但实际使用主流大模型作为调度者时,结果却颇具讽刺:
当GPT-5担任调度时,98%的请求仍返回给GPT-5或GPT-5-mini;
换成Qwen3-8B调度时,当不确定时,73%的任务直接推给GPT-5。
换言之:我们原以为创建了「调度者」,实则只是增加了一个「任务转接的前台」。
使用不同模型作为调度者后,分配给各模型的任务分布
类比而言:以往的大模型如同高端餐厅,依赖「米其林主厨」(GPT-5)全程亲力亲为——从火候控制到摆盘装饰,一人包办。
结果如何?由于每个token成本高昂,总成本急剧上升。
而英伟达新推出的「拼好饭」模式类似中央厨房,一位精明的「调度店长」(8B小模型Orchestrator)坐镇中心,店长不亲自下厨,而是:
指派街边「川菜小馆」(Qwen-Math-7B)烹制回锅肉(解决数学题);
聘请「粤式点心师傅」(Coder-32B)蒸制虾饺(编写代码);
遇到难题时?邀请米其林主厨(GPT-5)品尝定调。
Orchestrator系统架构示意图
其中用于调度的8B小模型Orchestrator,通过强化学习训练,根据用户声明偏好,系统自动倾向本地部署模型。
训练过程中的奖励函数包括三部分:
1. 结果准确性:即是否答对,答对得+1分,否则0分;由GPT-5评判;
2. 效率:涉及金钱成本和时间延迟;
3. 对齐用户工具偏好向量。
三者结合构成强化学习的目标函数,最终训练出懂得权衡、听从指挥、节约成本的Orchestrator。
Orchestrator还具备类人的分步求解机制:
通过思维链(COT),Orchestrator分析当前状态,规划下一步的结构化工具调用;
随后,通过环境执行(如数学推导、代码执行输出)并返回结果;
如此多轮循环,是Orchestrator的另一创新。
为支持强化学习训练,该研究还构建了ToolScale数据集。
作为首个大规模、可验证的多轮工具调用合成数据集:ToolScale利用大模型自动构建10个领域(金融、医疗、航空等)的模拟环境(包含数据库和工具API),进而生成43万条含人工标记最佳工具调用轨迹的任务。
ToolScale数据合成流程概述
每条任务需满足三重验证:
在三大高难度基准测试中,Orchestrator-8B全面超越现有方法且显著降低推理成本:
在HLE(人类终极考试)中取得37.1%准确率(对比GPT-5的35.1%),成本仅9.2美分(为GPT-5的30%);
在τ2-Bench(函数调用严格测试)上达到80.2%正确率,仅约40%的步骤调用GPT-5;
在FRAMES(事实性推理)中得分76.3%(对比SOTA的74.2%),延迟降至8.2分钟(为GPT-5的41%)。
Orchestrator调度后模型性能与成本对比
相较于强大的单体大语言模型系统,Orchestrator实现了最佳成本效益:
进一步分析显示,其卓越性能源于理性分工能力:
Orchestrator会按需调用本地检索、Math-7B、Qwen-32B等低成本工具,仅在关键步骤调用GPT-5(平均1.95次/题);
若由GPT-5进行调度,解决一题平均需调用5.23次GPT-5-mini。
通过调用低成本模型处理非复杂问题,是Orchestrator降本增效的核心。
Orchestrator调用不同工具的比例对比
Orchestrator还表现出极强的泛化能力:面对训练未见的模型(如Gemma-3-27B、Codestral-22B)或新定价策略(DeepInfra),性能仅轻微波动,证明其学会的是工具能力抽象与成本-效益权衡的通用策略,而非过拟合特定配置。
同时在满足用户偏好方面,Orchestrator的表现优于其他大模型,这证实了其具备可定制、可约束、可解释的工具调度能力。
近年来,AI领域一直遵循同一叙事:先构建一个尽可能大的通用大脑,再通过提示词和少量样本,将其临时「装扮」成翻译、写作、编程等各类专家。
但随着研究深入,这一叙事逐渐动摇:
越来越多由多个模型和工具协同工作的「复合AI系统」,在安全性、速度和成本上均优于单一大模型,甚至在能力上实现反超。
总结而言,面对大模型的高成本与高能耗挑战,Orchestrator通过将「决策权」与「执行权」分离,不再依赖单一超级模型,而是开辟了一条通往高效、可控、可扩展实用化AGI系统的新途径。
ToolOrchestra标志着向构建真正智能复合AI系统迈出了第一步,代表了一种正兴起、旨在取代单一AI架构的新范式。
小语言模型终将成为实现可扩展智能体AI的核心关键。
参考资料:
https://arxiv.org/abs/2511.21689
https://developer.nvidia.com/blog/train-small-orchestration-agents-to-solve-big-problems/
https://research.nvidia.com/labs/lpr/ToolOrchestra/
本文由主机测评网于2026-02-08发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260223791.html