当前位置:首页 > 科技资讯 > 正文

DeepConf:基于置信度监控的大模型高效推理新范式

DeepConf由Meta AI与加州大学圣地亚哥分校的研究团队提出,其核心理念是在大模型推理过程中引入实时置信度监控机制。通过动态淘汰低置信度路径,并对高置信度路径进行加权投票,该方法在确保高准确率的同时大幅提升效率。在AIME 2025数学竞赛中,它首次让开源模型在不依赖外部工具的情况下达到99.9%的正确率,同时将生成token数量削减85%。

如何使模型在思考过程中更智能、更高效,并对自身答案更有把握?近期,Meta AI与加州大学圣地亚哥分校的研究团队给出了一个突破性答案——Deep Think with Confidence(DeepConf),即让模型进行自信的深度思考。

DeepConf:基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控 并行思考 推理效率 第1张

论文地址:https://arxiv.org/pdf/2508.15260

项目主页:https://jiaweizzhao.github.io/deepconf

这项创新方法通过并行思考与置信度筛选机制,使模型在国际顶尖数学竞赛AIME 2025上取得了高达99.9%的正确率。

这是首次利用开源模型在AIME 2025上实现99.9%的准确率,且无需任何外部工具辅助!

DeepConf:基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控 并行思考 推理效率 第2张

在保持高质量推理的同时,该方法将生成的token数量减少了84.7%。

DeepConf:基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控 并行思考 推理效率 第3张

DeepConf为并行思考带来了多项显著优势:

  • 性能提升:在各种模型与数据集上,准确率平均提高约10%
  • 效率优化:生成token数量大幅减少,最高可达85%
  • 即插即用:兼容任何现有模型,无需额外训练或超参数调整
  • 易于部署:在vLLM中仅需约50行代码即可集成

以DeepConf在HMMT 25(哈佛–麻省理工数学竞赛)第11题为例,展示其推理过程。

DeepConf:基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控 并行思考 推理效率 第4张

核心思想是通过置信度信号筛选推理路径,从而获得高质量答案,在效率与准确率之间达到最佳平衡。

  • 横轴(token index):表示模型生成的推理步骤(随token递增)。
  • 纵轴(confidence):表示每条推理路径在该步骤的置信度水平。
  • 绿色曲线:表示不同推理路径的置信度轨迹,颜色越深置信度越高。
  • 红色叉叉:低于置信度阈值的推理路径,被动态淘汰。
  • 绿色对勾:最终保留的高置信度路径。
  • 最终表决:这些路径通过基于置信度加权的多数表决,得出统一答案:29。

DeepConf在生成过程中持续监控推理路径的置信度,及时淘汰低置信度路径,只保留“更有把握”的路径,从而提升整体准确性。

DeepConf:基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控 并行思考 推理效率 第5张

通过准确率对比曲线可见,纵轴为accuracy(准确率),黄色曲线(DeepConf)明显高于蓝色曲线(标准方法),表明DeepConf在相同投票规模下能达到更高准确率。

下图横轴为token数量(推理计算成本),黄色曲线在保持较高准确率的同时,token消耗显著减少,表明DeepConf大幅削减无效token生成,推理效率更优。

DeepConf使模型不再“盲目思考”,而是高效遵循高置信度推理轨道。

DeepConf支持两种工作模式:

  • 离线模式:根据置信度筛选已完成推理路径,并按质量加权投票。
  • 在线模式:当置信度实时降至阈值以下时,立即停止生成。

DeepConf的核心机制是什么?

实际上,大模型在推理过程中能够感知自身的不确定性,但这一“思考过程”常被忽视。传统方法通常在生成完成后使用置信度或熵进行测试或强化学习,而DeepConf则不同,它在生成过程中实时捕捉推理错误。

DeepConf通过监控“局部置信度”,在错误推理路径消耗大量token前及时终止,仅保留高质量、高置信度的推理路径!

DeepConf:基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控 并行思考 推理效率 第6张

DeepConf如何实现“用置信度筛选、用置信度投票”?

该图展示了DeepConf在离线思考时的核心机制:首先评估推理路径的可信度,提前剔除不靠谱路径,再让可靠路径进行加权投票,从而获得更准确、高效的最终答案。

DeepConf:基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控 并行思考 推理效率 第7张

首先是每个token的确定程度。当模型生成推理步骤时,每个词(token)都对应一个“信心值”。若模型认为该步骤可靠,信心值高;若不确定,信心值则低。图中用深浅绿色和红色标示:绿色表示更自信,红色表示不自信。

其次,关注整体趋势。DeepConf不仅看单个token,还通过滑动窗口评估一小段话的平均信心值,以衡量整体可靠性。它重点关注结尾部分的信心值,因为最终答案往往取决于结论。同时,它会记录推理链中最差的一步,若中间出现明显错误,该路径将被视为不可靠。这样,每条推理链都会获得一个综合“置信度分数”。

最后,先淘汰后投票。当模型并行生成多条推理路径时:第一步是过滤,将置信度分数排序,淘汰最差的10%路径;第二步是投票,在剩余路径中按置信度加权投票,高置信度路径的意见权重更大。最终,如图右侧所示,多条路径可能提出不同答案,但由于支持某一答案的路径更多且置信度更高,系统会选出该答案(如109)。

DeepConf:基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控 并行思考 推理效率 第8张

性能突破99.9%,超越GPT-5

离线模式结果:在AIME 2025上达到99.9%准确率(基线为97%)。在5个模型×5个数据集上实现普适性提升,所有设置下准确率平均提高约10%。

DeepConf:基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控 并行思考 推理效率 第9张

在线模式结果:在所有基准测试中节省33%-85%的token。在AIME 2025测试中,使用GPT-OSS-120B模型,在减少85% token消耗下仍保持97.9%准确率。该方法适用于8B到120B的各种开源模型,在不牺牲质量的前提下实现实时高效。

DeepConf:基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控 并行思考 推理效率 第10张

离线环境中置信度度量的基准测试。报告数值为准确率(%)。Cons@512和mean@512分别表示使用512条推理轨迹的多数投票结果和平均置信度均值。所有实验重复64次。

DeepConf:基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控 并行思考 推理效率 第11张

在线环境中DeepConf的基准测试。在投票规模预算为512的条件下,报告多数投票方法与DeepConf(高/低)的准确率(%)及生成token数量(×10⁸)。

DeepConf:基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控 并行思考 推理效率 第12张

置信度驱动的深度思考策略

研究团队深入探索如何巧妙利用“置信度”,使模型既提高准确性又加快推理速度。具体分为两个应用场景:

  • 离线思考:待模型生成完整推理路径后,评估每条路径的置信度,聚合可靠结果以最大化答案准确性。
  • 在线思考:在模型逐步推理过程中实时参考置信度,及时终止不靠谱思路,避免算力浪费,从而提升效率甚至精度。

离线思考模式

在离线思考模式下,所有推理路径均已生成。核心挑战是如何聚合多条路径信息以确定最终答案。研究人员采用标准多数投票方法:

  • 多数投票(Majority Voting):每条路径的最终答案贡献均等。设T为所有路径集合,对于路径t∈T,answer(t)为提取的答案文本,则候选答案a的票数为路径数。

DeepConf:基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控 并行思考 推理效率 第13张

  • 置信度加权多数投票:依据路径关联置信度为每个最终答案赋予权重。候选答案a的总投票权被重定义为置信度加权和。

DeepConf:基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控 并行思考 推理效率 第14张

  • 置信度过滤:在加权多数投票基础上,通过置信度分数筛选出前η%的路径,确保只有最可靠路径参与决策。选择前10%专注于高置信度少数路径,但可能受模型偏见影响;选择前90%纳入更广泛路径,保持多样性且更稳健。

图3阐释了各种置信度度量方法及基于置信度的离线思考工作原理。

DeepConf:基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控 并行思考 推理效率 第15张

算法1提供了该算法的详细实现。

DeepConf:基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控 并行思考 推理效率 第16张

在线思考模式

在线思考模式通过在生成过程中实时评估推理路径质量,动态终止低质量路径,确保其在后续过滤阶段被排除。研究人员提出两种基于最低分组置信度的方法:DeepConf-low和DeepConf-high,包含离线预热与自适应采样两大核心组件。

  • 离线预热(Offline Warmup):为在线决策建立停止阈值s。对于每个新提示词,首先生成Ninit条推理路径(如Ninit=16)。停止阈值s定义为能够筛选出置信度排序前η%路径的最低门槛。DeepConf-low采用前η=10%策略,DeepConf-high采用前η=90%策略。在线生成中,一旦路径置信度低于s,生成即被终止。

DeepConf:基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控 并行思考 推理效率 第17张

  • 自适应采样(Adaptive Sampling):根据问题难度动态调整生成路径数量。难度通过已生成路径的一致性评估,量化方式为多数投票权重与总投票权重的比值β。若β<τ,表明模型未达成共识,继续生成路径;反之则停止生成,利用现有路径确定答案。

DeepConf:基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控 并行思考 推理效率 第18张

图4阐释了在线生成过程。

DeepConf:基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控 并行思考 推理效率 第19张

算法2提供了该算法的详细实现。

DeepConf:基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控 并行思考 推理效率 第20张

以“勾股三元组计数”问题为例,DeepConf在生成推理时判断思路可靠性:靠谱则继续,不靠谱则尽早停止,以节省token并提高准确性。过程分为两个阶段:先通过离线预热确定阈值s,再在线筛选。离线阶段运行几条完整推理轨迹,计算整体置信度分数,并设定停止阈值s;在线阶段并行展开多条思路,滚动评估最近片段的可靠度,若置信度低于s则触发早停。例如,左下绿曲线表示模型对正经数学推理(如“勾股三元组公式…”)有把握,被保留;右下红曲线表示模型犹豫(如“让我再想想…”),被判为低置信度而终止。

DeepConf:基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控 并行思考 推理效率 第21张

作者介绍

Yichao Fu

DeepConf:基于置信度监控的大模型高效推理新范式 DeepConf 置信度监控 并行思考 推理效率 第22张

论文一作Yichao Fu是加州大学圣地亚哥分校计算机科学与工程系博士生,师从张昊教授(Hao AI Lab负责人)。他此前在浙江大学获得计算机科学学士学位,研究方向包括分布式系统、机器学习系统及高效机器学习算法,近期专注于为大语言模型推理过程设计优化算法与系统。他参与的项目包括Lookahead Decoding、vllm-ltr和Dynasor。

参考资料

https://jiaweizzhao.github.io/deepconf/

https://huggingface.co/papers/2508.15260

https://x.com/jiawzhao/status/1958982524333678877