当前位置:首页 > 科技资讯 > 正文

前DeepMind团队创立的Poetiq用元系统让Gemini 3 Pro登顶ARC-AGI-2,成本降低一半

由六位前DeepMind精英组成的团队,通过元系统重新定义了大模型调用模式。他们开发的Gemini 3 Pro优化方案在ARC-AGI-2评测中以54%的高分登顶,且成本仅为之前最佳方案的一半。

近日,六位曾任职于Google DeepMind的研究员与工程师再次引起业界瞩目。

他们新成立的初创企业Poetiq,并未选择研发更庞大的模型,而是构建了一套元系统,能够使尖端大模型自主生成针对具体任务的解决策略与模型搭配方案。

此举不仅攻克了前沿模型在处理复杂现实问题时孤立无援的难题,还将整体推理开销削减了50%。

12月8日,ARC Prize官方正式确认了该团队的成就。

前DeepMind团队创立的Poetiq用元系统让Gemini 3 Pro登顶ARC-AGI-2,成本降低一半 元系统 大模型 ARC-AGI 成本优化 第1张

Poetiq推出的Gemini 3 Pro优化技术在ARC-AGI-2排行榜上刷新了最佳成绩,准确率高达54%,且每个任务的算力消耗仅需31美元。

这一进展显著超越了先前的所有模型表现,在榜单上独占鳌头。

深度剖析Poetiq团队

前DeepMind团队创立的Poetiq用元系统让Gemini 3 Pro登顶ARC-AGI-2,成本降低一半 元系统 大模型 ARC-AGI 成本优化 第2张

Poetiq创始成员全部出身于Google DeepMind

Poetiq是一支精英荟萃、技术实力雄厚的团队,由六位来自Google DeepMind的研究员和工程师构成。

这支创始团队累计拥有53年的行业经验,他们在Poetiq的使命是“通过更高效的推理,开辟通往安全超级智能的最快捷径”。

前DeepMind团队创立的Poetiq用元系统让Gemini 3 Pro登顶ARC-AGI-2,成本降低一半 元系统 大模型 ARC-AGI 成本优化 第3张

12月5日,这家成立不足一年的企业骄傲地宣告:

“Poetiq系统已经将现有方法远远甩在身后,并确立了全新的行业标杆。”

前DeepMind团队创立的Poetiq用元系统让Gemini 3 Pro登顶ARC-AGI-2,成本降低一半 元系统 大模型 ARC-AGI 成本优化 第4张

如图所示,Poetiq系统在ARC-AGI-2半私有评估集中刷新了历史记录。

11月20日,Poetiq率先披露了其在ARC-AGI-2上的优异表现,如今ARC Prize对其公布的结果进行了官方核验。

前DeepMind团队创立的Poetiq用元系统让Gemini 3 Pro登顶ARC-AGI-2,成本降低一半 元系统 大模型 ARC-AGI 成本优化 第5张

Poetiq研发的一套纯Gemini方案参与了ARC Prize的官方测评。

该系统以每道题30.57美元的开销实现了54%的准确率,刷新了此前Gemini 3 Deep Think保持的每道题77.16美元、45%的最佳纪录。

Poetiq团队称,在ARC-AGI-2公开数据集中,Poetiq系统构筑了全新的帕累托前沿,不仅超越了既往成就,还进一步拓展了成本效益推理的极限。

Poetiq团队将此佳绩归功于其元系统。

元系统:在任何模型上搭建智能

Poetiq的核心理念是在任何模型基础上构筑智能。

其元系统旨在借助任何现成的尖端模型,自动生成能应对特定任务的完整体系,既无需自研也无需微调大型前沿模型。

这正是Poetiq能在Gemini 3与GPT-5.1发布后短短数小时内,便迅速集成并取得顶尖表现的原因所在。

前DeepMind团队创立的Poetiq用元系统让Gemini 3 Pro登顶ARC-AGI-2,成本降低一半 元系统 大模型 ARC-AGI 成本优化 第6张

前DeepMind团队创立的Poetiq用元系统让Gemini 3 Pro登顶ARC-AGI-2,成本降低一半 元系统 大模型 ARC-AGI 成本优化 第7张

如图所示,Poetiq元系统在ARC-AGI-1和ARC-AGI-2上不仅全方位超越了历史成绩,也再度将低成本推理的边界向前推进。

  • 相较之下,Gemini 3 Deep Think(预览版)成本显著偏高,而准确率却不及。Poetiq(Gemini-3-a、b、c)则展示了如何借助多个大语言模型,在任何预算约束下实现性能最大化。
  • Poetiq系统通过多次调用Gemini-3,以编程方式处理ARC-AGI-1和ARC-AGI-2的问题,从而在广泛的计算范围内达成帕累托最优。
  • Poetiq(Grok-4-Fast)主打极致成本效益,基于Grok-4-Fast Reasoning模型构建。不仅比原模型报告的结果更经济、准确率更高,还能达到与价格高出两个数量级的模型相媲美的准确度。
  • Poetiq(GPT-OSS-b)基于开源权重模型GPT-OSS-120B,在单题成本不足1美分的情况下,依然取得了令人瞩目的准确率。
  • Poetiq(GPT-OSS-a)基于GPT-OSS-120B的低推理版本,用于展示极限成本下的系统表现。

上述方案虽可各自独立运行,但它们共享的底层则是Poetiq灵活的元系统。

该元系统的核心优势之一在于能够自动选择模型组合与策略,甚至能自主判断何时需要编写代码、以及应由哪个模型来承担编码任务。

Poetiq的迭代、自我进化系统完全不依赖特定大模型,在集成最新模型时也能充分发挥其潜力。

运用Poetiq元系统赋能主流模型

为更充分展现Poetiq元系统的能力,研究团队将其应用于多个来自Google DeepMind、OpenAI、Anthropic和xAI的最新型号上。

每一次应用,Poetiq都达成了“更高准确率+更低成本”的完美组合。

前DeepMind团队创立的Poetiq用元系统让Gemini 3 Pro登顶ARC-AGI-2,成本降低一半 元系统 大模型 ARC-AGI 成本优化 第8张

前DeepMind团队创立的Poetiq用元系统让Gemini 3 Pro登顶ARC-AGI-2,成本降低一半 元系统 大模型 ARC-AGI 成本优化 第9张

上图中展示了12款模型(涵盖ChatGPT、Claude Haiku、Gemini、Grok 4、GPT-OSS)在ARC-AGI-1上经Poetiq处理后的表现。

Poetiq是如何实现这一点的?其核心方法可以概括为一句话:

自顶向下,完全仰仗大语言模型。

Poetiq利用大模型来构建系统、优化系统,并驱动系统自身运转。

正是这种灵活、强大且迭代的系统架构,使Poetiq能够迅速斩获这一系列顶尖成果。

Poetiq公开了部分具体配置,旨在阐释两个核心理念:

提示词仅为交互接口,并非智能本质

系统采用循环式解题流程:它并非仅提问一次,而是先让大模型生成一个候选答案(有时包含代码),随后根据反馈进行分析,并继续借助模型优化答案。

这种多步骤、自我完善的机制,使得系统能够逐步构建并雕琢出最终答案。

自主校验

系统会自动检查自身进展,判断何时信息充足、结果可信,进而自动终止流程。

这种自我监控机制能有效防止算力浪费,从而降低整体开销。

为何选中ARC-AGI?

Poetiq认为ARC-AGI是验证其核心理念的理想试验场。

大模型虽蕴含丰富的人类知识,但在复杂推理任务中常表现出不稳定性。

原因之一在于模型表现高度依赖提示词,而提示词的随机性会导致知识提取不够可靠,进而使推理步骤难以预测。

真正的挑战在于:如何找到一种推理策略,既能准确提取所需信息,又能在获取信息后有效整合,并智能决策下一步行动。

Poetiq的核心目标,正是让这一过程实现自动化并持续优化。

Poetiq构建的系统并不预设推理策略,而是让模型自主探索最合适的推理路径,并在现实约束(预算、令牌或算力)下运作。

这将充分释放生成式AI在复杂推理领域的真正潜能。

Poetiq系统能迅速适配任务特性与模型特性,而ARC-AGI评估的正是模型的抽象推理、归纳、逻辑与策略生成能力,这与Poetiq系统的优势高度契合。

为使Poetiq元系统能在每次解决新任务中持续演进,任务的多样性至关重要。

为此,Poetiq团队正致力于让系统挑战更多基准任务,覆盖多种推理与检索需求。

此外,Poetiq系统的一大优势在于擅长与其他系统协同工作。

该系统可用于优化现有大型系统中的AI组件。

若能在不改动模型本身的前提下,借助前沿模型丰富的世界知识解决长时序任务,若能令底层知识提取机制更贴合大模型,或许便无需进行模型微调——这正是Poetiq下一步的研究方向之一。

参考来源:

https://poetiq.ai/posts/arcagi_verified/%20

https://x.com/arcprize/status/1997743855203148038?s=20