当前位置:首页 > 科技资讯 > 正文

Gemini 3 Flash逆袭Pro:谷歌揭秘‘蒸馏’战略,帕累托前沿反转

倒反天罡!Gemini 3 Flash以惊艳表现颠覆了传统认知。

在权威的软件工程测试SWE-Bench Verified中,Gemini 3 Flash一举斩获78%的高分,不仅超越了上一代旗舰,更以微弱优势反超了自家超大杯Pro版本。

Gemini 3 Flash逆袭Pro:谷歌揭秘‘蒸馏’战略,帕累托前沿反转 Flash 模型蒸馏 帕累托前沿 Scaling Law 第1张

更令人惊叹的是,Flash在保持卓越性能的同时,其响应速度和成本效益也令Pro版难以企及,真正实现了“又快又好”。

谷歌团队解释,Flash版中集成了多项尚未在Pro中部署的优化技术,这或许是造成性能反差的直接原因。

网友们纷纷表示,Flash的表现标志着帕累托前沿的戏剧性反转,是时候抛弃对“旗舰版”的盲目崇拜了。

Gemini 3 Flash逆袭Pro:谷歌揭秘‘蒸馏’战略,帕累托前沿反转 Flash 模型蒸馏 帕累托前沿 Scaling Law 第2张

Flash表现超越Pro

根据谷歌最新披露的详细评测数据,Gemini 3 Flash不仅在智能程度上全面超越前代Gemini 2.5 Pro,更在编程能力和多模态推理等核心维度上,直接反超了自家旗舰Gemini 3 Pro以及竞品GPT-5.2,展现出惊人的实力。

具体而言,在SWE-Bench Verified测试中,Flash以78%的得分碾压前代,并略胜旗舰Pro的76.2%,证明了其在软件工程领域的卓越能力。

在AIME 2025数学竞赛中,Flash结合代码执行能力,得分高达99.7%,几近满分,展现了其强大的数学推理能力。

即便是在号称“人类最后考试”的极难测试Humanity’s Last Exam中,Flash在不使用工具的情况下获得33.7%的分数,与Pro版的37.5%同属一个梯队,显示出其扎实的基础能力。

Gemini 3 Flash逆袭Pro:谷歌揭秘‘蒸馏’战略,帕累托前沿反转 Flash 模型蒸馏 帕累托前沿 Scaling Law 第3张

除了硬核的智能指标,Flash的响应速度与成本也极具优势。

数据显示,Flash的推理速度是前代2.5 Pro的3倍,Token消耗减少30%,价格极具竞争力:输入每百万Token仅0.50美元,输出每百万Token 3美元。

尽管价格略高于上一代轻量版Gemini 2.5 Flash(每百万输入0.3美元/输出2.5美元),但综合性能提升,性价比依然突出。

如果轻量版已经如此强大,甚至在关键指标上实现了反超,那么“超大杯”存在的意义究竟是什么?

对此,谷歌核心团队给出了出人意料的答案:这并非偶然,而是其顶层设计的核心策略。

“Pro的作用就是蒸馏Flash”

近日,Gemini三位负责人Oriol Vinyals、Jeff Dean、Noam Shazeer及产品负责人Logan Kilpatrick同台,正式揭示了背后的战略逻辑。

Gemini 3 Flash逆袭Pro:谷歌揭秘‘蒸馏’战略,帕累托前沿反转 Flash 模型蒸馏 帕累托前沿 Scaling Law 第4张

Oriol Vinyals直言,Pro模型的主要作用就是用来“蒸馏”出Flash,这一观点令人耳目一新。

团队强调,Flash这类“小而强”的模型对用户至关重要,通过迭代,新一代Flash常能达到甚至超越上一代Pro的水平。

理想状态下,Pro不计成本探索智能上限,而Flash通过蒸馏继承能力并优化延迟与成本。未来,Pro或将成为Flash的“生成器”,专门生产高质量轻量模型。

但这并不意味着主宰AI发展多年的Scaling Law已经失效。

面对Flash的“以小博大”,外界不免产生大模型发展见顶的错觉。

但Vinyals明确反驳,称与流行的“Scaling结束论”相反,团队通过持续扩大规模实现了飞跃,前方“看不到墙”。

Gemini 3 Flash逆袭Pro:谷歌揭秘‘蒸馏’战略,帕累托前沿反转 Flash 模型蒸馏 帕累托前沿 Scaling Law 第5张

Scaling Law虽未消亡,但也确实在发生演变。

Noam指出,单纯预训练堆参数的路径正逼近极限,“规模神话”不再唯一,未来重点将转向推理侧扩展(Test-time Compute)。

三位负责人一致认为,后训练(Post-training)是未来最大的“未开垦绿地”。

尽管代码、数学等基准测试逐渐被“击穿”,但在开放式任务(如规划旅行)上,后训练仍有巨大提升空间。

参数不再是迷信

Flash的冲击引发了关于“参数至上论”的广泛讨论。

开发者惊讶地发现,帕累托前沿倒转:更便宜、更快的模型,如今也变得更聪明。

这直接打破了“模型越大越好”的迷信。

Google DeepMind研究员Ankesh Anand揭示了真相:答案在于强化学习。

他明确指出,Flash不仅是Pro的蒸馏版,更集成了大量最新的Agentic RL研究成果。

Gemini 3 Flash逆袭Pro:谷歌揭秘‘蒸馏’战略,帕累托前沿反转 Flash 模型蒸馏 帕累托前沿 Scaling Law 第6张

这一结果证明了一个核心命题:在提升模型能力的道路上,单纯堆砌参数并不是唯一的路径。

通过更先进的后训练算法,小模型可实现“降维打击”,在关键领域战胜参数巨大的旗舰模型。

正如开发者所言,现在是时候停止对“旗舰版”的盲目崇拜了。

参考链接:

https://x.com/i/trending/2002668487114727561

https://twitter.com/i/spaces/1eaJbjvBOooJX/peek