倒反天罡!Gemini 3 Flash以惊艳表现颠覆了传统认知。
在权威的软件工程测试SWE-Bench Verified中,Gemini 3 Flash一举斩获78%的高分,不仅超越了上一代旗舰,更以微弱优势反超了自家超大杯Pro版本。
更令人惊叹的是,Flash在保持卓越性能的同时,其响应速度和成本效益也令Pro版难以企及,真正实现了“又快又好”。
谷歌团队解释,Flash版中集成了多项尚未在Pro中部署的优化技术,这或许是造成性能反差的直接原因。
网友们纷纷表示,Flash的表现标志着帕累托前沿的戏剧性反转,是时候抛弃对“旗舰版”的盲目崇拜了。
根据谷歌最新披露的详细评测数据,Gemini 3 Flash不仅在智能程度上全面超越前代Gemini 2.5 Pro,更在编程能力和多模态推理等核心维度上,直接反超了自家旗舰Gemini 3 Pro以及竞品GPT-5.2,展现出惊人的实力。
具体而言,在SWE-Bench Verified测试中,Flash以78%的得分碾压前代,并略胜旗舰Pro的76.2%,证明了其在软件工程领域的卓越能力。
在AIME 2025数学竞赛中,Flash结合代码执行能力,得分高达99.7%,几近满分,展现了其强大的数学推理能力。
即便是在号称“人类最后考试”的极难测试Humanity’s Last Exam中,Flash在不使用工具的情况下获得33.7%的分数,与Pro版的37.5%同属一个梯队,显示出其扎实的基础能力。
除了硬核的智能指标,Flash的响应速度与成本也极具优势。
数据显示,Flash的推理速度是前代2.5 Pro的3倍,Token消耗减少30%,价格极具竞争力:输入每百万Token仅0.50美元,输出每百万Token 3美元。
尽管价格略高于上一代轻量版Gemini 2.5 Flash(每百万输入0.3美元/输出2.5美元),但综合性能提升,性价比依然突出。
如果轻量版已经如此强大,甚至在关键指标上实现了反超,那么“超大杯”存在的意义究竟是什么?
对此,谷歌核心团队给出了出人意料的答案:这并非偶然,而是其顶层设计的核心策略。
近日,Gemini三位负责人Oriol Vinyals、Jeff Dean、Noam Shazeer及产品负责人Logan Kilpatrick同台,正式揭示了背后的战略逻辑。
Oriol Vinyals直言,Pro模型的主要作用就是用来“蒸馏”出Flash,这一观点令人耳目一新。
团队强调,Flash这类“小而强”的模型对用户至关重要,通过迭代,新一代Flash常能达到甚至超越上一代Pro的水平。
理想状态下,Pro不计成本探索智能上限,而Flash通过蒸馏继承能力并优化延迟与成本。未来,Pro或将成为Flash的“生成器”,专门生产高质量轻量模型。
但这并不意味着主宰AI发展多年的Scaling Law已经失效。
面对Flash的“以小博大”,外界不免产生大模型发展见顶的错觉。
但Vinyals明确反驳,称与流行的“Scaling结束论”相反,团队通过持续扩大规模实现了飞跃,前方“看不到墙”。
Scaling Law虽未消亡,但也确实在发生演变。
Noam指出,单纯预训练堆参数的路径正逼近极限,“规模神话”不再唯一,未来重点将转向推理侧扩展(Test-time Compute)。
三位负责人一致认为,后训练(Post-training)是未来最大的“未开垦绿地”。
尽管代码、数学等基准测试逐渐被“击穿”,但在开放式任务(如规划旅行)上,后训练仍有巨大提升空间。
Flash的冲击引发了关于“参数至上论”的广泛讨论。
开发者惊讶地发现,帕累托前沿倒转:更便宜、更快的模型,如今也变得更聪明。
这直接打破了“模型越大越好”的迷信。
Google DeepMind研究员Ankesh Anand揭示了真相:答案在于强化学习。
他明确指出,Flash不仅是Pro的蒸馏版,更集成了大量最新的Agentic RL研究成果。
这一结果证明了一个核心命题:在提升模型能力的道路上,单纯堆砌参数并不是唯一的路径。
通过更先进的后训练算法,小模型可实现“降维打击”,在关键领域战胜参数巨大的旗舰模型。
正如开发者所言,现在是时候停止对“旗舰版”的盲目崇拜了。
参考链接:
https://x.com/i/trending/2002668487114727561
https://twitter.com/i/spaces/1eaJbjvBOooJX/peek
本文由主机测评网于2026-03-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260329690.html