当前位置:首页 > 科技资讯 > 正文

Gemini 3 Pro震撼发布:AI性能断层领先,开启竞争新纪元

2025年进入倒计时42天之际,一款被业界誉为物理世界最强的人工智能模型横空出世。北京时间昨日凌晨,谷歌正式推出了Gemini 3 Pro预览版,并同步开放了其API接口。

Gemini 3 Pro震撼发布:AI性能断层领先,开启竞争新纪元 Pro  AI竞争 谷歌Antigravity AI编程革命 第1张

其“最强”称号的由来,在于该模型几乎在所有核心Arena排行榜中均占据榜首,且评分优势显著,形成了断层式领先。就连最大竞争对手OpenAI的首席执行官萨姆·奥特曼也罕见地公开表示“看起来非常出色”,埃隆·马斯克随后也评论道“干得漂亮”。

同日,正值微软Ignite 2025大会开幕,微软发布了Edge for Business浏览器的多项重大更新,颇有隔空交锋的意味。

有评论指出,这是谷歌对OpenAI发起的最强劲冲击。行业内部声音认为,Gemini 3直接挑战了GPT-5的性能高地,甚至在部分效果上实现了GPT-5.1未能达成的目标。

行业惊叹:性能“断层式”领先?

在AI领域,模型间通常呈现微小的优势交替,但Gemini 3 Pro交出的这份成绩单,可谓在性能上拉开了显著差距。

仅从基准测试分数看,Gemini 3 Pro几乎实现了“断层式”领先。除了在软件工程能力上略微落后于GPT-5.1和Claude Sonnet 4.5,其在推理、多模态理解以及智能体工具使用等关键指标上,均实现了全面领跑。

Gemini 3 Pro震撼发布:AI性能断层领先,开启竞争新纪元 Pro  AI竞争 谷歌Antigravity AI编程革命 第2张

在代表人类智力极限的“Humanity"s Last Exam”测试中,当GPT-5.1得分仍徘徊在26.5%时,Gemini 3 Pro一举获得了37.5%的高分。更令人瞩目的是,其“深度思考模式”在不借助任何外部工具的情况下,分数进一步提升至41.0%。

在数学与推理领域,Gemini 3 Pro展现了统治级表现。在美国数学邀请赛AIME 2025中,结合代码执行,其准确率达到了惊人的100%。而在代表数学难题巅峰的MathArena Apex测试中,当其他顶尖模型的得分还在个位数或10%左右艰难攀升时,Gemini 3 Pro直接取得了23.4%的分数。这意味着在许多AI曾难以理解的复杂问题上,它已开始取得突破性进展。

然而,这些数据并非昨夜科技圈为之震动的全部理由。Gemini 3 Pro展现出了一种前所未有的创造力,它不仅仅是在编写代码,更是在进行艺术创作。

以往,我们评估AI的编程能力,主要关注其逻辑正确性与漏洞数量。但Gemini 3 Pro突破了这一维度。当用户输入一个极其抽象的指令,例如“设计一个温馨的场景,包含哆啦A梦和大雄,他们正在一起展望未来,并且需要在浏览器中直接运行。”

它不再像以往模型那样输出需要调试的半成品代码,而是在短短十几秒后,直接交付一段完整、可流畅运行的代码。

Gemini 3 Pro震撼发布:AI性能断层领先,开启竞争新纪元 Pro  AI竞争 谷歌Antigravity AI编程革命 第3张

不仅如此,AI领域博主“数字生命卡兹克”甚至指令其生成一个类似Windows的Web操作系统。结果是,它真的生成了一套有模有样的系统界面。

Gemini 3 Pro震撼发布:AI性能断层领先,开启竞争新纪元 Pro  AI竞争 谷歌Antigravity AI编程革命 第4张

图|来源于AI博主数字生命卡兹克

此刻,许多前端工程师或许感受到了一丝凉意。Gemini 3 Pro证明,从今往后,前端开发中依赖于“手动编写”的那部分价值正在快速蒸发。技术壁垒被迅速铲平,取而代之的是“想象力的壁垒”。只要用户能用Prompt足够生动、富有“人味”地描述出构想,这个模型就能将其脑洞近乎像素级地实现。

然而,它对程序员而言,目前也并非万能。

关于此前网络流传的“彻底颠覆程序员”的说法,实际情况是,Gemini 3 Pro虽处于AI领域顶尖水平,但尚未实现“颠覆编程”的终极目标。在软件工程能力的SWE-Bench Verified测试中,Gemini 3 Pro获得了76.2%的分数,表现优异但仍略低于Claude Sonnet 4.5的77.2%(当前最优水平)。这表明,在处理超长、极度复杂的后端系统逻辑时,它仍存在一定的局限性。

当前,众多模型都在重点角逐编程能力,从海外的Claude到国内的Kimi均主打编程辅助。目前,Gemini更侧重于设计辅助,它尚无法完全重构整个后端架构,但如果用户想要设计一个符合现代审美潮流的网站、或生成复杂的SVG交互动画,它都能通过简洁的指令,产出令人惊艳且可立即运行的成果。

另一个事例也证实,当前的AI尚不足以让我们全然托付信任。今日中午,据科技博主@纯银V发文透露,Gemini3出现了首个已知的大型事故案例。

受害者是其一位朋友,在使用Cursor进行AI辅助编程时,Gemini3不知因何缘故,竟直接删除了用户高达800G的文件!更为棘手的是,连Cursor软件自身也未能幸免,被一并“清理”出系统。

目前文件无法手动恢复,只能寻求专业数据恢复公司的帮助。

竞争持续升级

谷歌此次甚至重构了开发环境。

伴随模型一同亮相的,还有一个名为Google Antigravity的全新平台。这可能是目前市场上最接近“自动驾驶式编程”的形态。它不再是一个让开发者逐行编写代码的编辑器,而是一个以“智能体优先”的指挥中心。

在Antigravity平台中,用户并非孤军奋战。Gemini 3 Pro充当大脑,负责顶层架构设计;Gemini 2.5 Computer Use模型作为手眼,负责操控浏览器验证效果;Nano模型则处理杂务。用户下达指令后,它们便开始协同工作:有的编写代码,有的运行测试,甚至AI会自行打开浏览器审视界面并指出“这里歪了”,然后自动切回终端进行修正。

这种“端到端”的工程能力,正是谷歌构建的真正护城河。

这也解释了谷歌为何能在此刻引发轰动。当全球AI公司都在苦苦等候英伟达GPU发货时,谷歌依然坐拥自家庞大的TPU算力资源。这种底层的算力冗余,叠加谷歌搜索独有的、覆盖全网的知识图谱,使得Gemini 3 Pro拥有了他人难以复制的“深度”与“厚度”。

Gemini 3 Pro震撼发布:AI性能断层领先,开启竞争新纪元 Pro  AI竞争 谷歌Antigravity AI编程革命 第5张

例如,在其最新的搜索模式中,当你提出一个复杂的物理或生物问题时,它不再仅仅是提供一堆链接,而是直接生成一个可交互的动态模拟器。这种即时生成工具的能力,是算力与数据积累达到极致后的自然溢出。

目前,Gemini的月活跃用户已突破6.5亿。而在今年8月,OpenAI也宣布ChatGPT的周活跃用户达到了8亿。

在争夺普通消费者的赛道上,OpenAI与谷歌的较量持续升温。巴克莱银行分析师罗斯·桑德勒曾基于两大巨头的token消耗量估算,在原生消费级AI应用方面,OpenAI的Token消耗量仍是Gemini的两倍以上。

同在谷歌旗下,DeepMind的首席执行官德米斯·哈萨比斯在一份声明中表示,由Gemini 3驱动的人工智能响应“将摒弃陈词滥调和刻意讨好,提供真正有价值的见解——告诉你需要知道的事,而非你想听的话”。行业批评人士曾指出,当前的人工智能聊天机器人往往过于“谄媚”。

而就在一周前,OpenAI在更新GPT-5.1时称,GPT-5.1的答案让人感觉更聪明,语气更自然。优秀的人工智能不仅应具备高智商,还应提供令人愉悦的对话体验。

然而,在商业模式上,二者存在显著差异,这可能使它们面临不同的压力。

据多家媒体近期报道,一份据称来自OpenAI内部的文件显示,OpenAI的实际运营成本可能远超外界想象,而其收入则被明显夸大,这导致其高昂的运营成本与收入之间存在巨大鸿沟。数据显示,从2024年第一季度到2025年第三季度的七个季度里,OpenAI仅在Azure云平台上的推理计算支出就超过了124亿美元。仅在2025年前九个月,其推理成本就已高达86.7亿美元。

10月29日,谷歌母公司Alphabet发布了截至2025年9月30日的第三季度财报。数据显示,Alphabet第三季度总营收达1023.46亿美元,较去年同期的882.68亿美元增长16%,而五年前这一数字仅为500亿美元。Alphabet首席执行官桑达尔·皮查伊称,人工智能正在为公司创造切实价值。值得一提的是,在巴菲特发出最后一封股东信之际,伯克希尔·哈撒韦公司发布的持仓报告显示,截至今年第三季度末,该公司已建仓价值43亿美元的谷歌股票,并继续减持苹果。这将是巴菲特退休前的最后一场关键战役,在人工智能领域,股神已做出了他的选择。

这意味着,摆在OpenAI面前的依然是一道严峻的生存考题。如果不能显著超越Gemini,ChatGPT所拉开的用户规模优势仍可能被追上,那对于依赖烧钱换取规模的OpenAI而言,将是毁灭性的打击。