当前位置：首页 > 科技资讯 > 正文

Gemini 3 Pro震撼发布：AI性能断层领先，开启竞争新纪元

主机测评网
科技资讯
2026-01-25
216

2025年进入倒计时42天之际，一款被业界誉为物理世界最强的人工智能模型横空出世。北京时间昨日凌晨，谷歌正式推出了Gemini 3 Pro预览版，并同步开放了其API接口。

Gemini 3 Pro震撼发布：AI性能断层领先，开启竞争新纪元 Pro AI竞争谷歌Antigravity AI编程革命第1张

其“最强”称号的由来，在于该模型几乎在所有核心Arena排行榜中均占据榜首，且评分优势显著，形成了断层式领先。就连最大竞争对手OpenAI的首席执行官萨姆·奥特曼也罕见地公开表示“看起来非常出色”，埃隆·马斯克随后也评论道“干得漂亮”。

同日，正值微软Ignite 2025大会开幕，微软发布了Edge for Business浏览器的多项重大更新，颇有隔空交锋的意味。

有评论指出，这是谷歌对OpenAI发起的最强劲冲击。行业内部声音认为，Gemini 3直接挑战了GPT-5的性能高地，甚至在部分效果上实现了GPT-5.1未能达成的目标。

行业惊叹：性能“断层式”领先？

在AI领域，模型间通常呈现微小的优势交替，但Gemini 3 Pro交出的这份成绩单，可谓在性能上拉开了显著差距。

仅从基准测试分数看，Gemini 3 Pro几乎实现了“断层式”领先。除了在软件工程能力上略微落后于GPT-5.1和Claude Sonnet 4.5，其在推理、多模态理解以及智能体工具使用等关键指标上，均实现了全面领跑。

Gemini 3 Pro震撼发布：AI性能断层领先，开启竞争新纪元 Pro AI竞争谷歌Antigravity AI编程革命第2张

在代表人类智力极限的“Humanity"s Last Exam”测试中，当GPT-5.1得分仍徘徊在26.5%时，Gemini 3 Pro一举获得了37.5%的高分。更令人瞩目的是，其“深度思考模式”在不借助任何外部工具的情况下，分数进一步提升至41.0%。

在数学与推理领域，Gemini 3 Pro展现了统治级表现。在美国数学邀请赛AIME 2025中，结合代码执行，其准确率达到了惊人的100%。而在代表数学难题巅峰的MathArena Apex测试中，当其他顶尖模型的得分还在个位数或10%左右艰难攀升时，Gemini 3 Pro直接取得了23.4%的分数。这意味着在许多AI曾难以理解的复杂问题上，它已开始取得突破性进展。

然而，这些数据并非昨夜科技圈为之震动的全部理由。Gemini 3 Pro展现出了一种前所未有的创造力，它不仅仅是在编写代码，更是在进行艺术创作。

以往，我们评估AI的编程能力，主要关注其逻辑正确性与漏洞数量。但Gemini 3 Pro突破了这一维度。当用户输入一个极其抽象的指令，例如“设计一个温馨的场景，包含哆啦A梦和大雄，他们正在一起展望未来，并且需要在浏览器中直接运行。”

它不再像以往模型那样输出需要调试的半成品代码，而是在短短十几秒后，直接交付一段完整、可流畅运行的代码。

Gemini 3 Pro震撼发布：AI性能断层领先，开启竞争新纪元 Pro AI竞争谷歌Antigravity AI编程革命第3张

不仅如此，AI领域博主“数字生命卡兹克”甚至指令其生成一个类似Windows的Web操作系统。结果是，它真的生成了一套有模有样的系统界面。

Gemini 3 Pro震撼发布：AI性能断层领先，开启竞争新纪元 Pro AI竞争谷歌Antigravity AI编程革命第4张

图｜来源于AI博主数字生命卡兹克

此刻，许多前端工程师或许感受到了一丝凉意。Gemini 3 Pro证明，从今往后，前端开发中依赖于“手动编写”的那部分价值正在快速蒸发。技术壁垒被迅速铲平，取而代之的是“想象力的壁垒”。只要用户能用Prompt足够生动、富有“人味”地描述出构想，这个模型就能将其脑洞近乎像素级地实现。

然而，它对程序员而言，目前也并非万能。

关于此前网络流传的“彻底颠覆程序员”的说法，实际情况是，Gemini 3 Pro虽处于AI领域顶尖水平，但尚未实现“颠覆编程”的终极目标。在软件工程能力的SWE-Bench Verified测试中，Gemini 3 Pro获得了76.2%的分数，表现优异但仍略低于Claude Sonnet 4.5的77.2%（当前最优水平）。这表明，在处理超长、极度复杂的后端系统逻辑时，它仍存在一定的局限性。

当前，众多模型都在重点角逐编程能力，从海外的Claude到国内的Kimi均主打编程辅助。目前，Gemini更侧重于设计辅助，它尚无法完全重构整个后端架构，但如果用户想要设计一个符合现代审美潮流的网站、或生成复杂的SVG交互动画，它都能通过简洁的指令，产出令人惊艳且可立即运行的成果。

另一个事例也证实，当前的AI尚不足以让我们全然托付信任。今日中午，据科技博主@纯银V发文透露，Gemini3出现了首个已知的大型事故案例。

受害者是其一位朋友，在使用Cursor进行AI辅助编程时，Gemini3不知因何缘故，竟直接删除了用户高达800G的文件！更为棘手的是，连Cursor软件自身也未能幸免，被一并“清理”出系统。

目前文件无法手动恢复，只能寻求专业数据恢复公司的帮助。

竞争持续升级

谷歌此次甚至重构了开发环境。

伴随模型一同亮相的，还有一个名为Google Antigravity的全新平台。这可能是目前市场上最接近“自动驾驶式编程”的形态。它不再是一个让开发者逐行编写代码的编辑器，而是一个以“智能体优先”的指挥中心。

在Antigravity平台中，用户并非孤军奋战。Gemini 3 Pro充当大脑，负责顶层架构设计；Gemini 2.5 Computer Use模型作为手眼，负责操控浏览器验证效果；Nano模型则处理杂务。用户下达指令后，它们便开始协同工作：有的编写代码，有的运行测试，甚至AI会自行打开浏览器审视界面并指出“这里歪了”，然后自动切回终端进行修正。

这种“端到端”的工程能力，正是谷歌构建的真正护城河。

这也解释了谷歌为何能在此刻引发轰动。当全球AI公司都在苦苦等候英伟达GPU发货时，谷歌依然坐拥自家庞大的TPU算力资源。这种底层的算力冗余，叠加谷歌搜索独有的、覆盖全网的知识图谱，使得Gemini 3 Pro拥有了他人难以复制的“深度”与“厚度”。

Gemini 3 Pro震撼发布：AI性能断层领先，开启竞争新纪元 Pro AI竞争谷歌Antigravity AI编程革命第5张

例如，在其最新的搜索模式中，当你提出一个复杂的物理或生物问题时，它不再仅仅是提供一堆链接，而是直接生成一个可交互的动态模拟器。这种即时生成工具的能力，是算力与数据积累达到极致后的自然溢出。

目前，Gemini的月活跃用户已突破6.5亿。而在今年8月，OpenAI也宣布ChatGPT的周活跃用户达到了8亿。

在争夺普通消费者的赛道上，OpenAI与谷歌的较量持续升温。巴克莱银行分析师罗斯·桑德勒曾基于两大巨头的token消耗量估算，在原生消费级AI应用方面，OpenAI的Token消耗量仍是Gemini的两倍以上。

同在谷歌旗下，DeepMind的首席执行官德米斯·哈萨比斯在一份声明中表示，由Gemini 3驱动的人工智能响应“将摒弃陈词滥调和刻意讨好，提供真正有价值的见解——告诉你需要知道的事，而非你想听的话”。行业批评人士曾指出，当前的人工智能聊天机器人往往过于“谄媚”。

而就在一周前，OpenAI在更新GPT-5.1时称，GPT-5.1的答案让人感觉更聪明，语气更自然。优秀的人工智能不仅应具备高智商，还应提供令人愉悦的对话体验。

然而，在商业模式上，二者存在显著差异，这可能使它们面临不同的压力。

据多家媒体近期报道，一份据称来自OpenAI内部的文件显示，OpenAI的实际运营成本可能远超外界想象，而其收入则被明显夸大，这导致其高昂的运营成本与收入之间存在巨大鸿沟。数据显示，从2024年第一季度到2025年第三季度的七个季度里，OpenAI仅在Azure云平台上的推理计算支出就超过了124亿美元。仅在2025年前九个月，其推理成本就已高达86.7亿美元。

10月29日，谷歌母公司Alphabet发布了截至2025年9月30日的第三季度财报。数据显示，Alphabet第三季度总营收达1023.46亿美元，较去年同期的882.68亿美元增长16%，而五年前这一数字仅为500亿美元。Alphabet首席执行官桑达尔·皮查伊称，人工智能正在为公司创造切实价值。值得一提的是，在巴菲特发出最后一封股东信之际，伯克希尔·哈撒韦公司发布的持仓报告显示，截至今年第三季度末，该公司已建仓价值43亿美元的谷歌股票，并继续减持苹果。这将是巴菲特退休前的最后一场关键战役，在人工智能领域，股神已做出了他的选择。

这意味着，摆在OpenAI面前的依然是一道严峻的生存考题。如果不能显著超越Gemini，ChatGPT所拉开的用户规模优势仍可能被追上，那对于依赖烧钱换取规模的OpenAI而言，将是毁灭性的打击。