当前位置:首页 > 科技资讯 > 正文

Gemini 3震撼发布:定义AI新标杆,推特崩盘引全球热议

在Gemini 3即将亮相之际,推特平台却意外崩溃,提前引爆了全球AI社区的热烈讨论。

没有任何模型的发布能像Gemini 3这样吸引如此多的目光,按照Gemini系列每三个月更新一次的节奏,自9月以来,AI领域就对其充满了无限期待。

今天,谷歌开发者关系负责人和Google AI Studio负责人仅发布了一条包含“Gemini”一词的推文,积攒数月的期盼瞬间爆发,推特上相关话题立刻沸腾。

Gemini 3震撼发布:定义AI新标杆,推特崩盘引全球热议 3  Google AI 多模态模型 AI智能体 第1张

有趣的是,在发布节点临近时,推特竟“恰到好处”地崩溃了几次。尽管崩溃原因与Cloudflare有关,但这时机精准得让人怀疑是否有幕后推手(私下调侃:毕竟推特是各AI模型宣传的主要战场)。

不知道今早刚刚发布Grok 4.1的马斯克此刻心情如何,反正网友的创意梗图已经席卷网络。

Gemini 3震撼发布:定义AI新标杆,推特崩盘引全球热议 3  Google AI 多模态模型 AI智能体 第2张

就在刚才,Gemini 3终于正式登场,让我们一同见证在万众期待下,它究竟展现出何等强大的实力。

最智能模型

事实证明,Google没有辜负等待者的期望,Gemini 3的发布再次树立了行业新标准,连奥特曼和马斯克也发来祝贺。

Gemini 3震撼发布:定义AI新标杆,推特崩盘引全球热议 3  Google AI 多模态模型 AI智能体 第3张

Gemini 3震撼发布:定义AI新标杆,推特崩盘引全球热议 3  Google AI 多模态模型 AI智能体 第4张

Google将其描述为“通向AGI的关键一步”,并强调这是目前全球多模态理解能力最强、交互最深入的智能体。

Gemini 3不仅在基础推理能力上刷新了SOTA标准,还通过推出全新的Google Antigravity平台和Deep Think模式,致力于重塑开发者生态和AI辅助体验。

全面领先的推理怪兽

Gemini 3 Pro被官方誉为“最先进的推理模型”,在几乎所有主流AI基准测试中都显著超越了前代Gemini 2.5 Pro,并全面压制了Claude Sonnet 4.5和GPT-5.1等主要竞争对手。

Gemini 3 Pro以1501 Elo的突破性高分登顶LMArena Leaderboard,在Humanity’s Last Exam(在不使用工具的情况下达到37.5%)和GPQA Diamond(91.9%)上获得最高分,展现了博士级别的推理能力。它在数学领域也为前沿模型设立了新标杆,在MathArena Apex上达到了23.4%的最新SOTA水平。

除了文本与逻辑,Gemini 3 Pro还重新定义了多模态推理的上限。它在MMMU-Pro和Video-MMMU上分别取得了81%和87.6%的高分,这意味着无论是解析复杂的科学图表还是理解动态视频流,它都能轻松应对。

更值得一提的是,它在SimpleQA Verified上取得了72.1%的成绩,显示出在事实准确性上的巨大进步——它不仅强大,而且可靠。

Gemini 3震撼发布:定义AI新标杆,推特崩盘引全球热议 3  Google AI 多模态模型 AI智能体 第5张

拒绝奉承的思维伙伴

Gemini 3 Pro的进化不仅体现在跑分上,更在于交互的质感。它摒弃了以往AI常见的陈词滥调和过度奉承,变得聪明、简洁且直接:告诉你需要听到的,而不仅仅是你爱听的。

它充当真正的思维伙伴,为你提供理解信息和表达自我的新方式,从通过生成高保真可视化的代码来翻译晦涩的科学概念,到创造性的头脑风暴。

Gemini 3 Deep Think

Gemini 3 Deep Think模式进一步拓展了智能的边界,带来了Gemini 3在推理和多模态理解能力上的重大进步,帮助你解决更复杂的问题。

在测试中,Gemini 3 Deep Think在Humanity"s Last Exam(不使用工具的情况下得分41.0%)和GPQA Diamond(得分93.8%)上的表现均优于Gemini 3 Pro已相当出色的成绩。此外,它在ARC-AGI-2(代码执行,已通过ARC Prize验证)上也取得了前所未有的45.1%的得分,展现了其解决全新挑战的能力。

Gemini 3震撼发布:定义AI新标杆,推特崩盘引全球热议 3  Google AI 多模态模型 AI智能体 第6张

Gemini 3 Deep Think模式在一些最具挑战性的AI基准测试中表现卓越。

学习、构建与规划

学习任何事情

Gemini从一开始就旨在无缝整合任何主题的多种模态信息,包括文本、图像、视频、音频和代码。Gemini 3结合了其先进的推理、视觉和空间理解能力、领先的多语言性能以及百万级token上下文窗口,进一步拓展了多模态推理的边界,帮助你以最适合自己的方式学习。

例如,如果你想学习如何烹饪家族传统菜肴,Gemini 3可以解读并翻译不同语言的手写食谱,生成可与家人分享的食谱。

Gemini 3震撼发布:定义AI新标杆,推特崩盘引全球热议 3  Google AI 多模态模型 AI智能体 第7张

或者,如果你想学习某个新主题,就可以提供学术论文、长篇视频讲座或教程,它可以生成交互式记忆卡片、可视化或其他格式的代码,帮助你掌握相关知识。

它甚至可以分析你的匹克球比赛视频,找出可以改进的地方,并制定训练计划,帮助你全面提升球技。

为了帮助你更好地理解网络上的信息,搜索中的AI模式现在使用Gemini 3来实现新的生成式UI体验,例如沉浸式视觉布局、交互式工具和模拟,所有这些都是根据你的查询即时生成的。

开发任何东西

在2.5 Pro成功的基础上,Gemini 3兑现了将开发者的任何想法变为现实的承诺。它在零样本生成方面表现出色,能够处理复杂的提示和指令,从而渲染出更丰富、更具交互性的Web用户界面。

Gemini 3是谷歌迄今为止构建的最佳Vibe编码和Agent编码模型,它使谷歌的产品更加自主,并显著提升了开发者的效率。它在WebDev Arena排行榜上名列榜首,获得了令人瞩目的1487 Elo分数。此外,它在Terminal-Bench 2.0测试中也取得了54.2%的成绩,该测试旨在评估模型通过终端操作计算机的工具使用能力。同时,它在SWE-bench Verified测试中也大幅超越了2.5 Pro版本(得分为76.2%),该测试用于衡量编码代理的性能。

现在,用户可以使用Google AI Studio、Vertex AI、Gemini CLI以及谷歌全新的智能体开发平台Google Antigravity中的Gemini 3进行构建。它也适用于Cursor、GitHub、JetBrains、Manus、Replit等第三方平台。

比如编写一款具有更丰富的视觉效果和更强交互性的复古3D太空飞船游戏。

Gemini 3震撼发布:定义AI新标杆,推特崩盘引全球热议 3  Google AI 多模态模型 AI智能体 第8张

再比如编写更丰富、更具交互性的Web UI和应用程序:

Gemini 3震撼发布:定义AI新标杆,推特崩盘引全球热议 3  Google AI 多模态模型 AI智能体 第9张

规划任何事

自Gemini 2智能体之后,Gemini显著提升了长周期任务中的规划能力。

Gemini 3的规划能力在Vending-Bench 2测试中进一步得到印证:Gemini 3在模拟售货机经营测试中登顶该排行榜,全程通过长周期规划管理虚拟商业运营。

在完整模拟年度的运营中,Gemini 3 Pro始终保持稳定的工具调用与决策连贯性,在持续专注任务目标的同时实现了更高投资回报。

Gemini 3震撼发布:定义AI新标杆,推特崩盘引全球热议 3  Google AI 多模态模型 AI智能体 第10张

Gemini 3 Pro展现出更卓越的长周期规划能力,与其他前沿模型相比,能创造更高的回报。

Gemini Agent还可以帮助整理Gmail收件箱。

Gemini 3现已全面开放。即日起,普通用户和订阅用户分别可通过Gemini App及搜索AI模式使用新模型;开发者与企业客户也能通过AI Studio、Vertex AI等渠道接入。至于备受期待的“深度思考模式”,预计将在未来几周内面向Google AI Ultra订阅用户独家上线。

另外,根据此前泄露的模型卡,还有许多值得关注的关键信息:Google使用TPU从头开始训练这个模型,作为一个MoE,具有1M输入和64k token输出,MoE意味着他们可以负担得起使其变得便宜。

Gemini 3震撼发布:定义AI新标杆,推特崩盘引全球热议 3  Google AI 多模态模型 AI智能体 第11张

定价方面,Gemini 3.0 Pro引入了基于上下文长度的分级定价机制:200k tokens以下的任务,输入/输出价格为$2.00/$12.00(每百万token);超过200k tokens则分别为$4.00和$18.00。

Gemini 3震撼发布:定义AI新标杆,推特崩盘引全球热议 3  Google AI 多模态模型 AI智能体 第12张

全新的“智能体优先”开发体验

Google Antigravity是Google全新的智能体开发平台,使开发者能够在更高、以任务为导向的层面上进行操作。利用Gemini 3先进的推理、工具使用和智能体编程能力,Google Antigravity将AI辅助从开发者工具箱中的一个工具转变为积极的合作伙伴。

虽然Google Antigravity的核心是熟悉的AI IDE(集成开发环境)体验,但其智能体已被提升到一个专用界面,并被赋予直接访问编辑器、终端和浏览器的权限。现在,智能体可以代表你自主规划并同时执行复杂的端到端软件任务,同时验证它们自己的代码。

除了Gemini 3 Pro,Google Antigravity还紧密结合了Google最新的用于浏览器控制的Gemini 2.5 Computer Use模型,以及其顶级的图像编辑模型Nano Banana (Gemini 2.5 Image)。

一手体验

既然Gemini 3 Pro预览版上线了AI Studio平台,我们也来上手体验了一把。

Prompt : SVG of NEW YORK SKYLINE Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail , shows details that no one expected go full creative and full beauty in one code block.

Gemini 3震撼发布:定义AI新标杆,推特崩盘引全球热议 3  Google AI 多模态模型 AI智能体 第13张

Prompt: Create a visually stunning Space Invaders game.

Gemini 3震撼发布:定义AI新标杆,推特崩盘引全球热议 3  Google AI 多模态模型 AI智能体 第14张

鹈鹕骑自行车曾难倒一众大模型,这次我们也让Gemini 3试了下。Prompt:An animated SVG of a pelican riding a bicycle.

Gemini 3震撼发布:定义AI新标杆,推特崩盘引全球热议 3  Google AI 多模态模型 AI智能体 第15张

相比之前版本,Gemini 3已有较大进步,不过仍有bug,比如自行车的脚蹬在天上空转。

我们又换了一个更为清晰的提示词:Create a single, complete, self-contained animated SVG code (no external files or images) of a cute pelican riding a bicycle from a side view. 这次Gemini 3生成的自行车似乎没有脚蹬。

Gemini 3震撼发布:定义AI新标杆,推特崩盘引全球热议 3  Google AI 多模态模型 AI智能体 第16张

写在最后

在X博主Chubby发起的“到2026年底,哪家公司拥有最好的LLM?”投票中,Google Gemini遥遥领先。

Gemini 3震撼发布:定义AI新标杆,推特崩盘引全球热议 3  Google AI 多模态模型 AI智能体 第17张

这种市场信心的回升也体现在了数据上,Alphabet CEO Sundar Pichai在官方博客中回顾了Gemini过去两年的进展:AI Overviews月活跃用户已达20亿,Gemini应用月活突破6.5亿,此外更有超过70%的云客户以及1300万开发者正在使用其生成式模型。

回望过去两年,从Bard(Gemini前身)发布时的仓促应战与股价暴跌,到痛定思痛合并Google DeepMind、召回创始人、斩获诺贝尔奖,Google完成了一场教科书般的“大象转身”。

Gemini 3震撼发布:定义AI新标杆,推特崩盘引全球热议 3  Google AI 多模态模型 AI智能体 第18张

那个曾经定义了Transformer、如今“All in Gemini”的巨人,已经做好了全面反击的准备。

至于它到底能不能终结“最好的LLM”之争?别急,让子弹(和服务器)再飞一会儿。

参考链接:

https://blog.google/products/gemini/gemini-3/#gemini-3