在Gemini 3即将亮相之际,推特平台却意外崩溃,提前引爆了全球AI社区的热烈讨论。
没有任何模型的发布能像Gemini 3这样吸引如此多的目光,按照Gemini系列每三个月更新一次的节奏,自9月以来,AI领域就对其充满了无限期待。
今天,谷歌开发者关系负责人和Google AI Studio负责人仅发布了一条包含“Gemini”一词的推文,积攒数月的期盼瞬间爆发,推特上相关话题立刻沸腾。
有趣的是,在发布节点临近时,推特竟“恰到好处”地崩溃了几次。尽管崩溃原因与Cloudflare有关,但这时机精准得让人怀疑是否有幕后推手(私下调侃:毕竟推特是各AI模型宣传的主要战场)。
不知道今早刚刚发布Grok 4.1的马斯克此刻心情如何,反正网友的创意梗图已经席卷网络。
就在刚才,Gemini 3终于正式登场,让我们一同见证在万众期待下,它究竟展现出何等强大的实力。
事实证明,Google没有辜负等待者的期望,Gemini 3的发布再次树立了行业新标准,连奥特曼和马斯克也发来祝贺。
Google将其描述为“通向AGI的关键一步”,并强调这是目前全球多模态理解能力最强、交互最深入的智能体。
Gemini 3不仅在基础推理能力上刷新了SOTA标准,还通过推出全新的Google Antigravity平台和Deep Think模式,致力于重塑开发者生态和AI辅助体验。
Gemini 3 Pro被官方誉为“最先进的推理模型”,在几乎所有主流AI基准测试中都显著超越了前代Gemini 2.5 Pro,并全面压制了Claude Sonnet 4.5和GPT-5.1等主要竞争对手。
Gemini 3 Pro以1501 Elo的突破性高分登顶LMArena Leaderboard,在Humanity’s Last Exam(在不使用工具的情况下达到37.5%)和GPQA Diamond(91.9%)上获得最高分,展现了博士级别的推理能力。它在数学领域也为前沿模型设立了新标杆,在MathArena Apex上达到了23.4%的最新SOTA水平。
除了文本与逻辑,Gemini 3 Pro还重新定义了多模态推理的上限。它在MMMU-Pro和Video-MMMU上分别取得了81%和87.6%的高分,这意味着无论是解析复杂的科学图表还是理解动态视频流,它都能轻松应对。
更值得一提的是,它在SimpleQA Verified上取得了72.1%的成绩,显示出在事实准确性上的巨大进步——它不仅强大,而且可靠。
Gemini 3 Pro的进化不仅体现在跑分上,更在于交互的质感。它摒弃了以往AI常见的陈词滥调和过度奉承,变得聪明、简洁且直接:告诉你需要听到的,而不仅仅是你爱听的。
它充当真正的思维伙伴,为你提供理解信息和表达自我的新方式,从通过生成高保真可视化的代码来翻译晦涩的科学概念,到创造性的头脑风暴。
Gemini 3 Deep Think模式进一步拓展了智能的边界,带来了Gemini 3在推理和多模态理解能力上的重大进步,帮助你解决更复杂的问题。
在测试中,Gemini 3 Deep Think在Humanity"s Last Exam(不使用工具的情况下得分41.0%)和GPQA Diamond(得分93.8%)上的表现均优于Gemini 3 Pro已相当出色的成绩。此外,它在ARC-AGI-2(代码执行,已通过ARC Prize验证)上也取得了前所未有的45.1%的得分,展现了其解决全新挑战的能力。
Gemini 3 Deep Think模式在一些最具挑战性的AI基准测试中表现卓越。
Gemini从一开始就旨在无缝整合任何主题的多种模态信息,包括文本、图像、视频、音频和代码。Gemini 3结合了其先进的推理、视觉和空间理解能力、领先的多语言性能以及百万级token上下文窗口,进一步拓展了多模态推理的边界,帮助你以最适合自己的方式学习。
例如,如果你想学习如何烹饪家族传统菜肴,Gemini 3可以解读并翻译不同语言的手写食谱,生成可与家人分享的食谱。
或者,如果你想学习某个新主题,就可以提供学术论文、长篇视频讲座或教程,它可以生成交互式记忆卡片、可视化或其他格式的代码,帮助你掌握相关知识。
它甚至可以分析你的匹克球比赛视频,找出可以改进的地方,并制定训练计划,帮助你全面提升球技。
为了帮助你更好地理解网络上的信息,搜索中的AI模式现在使用Gemini 3来实现新的生成式UI体验,例如沉浸式视觉布局、交互式工具和模拟,所有这些都是根据你的查询即时生成的。
在2.5 Pro成功的基础上,Gemini 3兑现了将开发者的任何想法变为现实的承诺。它在零样本生成方面表现出色,能够处理复杂的提示和指令,从而渲染出更丰富、更具交互性的Web用户界面。
Gemini 3是谷歌迄今为止构建的最佳Vibe编码和Agent编码模型,它使谷歌的产品更加自主,并显著提升了开发者的效率。它在WebDev Arena排行榜上名列榜首,获得了令人瞩目的1487 Elo分数。此外,它在Terminal-Bench 2.0测试中也取得了54.2%的成绩,该测试旨在评估模型通过终端操作计算机的工具使用能力。同时,它在SWE-bench Verified测试中也大幅超越了2.5 Pro版本(得分为76.2%),该测试用于衡量编码代理的性能。
现在,用户可以使用Google AI Studio、Vertex AI、Gemini CLI以及谷歌全新的智能体开发平台Google Antigravity中的Gemini 3进行构建。它也适用于Cursor、GitHub、JetBrains、Manus、Replit等第三方平台。
比如编写一款具有更丰富的视觉效果和更强交互性的复古3D太空飞船游戏。
再比如编写更丰富、更具交互性的Web UI和应用程序:
自Gemini 2智能体之后,Gemini显著提升了长周期任务中的规划能力。
Gemini 3的规划能力在Vending-Bench 2测试中进一步得到印证:Gemini 3在模拟售货机经营测试中登顶该排行榜,全程通过长周期规划管理虚拟商业运营。
在完整模拟年度的运营中,Gemini 3 Pro始终保持稳定的工具调用与决策连贯性,在持续专注任务目标的同时实现了更高投资回报。
Gemini 3 Pro展现出更卓越的长周期规划能力,与其他前沿模型相比,能创造更高的回报。
Gemini Agent还可以帮助整理Gmail收件箱。
Gemini 3现已全面开放。即日起,普通用户和订阅用户分别可通过Gemini App及搜索AI模式使用新模型;开发者与企业客户也能通过AI Studio、Vertex AI等渠道接入。至于备受期待的“深度思考模式”,预计将在未来几周内面向Google AI Ultra订阅用户独家上线。
另外,根据此前泄露的模型卡,还有许多值得关注的关键信息:Google使用TPU从头开始训练这个模型,作为一个MoE,具有1M输入和64k token输出,MoE意味着他们可以负担得起使其变得便宜。
定价方面,Gemini 3.0 Pro引入了基于上下文长度的分级定价机制:200k tokens以下的任务,输入/输出价格为$2.00/$12.00(每百万token);超过200k tokens则分别为$4.00和$18.00。
Google Antigravity是Google全新的智能体开发平台,使开发者能够在更高、以任务为导向的层面上进行操作。利用Gemini 3先进的推理、工具使用和智能体编程能力,Google Antigravity将AI辅助从开发者工具箱中的一个工具转变为积极的合作伙伴。
虽然Google Antigravity的核心是熟悉的AI IDE(集成开发环境)体验,但其智能体已被提升到一个专用界面,并被赋予直接访问编辑器、终端和浏览器的权限。现在,智能体可以代表你自主规划并同时执行复杂的端到端软件任务,同时验证它们自己的代码。
除了Gemini 3 Pro,Google Antigravity还紧密结合了Google最新的用于浏览器控制的Gemini 2.5 Computer Use模型,以及其顶级的图像编辑模型Nano Banana (Gemini 2.5 Image)。
既然Gemini 3 Pro预览版上线了AI Studio平台,我们也来上手体验了一把。
Prompt : SVG of NEW YORK SKYLINE Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail , shows details that no one expected go full creative and full beauty in one code block.
Prompt: Create a visually stunning Space Invaders game.
鹈鹕骑自行车曾难倒一众大模型,这次我们也让Gemini 3试了下。Prompt:An animated SVG of a pelican riding a bicycle.
相比之前版本,Gemini 3已有较大进步,不过仍有bug,比如自行车的脚蹬在天上空转。
我们又换了一个更为清晰的提示词:Create a single, complete, self-contained animated SVG code (no external files or images) of a cute pelican riding a bicycle from a side view. 这次Gemini 3生成的自行车似乎没有脚蹬。
在X博主Chubby发起的“到2026年底,哪家公司拥有最好的LLM?”投票中,Google Gemini遥遥领先。
这种市场信心的回升也体现在了数据上,Alphabet CEO Sundar Pichai在官方博客中回顾了Gemini过去两年的进展:AI Overviews月活跃用户已达20亿,Gemini应用月活突破6.5亿,此外更有超过70%的云客户以及1300万开发者正在使用其生成式模型。
回望过去两年,从Bard(Gemini前身)发布时的仓促应战与股价暴跌,到痛定思痛合并Google DeepMind、召回创始人、斩获诺贝尔奖,Google完成了一场教科书般的“大象转身”。
那个曾经定义了Transformer、如今“All in Gemini”的巨人,已经做好了全面反击的准备。
至于它到底能不能终结“最好的LLM”之争?别急,让子弹(和服务器)再飞一会儿。
参考链接:
https://blog.google/products/gemini/gemini-3/#gemini-3
本文由主机测评网于2026-01-25发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260120456.html