当前位置：首页 > 科技资讯 > 正文

谷歌Gemini 3推理模型重磅发布，多模态与Agent能力实现突破

主机测评网
科技资讯
2026-01-25
348

据智东西11月19日凌晨消息，谷歌最强推理模型Gemini 3正式亮相，该模型整合了原生多模态、推理以及Agent等多种功能。

谷歌DeepMind研究团队表示，Gemini 3是全球最先进的多模态理解模型，也是谷歌最具实力的Agent编程和氛围编程模型，能够呈现更丰富的可视化效果和更深度的交互体验，且完全构建于前沿推理技术之上。

该模型基于谷歌TPU进行训练，支持100万个token的上下文窗口，适用于需要以下功能的应用：Agent开发、高级编程、长上下文处理、多模态理解、算法设计。

一经发布，Gemini 3就在多个评测集中表现卓越，以1501 Elo得分位居LMArena大模型竞技场榜首。

谷歌Gemini 3推理模型重磅发布，多模态与Agent能力实现突破 Gemini 3 多模态AI 推理模型谷歌Agent平台第1张

OpenAI联合创始人兼CEO萨姆·阿尔特曼（Sam Altman）和xAI创始人兼CEO埃隆·马斯克（Elon Musk）纷纷向谷歌致以祝贺。阿尔特曼在社交媒体上评价“Gemini 3看起来非常出色”，谷歌CEO桑达尔·皮查伊（Sundar Pichai）则以表情包回应。

谷歌Gemini 3推理模型重磅发布，多模态与Agent能力实现突破 Gemini 3 多模态AI 推理模型谷歌Agent平台第2张

马斯克转发了谷歌DeepMind CEO戴密斯·哈萨比斯（Demis Hassabis）的推文，称赞“做得很好”。

谷歌Gemini 3推理模型重磅发布，多模态与Agent能力实现突破 Gemini 3 多模态AI 推理模型谷歌Agent平台第3张

即日起，谷歌将在以下平台部署Gemini 3：

适用于Gemini应用的所有用户，以及在搜索的AI模式中使用Google AI Pro和Ultra订阅服务的用户；适用于Gemini API中的开发者、谷歌全新Agent开发平台Antigravity的开发者，以及Gemini CLI的开发者；适用于Vertex AI平台与Gemini企业版的企业用户。

此外，谷歌计划在未来几周内向Google AI Ultra订阅者开放Gemini 3的深度思考模式，目前该模式仍在进行安全评估。

对于Gemini 3的发布，皮查伊认为，这一模型能够将用户的任何创意转化为现实。

01. 快速生成交互游戏与App

辅助学习新知识

首先来看Gemini 3 Pro的实际能力。

Gemini 3可以编写托卡马克装置中等离子体流的可视化代码，并创作体现核聚变物理原理的诗歌。

谷歌Gemini 3推理模型重磅发布，多模态与Agent能力实现突破 Gemini 3 多模态AI 推理模型谷歌Agent平台第4张

若用户希望学习家族传统烹饪，Gemini 3能够解读并翻译不同语言的手写食谱，制作成可共享的家庭食谱集。

谷歌Gemini 3推理模型重磅发布，多模态与Agent能力实现突破 Gemini 3 多模态AI 推理模型谷歌Agent平台第5张

如果用户需要学习一个新话题，可以向Gemini 3输入学术论文、长视频讲座或教程，它能生成交互式抽认卡、可视化或其他格式的代码，帮助用户深入掌握内容。

谷歌Gemini 3推理模型重磅发布，多模态与Agent能力实现突破 Gemini 3 多模态AI 推理模型谷歌Agent平台第6张

Gemini 3能够分析用户的匹克球比赛视频，识别改进点，并生成整体动作提升的训练方案。

谷歌Gemini 3推理模型重磅发布，多模态与Agent能力实现突破 Gemini 3 多模态AI 推理模型谷歌Agent平台第7张

在AI搜索模式下，Gemini 3能学习复杂主题内容，如借助搜索功能中AI模式的生成式用户界面，理解像RNA聚合酶作用机制这类复杂知识点。值得一提的是，这也是谷歌首次在模型发布首日，就将新模型直接集成至AI搜索功能中。

谷歌Gemini 3推理模型重磅发布，多模态与Agent能力实现突破 Gemini 3 多模态AI 推理模型谷歌Agent平台第8张

Gemini 3可以编写拥有丰富可视化界面和互动性的复古3D飞船游戏。

谷歌Gemini 3推理模型重磅发布，多模态与Agent能力实现突破 Gemini 3 多模态AI 推理模型谷歌Agent平台第9张

该模型通过代码构建、解构和重新创作精细的3D体素艺术，能将用户的想象变为现实。

谷歌Gemini 3推理模型重磅发布，多模态与Agent能力实现突破 Gemini 3 多模态AI 推理模型谷歌Agent平台第10张

Gemini 3能使用着色器创建可玩的科幻世界。

谷歌Gemini 3推理模型重磅发布，多模态与Agent能力实现突破 Gemini 3 多模态AI 推理模型谷歌Agent平台第11张

其还可以生成更具实用性、元素丰富的互动性网页和App。

谷歌Gemini 3推理模型重磅发布，多模态与Agent能力实现突破 Gemini 3 多模态AI 推理模型谷歌Agent平台第12张

02. 评测集表现卓越

刷新大模型能力上限

接下来看Gemini 3 Pro的基准测试结果。

谷歌博客提到，Gemini 3 Pro在一系列基准测试中进行了评估，包括推理、多模态能力、Agent工具使用、多语言性能和长上下文，其在主要的AI基准测试中都显著优于Gemini 2.5 Pro，并以1501 Elo得分位列LMArena大模型竞技场第一。

谷歌Gemini 3推理模型重磅发布，多模态与Agent能力实现突破 Gemini 3 多模态AI 推理模型谷歌Agent平台第13张

该模型展现出博士级推理能力，在“人类终极测试”（不使用任何工具情况下得分37.5%）和GPQA钻石级测试中均获得最高分，在MathArena Apex测试中取得23.4%的最新顶尖成绩。

除了文本，Gemini 3 Pro在MMMU-Pro上获得了81%，在Video-MMMU上获得了87.6%的多模推理，在SimpleQA Verify上也获得了最高的72.1%。

这意味着Gemini 3 Pro能够以高度可靠性解决涵盖科学和数学等广泛主题的复杂问题。

Gemini 3的深度思考和多模态理解能力更新，可以帮助用户解决更复杂的问题。测试中，Gemini 3 Deep Think在“人类终极测试”（未使用工具时为41.0%）和GPQA Diamond（93.8%）中表现优于Gemini 3 Pro。它在ARC-AGI-2（代码执行，ARC奖项认证）上取得了45.1%的成绩，均超过谷歌自家前代模型，以及OpenAI、Anthropic的模型。

谷歌Gemini 3推理模型重磅发布，多模态与Agent能力实现突破 Gemini 3 多模态AI 推理模型谷歌Agent平台第14张

编程能力中，Gemini 3是谷歌迄今为止构建的最佳氛围编程和Agent编程模型。

该模型以1487 Elo得分登顶WebDev竞技场排行榜。它在Terminal-Bench 2.0测试模型工具使用能力上，得分为54.2%，在衡量编程Agent能力的基准测试SWE-bench Verified上表现远超2.5 Pro。

开发者可以在Google AI Studio、Vertex AI、Gemini CLI以及谷歌全新的代理开发平台Google Antigravity中使用Gemini 3进行构建。它还支持第三方平台，如Cursor、GitHub、JetBrains、Manus、Replit等。

自Gemini 2以来，谷歌Gemini模型已经在Agent方面取得诸多进展，此次Gemini 3还登顶了Vending-Bench 2排行榜。该基准测试通过模拟自动售货机业务运营来考核模型的长期规划能力，其结果显示，Gemini 3 Pro在一整年的模拟运营中，始终保持稳定的工具使用和决策连贯性，既未偏离任务目标，又实现了更高收益。