当前位置：首页 > 科技资讯 > 正文

Gemini 3 Pro 预览版震撼发布：谷歌最强AI模型引领多模态革命

主机测评网
科技资讯
2026-01-25
899

近日，谷歌正式推出了备受期待的Gemini 3 Pro 预览版，为2025年AI领域压轴大戏拉开帷幕。在年底喧嚣的科技圈中，这款模型凭借其卓越性能，无疑成为了全球关注的焦点，甚至被视作当前时间窗口的唯一主角。

Gemini 3 Pro 预览版震撼发布：谷歌最强AI模型引领多模态革命 AI模型谷歌多模态AI 第1张

过去两个月，谷歌巧妙借鉴了Sam Altman的营销策略，从内部宣传委员Logan Kilpatrick到CEO皮查伊，纷纷在社交平台以谜语形式造势，不断推高外界对Gemini 3的期待值，营造出浓厚的悬念氛围。

Gemini 3 Pro 预览版震撼发布：谷歌最强AI模型引领多模态革命 AI模型谷歌多模态AI 第2张

Gemini 3 Pro 预览版震撼发布：谷歌最强AI模型引领多模态革命 AI模型谷歌多模态AI 第3张

有趣的是，OpenAI CEO Sam Altman迅速在X平台发文祝贺：“恭喜谷歌成功推出Gemini 3！看起来是个很棒的模型。”这种互动为AI竞赛增添了戏剧性。此前，谜语人营销方式风险极高，一旦产品力不足，极易引发口碑崩塌，但谷歌显然对Gemini 3 Pro充满自信。那么，这款模型究竟交出了怎样的答卷？

核心亮点总结如下：

Gemini 3 Pro 预览版原生支持多模态（文字、图像、视频、音频）处理

在LMArena排行榜登顶，于推理、多模态、编程等主流测试中全面领先

推理能力创下新纪录（GPQA Diamond 91.9%、MathArena Apex 23.4%）

提供Deep Think深度思考模式（未来几周开放）

100万token上下文窗口与64K输出能力

推出全新AI IDE：Google Antigravity，并集成Cursor、GitHub、JetBrains等开发工具

Gemini 3 Pro 预览版震撼发布：谷歌最强AI模型引领多模态革命 AI模型谷歌多模态AI 第4张

Gemini 3生成案例，源自DeepMind CEO Demis Hassabis

无愧Pro之名，谷歌最强AI模型深夜发布

谷歌宣称，Gemini 3 Pro是目前“最智能、最具适应性的模型”，专为解决现实世界中的复杂问题设计——尤其是那些需要高阶推理、创造力、战略规划及逐步改进的任务。其应用场景涵盖自主行为应用、高级编程、超长上下文理解、跨模态处理（如文字、图像、音频结合）以及算法开发等。

Gemini 3 Pro预览版在LMArena排行榜以1501分位居榜首，在几乎所有主要AI基准测试中都大幅超越上一代。更关键的是，它不仅能识别图像内容，还能理解其中的隐含信息和上下文关系。

Gemini 3 Pro 预览版震撼发布：谷歌最强AI模型引领多模态革命 AI模型谷歌多模态AI 第5张

具体来看，推理能力方面，它在“人类最后的考试（Humanity’s Last Exam）”中取得了37.5%的博士级推理成绩，GPQA Diamond测试达到91.9%，MathArena Apex创下23.4%的业界新纪录。多模态推理方面，MMMU-Pro得分81%，Video-MMMU得分87.6%，SimpleQA Verified事实准确率达72.1%。这意味着Gemini 3 Pro能在科学、数学等复杂问题上提供可靠解答，直接输出真实见解，而非仅仅迎合用户预期。

除了常规模式，Gemini 3还提供了名为Deep Think的深度思考选项。该模式在“人类最后的考试”中得分41.0%，GPQA Diamond提升至93.8%，在ARC-AGI-2测试中更是创造了45.1%的 unprecedented得分。不过，这个模式目前仍在安全评估中，预计未来几周内向Google AI Ultra订阅用户开放。

Gemini 3 Pro 预览版震撼发布：谷歌最强AI模型引领多模态革命 AI模型谷歌多模态AI 第6张

测试数据之外，Gemini 3在实际应用场景中的表现更值得关注。例如，它可以识别手写家族菜谱中的多种语言，整理成可分享的菜谱书；处理学术论文和长视频讲座，生成交互式学习卡片；甚至分析运动比赛视频，生成针对性训练计划。

Gemini 3 Pro 预览版震撼发布：谷歌最强AI模型引领多模态革命 AI模型谷歌多模态AI 第7张

这得益于Gemini从一开始就为多模态理解设计，能够整合文字、图像、视频、音频和代码等多种信息类型，辅以高达100万token的上下文窗口和最大支持64K输出。值得一提的是，真正的重头戏在搜索。这是Gemini首次在发布当日就直接集成进Google搜索，谷歌显然想借此重构搜索体验。它不仅显著提升搜索对复杂问题的理解与信息挖掘能力，还能根据查询即时生成动态视觉界面、互动工具与模拟系统，如三体物理模拟器或贷款计算器。

Gemini 3 Pro 预览版震撼发布：谷歌最强AI模型引领多模态革命 AI模型谷歌多模态AI 第8张

Gemini 3 Pro 预览版震撼发布：谷歌最强AI模型引领多模态革命 AI模型谷歌多模态AI 第9张

另外，Gemini 3 Pro在技术架构上也有看点。它采用了基于Transformer的稀疏专家混合模型（MoE），原生支持文本、视觉和音频等多模态输入。这种架构的核心优势在于：模型会根据每个输入token的内容动态选择激活部分参数，从而在计算资源消耗、服务成本与总容量之间实现平衡。至于硬件层面，Gemini 3 Pro使用谷歌自研的张量处理单元（TPU）进行训练。相比CPU，TPU在处理大语言模型所需的大规模计算时速度更快，且配备的大容量高带宽内存，让它能够处理超大模型和批量数据。

如果你是开发者，Gemini 3带来的改变会更直接。谷歌官方博客号称，Gemini 3是目前最强的“vibe coding”模型——你只需用自然语言描述需求，它就能生成功能完整的互动应用。数据很能说明问题：WebDev Arena排行榜1487 Elo，Terminal-Bench 2.0得分54.2%，SWE-bench Verified得分76.2%。

Gemini 3 Pro 预览版震撼发布：谷歌最强AI模型引领多模态革命 AI模型谷歌多模态AI 第10张

Gemini 3 Pro 预览版震撼发布：谷歌最强AI模型引领多模态革命 AI模型谷歌多模态AI 第11张

谷歌这次还推出了全新AI IDE：Google Antigravity。内置的智能Agent可以自主规划和执行复杂的端到端软件任务，并自动验证代码正确性。例如，你想做一个航班追踪应用，代理能够独立规划、编写代码，并通过浏览器验证运行效果，甚至可以同时在编辑器、终端和浏览器之间协同工作，一气呵成。在长期规划能力上，Gemini 3在Vending-Bench 2榜单上位居第一。

Gemini 3 Pro 预览版震撼发布：谷歌最强AI模型引领多模态革命 AI模型谷歌多模态AI 第12张

实际应用中，最新发布的Gemini Agent实验性功能可以从头到尾执行多步骤复杂流程。例如，你说“整理一下我的收件箱”，它就会帮你优先安排待办事项，并起草邮件回复供你确认。或者“查资料帮我预订一辆中型SUV，预算每天不超过80美元，用我邮件里的信息安排下周出行”，Gemini会定位航班信息，对比租车选项，为你准备预订流程。整个过程中用户始终掌握主动权，Gemini会在重要操作前请求确认。

此外，在Google AI Studio和Vertex AI中，通过Gemini API使用Gemini 3 Pro预览版的价格为：输入每百万token需要2美元，输出每百万token需要12美元。在Google AI Studio中也可以免费使用，但有调用限制。

Gemini 3 Pro 预览版震撼发布：谷歌最强AI模型引领多模态革命 AI模型谷歌多模态AI 第13张

Gemini 3已集成至Cursor、GitHub、JetBrains、Replit等开发工具生态系统中。伴随产品发布，谷歌同步开放了多个使用入口。从今天起，Gemini 3预览版正在陆续上线：所有用户可在Gemini应用中使用；Google AI Pro和Ultra订阅用户可在搜索的AI模式中体验；开发者可通过Gemini API、Google Antigravity和Gemini CLI访问；企业用户通过Vertex AI和Gemini Enterprise获取服务。

ChatGPT的对手来了，Gemini 3实测表现“能打”到什么程度？

当然，科技公司的宣传往往大于实际，因此我们进行了实际上手测试。第一个挑战是让它在单个HTML文件中还原一台完整的Game Boy掌机，内置《俄罗斯方块》《宝可梦红/蓝》等经典游戏，所有操控必须同时支持键盘和触屏交互。坦白说，我对这个需求的期望值并不高。这种需要同时处理UI设计、游戏逻辑、音效系统的任务，即便是专业前端工程师也得花上几天时间。但Gemini交出的答卷出乎意料：交互界面达到了六七分的效果，按键按下时还有标志性音效，作为一次性生成的代码，已经相当能打。

Gemini 3 Pro 预览版震撼发布：谷歌最强AI模型引领多模态革命 AI模型谷歌多模态AI 第14张

既然复古游戏机能跑起来，我们继续加码。

Gemini 3 Pro 预览版震撼发布：谷歌最强AI模型引领多模态革命 AI模型谷歌多模态AI 第15张

我要求它用单个HTML文件复刻一个完整的macOS系统，包括文本编辑器、终端、代码编辑器、文件管理器、画板、视频编辑器等预装软件。生成的结果虽然审美一般，但核心交互逻辑都实现了。

除了编程能力，我们也测试了它的视觉生成和推理能力。参考X用户@lepadphone的做法，我让Gemini用前端代码实现一个电扇的可视化效果，建议使用SVG技术来绘制，包含以下元素：扇叶、保护网罩、底座、控制按钮等结构细节，并实现扇叶旋转、调速等动态效果。生成的结果不仅结构完整，扇叶的旋转动画也很自然。

Gemini 3 Pro 预览版震撼发布：谷歌最强AI模型引领多模态革命 AI模型谷歌多模态AI 第16张

紧接着我又让它画一只鹈鹕骑自行车——这种不常见的组合对AI的空间想象力是个考验，结果它生成的图形比例协调，鹈鹕的姿态和自行车的透视关系都处理得不错。

Gemini 3 Pro 预览版震撼发布：谷歌最强AI模型引领多模态革命 AI模型谷歌多模态AI 第17张

在推理能力上，我用到了那道经典的猴子分桃问题，Gemini给的答案不光正确，还懂得进行二次验算。有5只猴子在海边发现一堆桃子，决定第二天来平分。第二天清晨，第一只猴子最早来到，它左分右分分不开，就朝海里扔了一只，恰好可以分成5份，它拿上自己的一份走了。第2，3，4，5只猴子也遇到同样的问题，采用了同样的方法，都是扔掉一只后，恰好可以分成5份。问这堆桃子至少有多少只？

Gemini 3 Pro 预览版震撼发布：谷歌最强AI模型引领多模态革命 AI模型谷歌多模态AI 第18张

更有意思的是，我们还测试了它对“废话文学”的理解能力。面对“懂者得懂其懂，懵者终懵其懵，天机不言即为懂，道破天机岂是懂”这种故弄玄虚的文字游戏，Gemini的处理方式很聪明：先定性为“废话文学”给你吃颗定心丸，再挖掘背后的道家“有无”、佛家“色空”等文化梗，最后给出人话翻译。这种回答比简单说“这是废话”要高明得多。

Gemini 3 Pro 预览版震撼发布：谷歌最强AI模型引领多模态革命 AI模型谷歌多模态AI 第19张

写作测试自然也没落下。我们让Gemini用第一人称写“一滴雨水的一天”，它交出了一篇散文：云端的拥挤与等待、下坠时的狂欢、融入河流的安宁。文中堆了不少感官细节——瑟瑟发抖的触感、霓虹灯折射的视觉、呼啸风声的听觉。情感真挚，意象丰富，虽然还有些“优秀范文”的套路痕迹，但已经超出了及格线。

Gemini 3 Pro 预览版震撼发布：谷歌最强AI模型引领多模态革命 AI模型谷歌多模态AI 第20张

有一说一，抛却纸面参数，Gemini 3的实际水平是有目共睹的，而谷歌能在短时间内追平甚至超越OpenAI数年的积累，关键就在于它是为数不多具备全栈能力的AI厂商。谷歌的优势显而易见：自研TPU系列处理器带来的算力自主权，加上全球最大的数据宝库——搜索索引、学术文献、YouTube视频库，都为Gemini的训练提供了强大助力。这或许也解释了为什么它在处理实时信息、多语言任务、视频理解等场景时表现更稳。

Gemini 3 Pro 预览版震撼发布：谷歌最强AI模型引领多模态革命 AI模型谷歌多模态AI 第21张