当前位置:首页 > 科技资讯 > 正文

Gemini 3 Pro 预览版震撼发布:谷歌最强AI模型引领多模态革命

近日,谷歌正式推出了备受期待的Gemini 3 Pro 预览版,为2025年AI领域压轴大戏拉开帷幕。在年底喧嚣的科技圈中,这款模型凭借其卓越性能,无疑成为了全球关注的焦点,甚至被视作当前时间窗口的唯一主角。

Gemini 3 Pro 预览版震撼发布:谷歌最强AI模型引领多模态革命 AI模型 谷歌 多模态AI 第1张

过去两个月,谷歌巧妙借鉴了Sam Altman的营销策略,从内部宣传委员Logan Kilpatrick到CEO皮查伊,纷纷在社交平台以谜语形式造势,不断推高外界对Gemini 3的期待值,营造出浓厚的悬念氛围。

Gemini 3 Pro 预览版震撼发布:谷歌最强AI模型引领多模态革命 AI模型 谷歌 多模态AI 第2张

Gemini 3 Pro 预览版震撼发布:谷歌最强AI模型引领多模态革命 AI模型 谷歌 多模态AI 第3张

有趣的是,OpenAI CEO Sam Altman迅速在X平台发文祝贺:“恭喜谷歌成功推出Gemini 3!看起来是个很棒的模型。”这种互动为AI竞赛增添了戏剧性。此前,谜语人营销方式风险极高,一旦产品力不足,极易引发口碑崩塌,但谷歌显然对Gemini 3 Pro充满自信。那么,这款模型究竟交出了怎样的答卷?

核心亮点总结如下:

Gemini 3 Pro 预览版原生支持多模态(文字、图像、视频、音频)处理

在LMArena排行榜登顶,于推理、多模态、编程等主流测试中全面领先

推理能力创下新纪录(GPQA Diamond 91.9%、MathArena Apex 23.4%)

提供Deep Think深度思考模式(未来几周开放)

100万token上下文窗口与64K输出能力

推出全新AI IDE:Google Antigravity,并集成Cursor、GitHub、JetBrains等开发工具

Gemini 3 Pro 预览版震撼发布:谷歌最强AI模型引领多模态革命 AI模型 谷歌 多模态AI 第4张

Gemini 3生成案例,源自DeepMind CEO Demis Hassabis

无愧Pro之名,谷歌最强AI模型深夜发布

谷歌宣称,Gemini 3 Pro是目前“最智能、最具适应性的模型”,专为解决现实世界中的复杂问题设计——尤其是那些需要高阶推理、创造力、战略规划及逐步改进的任务。其应用场景涵盖自主行为应用、高级编程、超长上下文理解、跨模态处理(如文字、图像、音频结合)以及算法开发等。

Gemini 3 Pro预览版在LMArena排行榜以1501分位居榜首,在几乎所有主要AI基准测试中都大幅超越上一代。更关键的是,它不仅能识别图像内容,还能理解其中的隐含信息和上下文关系。

Gemini 3 Pro 预览版震撼发布:谷歌最强AI模型引领多模态革命 AI模型 谷歌 多模态AI 第5张

具体来看,推理能力方面,它在“人类最后的考试(Humanity’s Last Exam)”中取得了37.5%的博士级推理成绩,GPQA Diamond测试达到91.9%,MathArena Apex创下23.4%的业界新纪录。多模态推理方面,MMMU-Pro得分81%,Video-MMMU得分87.6%,SimpleQA Verified事实准确率达72.1%。这意味着Gemini 3 Pro能在科学、数学等复杂问题上提供可靠解答,直接输出真实见解,而非仅仅迎合用户预期。

除了常规模式,Gemini 3还提供了名为Deep Think的深度思考选项。该模式在“人类最后的考试”中得分41.0%,GPQA Diamond提升至93.8%,在ARC-AGI-2测试中更是创造了45.1%的 unprecedented得分。不过,这个模式目前仍在安全评估中,预计未来几周内向Google AI Ultra订阅用户开放。

Gemini 3 Pro 预览版震撼发布:谷歌最强AI模型引领多模态革命 AI模型 谷歌 多模态AI 第6张

测试数据之外,Gemini 3在实际应用场景中的表现更值得关注。例如,它可以识别手写家族菜谱中的多种语言,整理成可分享的菜谱书;处理学术论文和长视频讲座,生成交互式学习卡片;甚至分析运动比赛视频,生成针对性训练计划。

Gemini 3 Pro 预览版震撼发布:谷歌最强AI模型引领多模态革命 AI模型 谷歌 多模态AI 第7张

这得益于Gemini从一开始就为多模态理解设计,能够整合文字、图像、视频、音频和代码等多种信息类型,辅以高达100万token的上下文窗口和最大支持64K输出。值得一提的是,真正的重头戏在搜索。这是Gemini首次在发布当日就直接集成进Google搜索,谷歌显然想借此重构搜索体验。它不仅显著提升搜索对复杂问题的理解与信息挖掘能力,还能根据查询即时生成动态视觉界面、互动工具与模拟系统,如三体物理模拟器或贷款计算器。

Gemini 3 Pro 预览版震撼发布:谷歌最强AI模型引领多模态革命 AI模型 谷歌 多模态AI 第8张

Gemini 3 Pro 预览版震撼发布:谷歌最强AI模型引领多模态革命 AI模型 谷歌 多模态AI 第9张

另外,Gemini 3 Pro在技术架构上也有看点。它采用了基于Transformer的稀疏专家混合模型(MoE),原生支持文本、视觉和音频等多模态输入。这种架构的核心优势在于:模型会根据每个输入token的内容动态选择激活部分参数,从而在计算资源消耗、服务成本与总容量之间实现平衡。至于硬件层面,Gemini 3 Pro使用谷歌自研的张量处理单元(TPU)进行训练。相比CPU,TPU在处理大语言模型所需的大规模计算时速度更快,且配备的大容量高带宽内存,让它能够处理超大模型和批量数据。

如果你是开发者,Gemini 3带来的改变会更直接。谷歌官方博客号称,Gemini 3是目前最强的“vibe coding”模型——你只需用自然语言描述需求,它就能生成功能完整的互动应用。数据很能说明问题:WebDev Arena排行榜1487 Elo,Terminal-Bench 2.0得分54.2%,SWE-bench Verified得分76.2%。

Gemini 3 Pro 预览版震撼发布:谷歌最强AI模型引领多模态革命 AI模型 谷歌 多模态AI 第10张

Gemini 3 Pro 预览版震撼发布:谷歌最强AI模型引领多模态革命 AI模型 谷歌 多模态AI 第11张

谷歌这次还推出了全新AI IDE:Google Antigravity。内置的智能Agent可以自主规划和执行复杂的端到端软件任务,并自动验证代码正确性。例如,你想做一个航班追踪应用,代理能够独立规划、编写代码,并通过浏览器验证运行效果,甚至可以同时在编辑器、终端和浏览器之间协同工作,一气呵成。在长期规划能力上,Gemini 3在Vending-Bench 2榜单上位居第一。

Gemini 3 Pro 预览版震撼发布:谷歌最强AI模型引领多模态革命 AI模型 谷歌 多模态AI 第12张

实际应用中,最新发布的Gemini Agent实验性功能可以从头到尾执行多步骤复杂流程。例如,你说“整理一下我的收件箱”,它就会帮你优先安排待办事项,并起草邮件回复供你确认。或者“查资料帮我预订一辆中型SUV,预算每天不超过80美元,用我邮件里的信息安排下周出行”,Gemini会定位航班信息,对比租车选项,为你准备预订流程。整个过程中用户始终掌握主动权,Gemini会在重要操作前请求确认。

此外,在Google AI Studio和Vertex AI中,通过Gemini API使用Gemini 3 Pro预览版的价格为:输入每百万token需要2美元,输出每百万token需要12美元。在Google AI Studio中也可以免费使用,但有调用限制。

Gemini 3 Pro 预览版震撼发布:谷歌最强AI模型引领多模态革命 AI模型 谷歌 多模态AI 第13张

Gemini 3已集成至Cursor、GitHub、JetBrains、Replit等开发工具生态系统中。伴随产品发布,谷歌同步开放了多个使用入口。从今天起,Gemini 3预览版正在陆续上线:所有用户可在Gemini应用中使用;Google AI Pro和Ultra订阅用户可在搜索的AI模式中体验;开发者可通过Gemini API、Google Antigravity和Gemini CLI访问;企业用户通过Vertex AI和Gemini Enterprise获取服务。

ChatGPT的对手来了,Gemini 3实测表现“能打”到什么程度?

当然,科技公司的宣传往往大于实际,因此我们进行了实际上手测试。第一个挑战是让它在单个HTML文件中还原一台完整的Game Boy掌机,内置《俄罗斯方块》《宝可梦红/蓝》等经典游戏,所有操控必须同时支持键盘和触屏交互。坦白说,我对这个需求的期望值并不高。这种需要同时处理UI设计、游戏逻辑、音效系统的任务,即便是专业前端工程师也得花上几天时间。但Gemini交出的答卷出乎意料:交互界面达到了六七分的效果,按键按下时还有标志性音效,作为一次性生成的代码,已经相当能打。

Gemini 3 Pro 预览版震撼发布:谷歌最强AI模型引领多模态革命 AI模型 谷歌 多模态AI 第14张

既然复古游戏机能跑起来,我们继续加码。

Gemini 3 Pro 预览版震撼发布:谷歌最强AI模型引领多模态革命 AI模型 谷歌 多模态AI 第15张

我要求它用单个HTML文件复刻一个完整的macOS系统,包括文本编辑器、终端、代码编辑器、文件管理器、画板、视频编辑器等预装软件。生成的结果虽然审美一般,但核心交互逻辑都实现了。

除了编程能力,我们也测试了它的视觉生成和推理能力。参考X用户@lepadphone的做法,我让Gemini用前端代码实现一个电扇的可视化效果,建议使用SVG技术来绘制,包含以下元素:扇叶、保护网罩、底座、控制按钮等结构细节,并实现扇叶旋转、调速等动态效果。生成的结果不仅结构完整,扇叶的旋转动画也很自然。

Gemini 3 Pro 预览版震撼发布:谷歌最强AI模型引领多模态革命 AI模型 谷歌 多模态AI 第16张

紧接着我又让它画一只鹈鹕骑自行车——这种不常见的组合对AI的空间想象力是个考验,结果它生成的图形比例协调,鹈鹕的姿态和自行车的透视关系都处理得不错。

Gemini 3 Pro 预览版震撼发布:谷歌最强AI模型引领多模态革命 AI模型 谷歌 多模态AI 第17张

在推理能力上,我用到了那道经典的猴子分桃问题,Gemini给的答案不光正确,还懂得进行二次验算。有5只猴子在海边发现一堆桃子,决定第二天来平分。第二天清晨,第一只猴子最早来到,它左分右分分不开,就朝海里扔了一只,恰好可以分成5份,它拿上自己的一份走了。第2,3,4,5只猴子也遇到同样的问题,采用了同样的方法,都是扔掉一只后,恰好可以分成5份。问这堆桃子至少有多少只?

Gemini 3 Pro 预览版震撼发布:谷歌最强AI模型引领多模态革命 AI模型 谷歌 多模态AI 第18张

更有意思的是,我们还测试了它对“废话文学”的理解能力。面对“懂者得懂其懂,懵者终懵其懵,天机不言即为懂,道破天机岂是懂”这种故弄玄虚的文字游戏,Gemini的处理方式很聪明:先定性为“废话文学”给你吃颗定心丸,再挖掘背后的道家“有无”、佛家“色空”等文化梗,最后给出人话翻译。这种回答比简单说“这是废话”要高明得多。

Gemini 3 Pro 预览版震撼发布:谷歌最强AI模型引领多模态革命 AI模型 谷歌 多模态AI 第19张

写作测试自然也没落下。我们让Gemini用第一人称写“一滴雨水的一天”,它交出了一篇散文:云端的拥挤与等待、下坠时的狂欢、融入河流的安宁。文中堆了不少感官细节——瑟瑟发抖的触感、霓虹灯折射的视觉、呼啸风声的听觉。情感真挚,意象丰富,虽然还有些“优秀范文”的套路痕迹,但已经超出了及格线。

Gemini 3 Pro 预览版震撼发布:谷歌最强AI模型引领多模态革命 AI模型 谷歌 多模态AI 第20张

有一说一,抛却纸面参数,Gemini 3的实际水平是有目共睹的,而谷歌能在短时间内追平甚至超越OpenAI数年的积累,关键就在于它是为数不多具备全栈能力的AI厂商。谷歌的优势显而易见:自研TPU系列处理器带来的算力自主权,加上全球最大的数据宝库——搜索索引、学术文献、YouTube视频库,都为Gemini的训练提供了强大助力。这或许也解释了为什么它在处理实时信息、多语言任务、视频理解等场景时表现更稳。

Gemini 3 Pro 预览版震撼发布:谷歌最强AI模型引领多模态革命 AI模型 谷歌 多模态AI 第21张

而就在刚刚,DeepMind开发者体验主管Omar Sanseviero在X上发文称,今晚只是“热身”,接下来还将有更多功能陆续上线。

Gemini 3 Pro 预览版震撼发布:谷歌最强AI模型引领多模态革命 AI模型 谷歌 多模态AI 第22张

结合此前的种种传闻,外界期待已久的Nano Banana 2可能真的离我们不远了。