在经历了长时间的期待后,Gemini 3终于于昨晚正式亮相。其近乎恐怖的性能表现,彻底碾压了当前各大主流模型。
仅需简单一句话指令,它就能轻松创建3D模型、搭建网站,甚至构建一个完整的开放世界游戏……
现在,通过Google AI Studio,用户可以直接体验Gemini 3 Pro预览版。而面向更广泛受众的Gemini网站和移动应用,也将很快上线。
Gemini 3 Pro公布的性能成绩单显示,它不仅将前代Gemini 2.5 Pro远远甩在身后,更在除“解决真实GitHub问题(SWE-Bench Verified)”外的所有项目中,全面超越了Claude Sonnet 4.5和GPT-5.1。
这好比班级里出现了一位全科满分的天才,让其他偏科的优等生瞬间黯然失色,令人既惊叹又震撼。
在这份学霸成绩单中,有几项关键指标尤为突出。
ARC-AGI-2测试中,Gemini 3 Pro以31.1%的成绩实现了断层式领先,远超第二名的Claude Sonnet 4.5。该测试旨在评估AI的抽象推理能力,被视为衡量通用人工智能水平的核心标准。
AIME 2025和MathArena Apex则代表了解决复杂数学问题的能力。其中,Gemini 3 Pro在MathArena Apex中获得了23.4%的分数。虽然分数看似不高,但竞争对手的成绩均低于2%,差距悬殊。
ScreenSpot-Pro和Vending-Bench 2这两项测试则更具趣味性。前者用于评估AI能否像人类一样理解并操作UI界面,后者则测试AI在复杂长程任务和跨场景下的执行能力。
简而言之,Gemini实现了Siri梦寐以求的智能助理愿景。
假设你的老板临时将会议改到傍晚,而你担心错过女儿的演出。此时,AI可以调取你手机中的各类数据——如会议结束时间、演出日程、实时路况等——综合分析后判断你是否能准时赶到。
当其他公司还在“准备阶段”时,谷歌已经将这一功能变为现实。
在谷歌生态系统中,开启Gemini Agent模式并授权后,它便能调动你所有谷歌设备中的数据,实现上述场景。
例如,你可以对Gemini说:“根据我邮件中的信息,帮我预订一辆下周旅行用的中型SUV,日租金不超过80美元。”随后,你下飞机后即可直接取车。
此外,在被誉为“人类最后一场闭卷考试”的“Humanity"s Last Exam”中,Gemini 3 Pro也拿下了目前最高的37.5%分数,显著高于GPT-5.1的26.5%。
这意味着,Gemini 3 Pro是目前最接近“人类通才”的AI模型。
但这还不是全部。当启用Gemini 3 Deep Think(深度思考模式)后,它在“Humanity"s Last Exam”中的分数进一步提升至41%(无需工具辅助)。同时,在面对需要严谨逻辑和专业知识的复杂科学问题(GPQA Diamond)时,Gemini 3 Deep Think取得了93.8%的高分。
而在ARC-AGI-2测试中,Gemini 3 Deep Think更以45.1%的惊人成绩,将仅得4.9%的Gemini 2.5 Pro远远抛在身后。
过去,开发一款应用或网页需要设计师先绘制UI和素材,再由程序员通过代码实现交互功能,最终发布产品。
而现在,仅用一句话就能让Gemini生成高质量的交互式SVG。例如,在X平台上广泛传播的“电风扇”设计,不仅图像精美,而且具备动态交互功能,完全达到可直接使用的水平。
此外,还有网友让Gemini绘制“游戏中的水管工”:
五缸发动机示意图......
我也尝试让Gemini绘制了一个灯泡,并添加了可操作的开关,它仅用35秒便完成了任务;
以及复刻我家猫咪的形象,不得不说,相似度极高。
可交互的SVG不仅提升了趣味性,更蕴含着更大的潜力。
谷歌表示,基于Gemini 3强大的推理和多模态能力,未来的Gemini应用将推出名为“生成式UI”的新功能。
简而言之,Gemini应用可以直接生成可交互的UI来响应用户的查询和指令,而非传统“一问一答”的交互模式。
例如,在谷歌官方演示中,用户让Gemini规划一次明年夏季的罗马三日游。随后,它生成了一个类似动态杂志的界面,用户不仅可以浏览内容,还能与其中的元素进行交互。
这种多模态能力也正是谷歌宣称可以“构建任何事物”的底气所在。
从某种意义上说,SVG绘图也是编程的一种体现。而在编程领域,Gemini更是表现卓越。
根据X平台网友测试,Gemini 3 Pro在DesignArena的多个项目中再次以断层优势领先。
现在,仅需一段简短的描述,就能让Gemini 3编写一个“macOS操作系统”。运行后,它不仅会模拟“开机”流程,更令人惊叹的是,用户还能在这个“macOS”中上网浏览、运行终端……
这还只是基础操作。有网友让Gemini 3创建了一个《我的世界》游戏,成果有模有样。
我也亲自进行了测试。我让Gemini帮我制作一个个人网站,要求包含四个页面:主页、个人介绍、作品展示和联系方式。风格需现代简约、高端大气。
Gemini仅用一分半钟便完成了任务。导航栏采用了苹果式的毛玻璃效果,且所有按钮、输入框均处于有效状态,绝非仅具装饰性。
不过,初始生成的网页风格较为中规中矩。
于是我提出:“我希望采用全球顶尖设计工作室的网站风格,色彩和排版可以更大胆一些。”
45秒后,Gemini 3 Pro交付的结果令人惊叹。
至于复刻特定设计,更是轻而易举。
我还看到了更令人印象深刻的例子:X平台网友让Gemini 3制作了一个3D乐高编辑器,一次性实现了用户界面、代码构建及所需全部功能。
在Gemini 3 Pro上线不到一小时内,Cursor等vibe coding软件便第一时间提供了支持。
面向专业开发者,谷歌发布了Antigravity平台,它看似IDE,实则为vibe coding环境。该平台让AI真正成为程序员的“生产力助手”,能够自主跟进开发进度、管理任务列表、制作PPT、编写代码,并在浏览器中验证代码效果,甚至进行自我总结与优化。
在此过程中,Antigravity还会学习用户的代码风格和开发偏好。
由此可见,性能跑分或许已不再是最重要的指标。相比切实打破“构想”与“实现”之间的壁垒,技术门槛正被迅速铲平。例如在前端开发中,编写代码或调整框架可能不再关键,真正能拉开差距的,或许只剩想象力了。
正如谷歌所言,Gemini 1从一开始就具备多模态能力,Gemini 2强化了推理能力,使AI Agent能够自主思考、编程和行动。而Gemini 3通过全新的生成式UI界面,能够生成用户所需的各种输出格式。这一路稳步推进,恰如网络流行语所说:众人皆看好,而你亦不负众望。
配图来源:Google与作者提供
本文由主机测评网于2026-01-25发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260120479.html