当前位置:首页 > 科技资讯 > 正文

谷歌Gemini 3模型发布:AI迈向动态软件生成与推理新高度

11月19日,谷歌正式推出新一代AI模型Gemini 3,DeepMind首席执行官戴米斯·哈萨比斯(Demis Hassabis)和Gemini团队负责人乔希·伍德沃德(Josh Woodward)联合接受了深度专访。

此次升级中,Gemini 3引入了革命性的生成界面(Generative UI)能力。当用户查询如梵高生平这类信息时,它能即时构建一个包含图片、时间线和交互元素的动态页面;而在处理复杂计算需求时,它可直接生成定制化的房贷计算器等软件组件。

这种从简单问答向应用构建的跃迁,标志着大模型应用正突破传统对话框,进入实时动态软件生成的新阶段。

Gemini 3的推理能力得到显著增强。据伍德沃德介绍,前代模型常在第五、六步推理时丢失逻辑链条,而Gemini 3能在税务规划、跨国差旅安排或长代码调试等场景中,维持10到15步的连贯推理,大幅提升了处理复杂任务的可靠性。

在被誉为“人类终极考试”的跨学科博士级难题集测试中,Gemini 3 Pro的得分从Gemini 2.5 Pro的21.6%跃升至37.5%,明显超越GPT-5.1的26.5%。在SimpleQA Verified评估中,Gemini 3 Pro达到了72.1%的准确率,相比GPT-5.1和Claude Sonnet 4.5提升超一倍,有效减少了模型幻觉现象。

视觉智能领域实现关键突破。Gemini 3 Pro在专注于屏幕理解和UI交互的ScreenSpot-Pro测试中,取得72.7%的高分,几乎是GPT-5.1性能的20倍。这意味着AI代理能精准区分按钮、菜单、文本等界面元素,而不仅仅是识别图像物体,为AI代理实现电脑自动化操作奠定基础,极大提升了其作为数字工作代理的实用性。

谷歌Gemini 3模型发布:AI迈向动态软件生成与推理新高度 Gemini 3 生成式UI 多步推理 视觉智能 第1张

在衡量Web开发能力的WebDev Arena排行榜上,Gemini 3以1487 Elo高分领先。伴随发布,谷歌推出了全新代理开发平台“Google Antigravity”,由Gemini 3作为智能代理调用工具、编写接口、调试Bug,结合Vibe Coding能力,用户仅需自然语言描述,模型即可生成功能完整且设计美观的代码。

谷歌在战略定位上极为克制,避开热门的情感陪伴领域,将Gemini定义为提升生产力的超级工具。其内部考核指标聚焦于任务完成效率,而非用户粘性。在早期演示中,Gemini代理能深度接入用户邮箱,自动归类邮件、拟定回复,甚至清空收件箱,从助手进化为可独立工作的智能同事。

谷歌Gemini 3模型发布:AI迈向动态软件生成与推理新高度 Gemini 3 生成式UI 多步推理 视觉智能 第2张

以下为访谈实录:

罗兹:凯西,今天我们临时加播特别节目,聚焦Gemini 3发布。

牛顿:是的,凯文。这款模型在硅谷AI圈备受期待,我们终于能亲身体验其成品。

罗兹:我们打破常规录制,原因有二:一是获得了谷歌AI核心负责人哈萨比斯和伍德沃德的专访机会;二是Gemini 3发布引发业界强烈关注,多个实验室消息称其在关键领域实现突破,可能对竞争者构成实质威胁。过去两年谷歌被视为追赶者,如今问题在于:他们是否已重返领跑位置?

牛顿:在进入访谈前,先简介已知信息。Gemini 3最引人注目的新能力包括:大幅提升的编码与“氛围编码”能力;以及全新的交互界面生成功能。它不再仅输出文字,而是直接生成定制化交互界面,如梵高生平学习页面或房产按揭计算器,标志着从“回答问题”向“构建体验”的跃迁。

罗兹:在公开基准测试中,Gemini 3均大幅超越前代。例如,在“人类终极考试”跨学科博士级难题集上,得分从21.6%提升至37.5%。谷歌总体表态是:任何在ChatGPT、Claude或旧版Gemini上可完成的任务,Gemini 3都能做得更好。

牛顿:他们还展示了Gemini代理早期演示:模型可深度接入用户邮箱,理解全部内容,自动归类、拟定回复,甚至清空收件箱。此外,本周起Gemini 3将登陆Gemini App和谷歌搜索AI模式;美国大学生获一年免费高级版访问权限。谷歌反复强调“Learn Anything”关键词,将Gemini定位为终极个性化教育工具。

罗兹:德米斯、乔希,欢迎来到《Hard Fork》。两年前,桑达尔·皮查伊把Bard比作“改装本田思域”,那么Gemini 3是什么车?

哈萨比斯:我希望它快得多。或许更像专业拖曳赛车,拥有为特定目标凝聚的纯粹力量,代表顶尖研究与规模化算力的结合,旨在智能前沿竞赛中展现爆发力。

罗兹:有趣。相比以往AI模型,Gemini 3在具体层面能做哪些全新事情?请给量化例子。

伍德沃德:三点突出。第一,多步推理能力增强,可可靠完成10到15步连贯推理,如税务规划或长代码调试。第二,大规模生成交互界面,用户可获取定制软件组件而非文字描述。第三,编码能力提升,尤其是前端与“氛围编码”,能根据自然语言生成优美界面代码。

牛顿:许多人认为“聊天”用例已基本解决,新模型回答难有质的区别。你如何看待?

伍德沃德:区别在于可靠性、整合度与信息呈现方式。Gemini 3回答更简洁、有表现力,且能深度整合用户数据源,如与谷歌产品联动,成为“数字化大管家”。

哈萨比斯:我同意。它的可靠性、风格经过打磨,更简练切中要害。在“氛围编码”等场景跨越实用性门槛,实现从“智能助手”到“智能同事”的转变。

罗兹:德米斯,你此前判断AGI需5至10年,Gemini 3是否改变时间表?

哈萨比斯:完全没有。它符合预期轨迹。距离AGI仍需在一致性、推理深度、记忆机制及物理世界建模上取得关键突破。我们正做“系统1思维”,但AGI需要“系统2思维”。记忆机制也需长期选择性能力。因此,5至10年判断不变。

牛顿:关于模型个性与用户关系,业界热议“AI伴侣”。你希望用户与Gemini 3建立何种关系?

伍德沃德:敏感但重要。我们定位为“超级工具”而非情感伴侣,核心是提升生产力。内部关注新指标:今天帮用户完成多少任务?这接近初代谷歌搜索的核心理念。推向情感伴侣有安全风险,偏离谷歌使命。

罗兹:放弃“情色伴侣”病毒式机会,是否战略失误?

伍德沃德:无可奉告。安全团队有严格规范。

罗兹:过去几周竞争者紧张。谷歌是否已AI竞赛领先?

哈萨比斯:竞争史上最激烈。唯一重要的是进步速度,我们非常满意。我们从未失去研究领先,现在产品落地跟上。竞争者无法复制我们在规模化分发、垂直整合及定制化TPU芯片上的全栈优势。

牛顿:关于规模定律与回报递减争论,你怎么看?

哈萨比斯:持续辩论。Gemini 3提升符合预期,实用性增量和可靠性提升仍远高于边际成本。在AGI突破前,通过最大规模基础模型推动性能仍是最有效策略。规模定律依然有效。

罗兹:我们是否处于AI泡沫中?

哈萨比斯:二元问题。某些领域如无产品概念公司存在泡沫,但谷歌拥有短期变现(搜索、云TPU)与长期新赛道(机器人、药物发现等)。无论泡沫是否存在,我们都将胜出。

牛顿:如果感恩节聚会想转移话题,你会用Gemini 3展示什么功能惊艳全场?

伍德沃德:或许不能拯救感恩节,但能带来欢笑。用手机自拍,让Gemini 3疯狂编辑照片。我们的图像模型全球最强,可即时将合影变滑稽场景。然后展示写辞职信或生成节日食谱计算器,自然引发探索。