当前位置：首页 > 科技资讯 > 正文

谷歌Gemini 3模型发布：AI迈向动态软件生成与推理新高度

主机测评网
科技资讯
2026-01-25
535

11月19日，谷歌正式推出新一代AI模型Gemini 3，DeepMind首席执行官戴米斯·哈萨比斯（Demis Hassabis）和Gemini团队负责人乔希·伍德沃德（Josh Woodward）联合接受了深度专访。

此次升级中，Gemini 3引入了革命性的生成界面（Generative UI）能力。当用户查询如梵高生平这类信息时，它能即时构建一个包含图片、时间线和交互元素的动态页面；而在处理复杂计算需求时，它可直接生成定制化的房贷计算器等软件组件。

这种从简单问答向应用构建的跃迁，标志着大模型应用正突破传统对话框，进入实时动态软件生成的新阶段。

Gemini 3的推理能力得到显著增强。据伍德沃德介绍，前代模型常在第五、六步推理时丢失逻辑链条，而Gemini 3能在税务规划、跨国差旅安排或长代码调试等场景中，维持10到15步的连贯推理，大幅提升了处理复杂任务的可靠性。

在被誉为“人类终极考试”的跨学科博士级难题集测试中，Gemini 3 Pro的得分从Gemini 2.5 Pro的21.6%跃升至37.5%，明显超越GPT-5.1的26.5%。在SimpleQA Verified评估中，Gemini 3 Pro达到了72.1%的准确率，相比GPT-5.1和Claude Sonnet 4.5提升超一倍，有效减少了模型幻觉现象。

视觉智能领域实现关键突破。Gemini 3 Pro在专注于屏幕理解和UI交互的ScreenSpot-Pro测试中，取得72.7%的高分，几乎是GPT-5.1性能的20倍。这意味着AI代理能精准区分按钮、菜单、文本等界面元素，而不仅仅是识别图像物体，为AI代理实现电脑自动化操作奠定基础，极大提升了其作为数字工作代理的实用性。

谷歌Gemini 3模型发布：AI迈向动态软件生成与推理新高度 Gemini 3 生成式UI 多步推理视觉智能第1张

在衡量Web开发能力的WebDev Arena排行榜上，Gemini 3以1487 Elo高分领先。伴随发布，谷歌推出了全新代理开发平台“Google Antigravity”，由Gemini 3作为智能代理调用工具、编写接口、调试Bug，结合Vibe Coding能力，用户仅需自然语言描述，模型即可生成功能完整且设计美观的代码。

谷歌在战略定位上极为克制，避开热门的情感陪伴领域，将Gemini定义为提升生产力的超级工具。其内部考核指标聚焦于任务完成效率，而非用户粘性。在早期演示中，Gemini代理能深度接入用户邮箱，自动归类邮件、拟定回复，甚至清空收件箱，从助手进化为可独立工作的智能同事。

谷歌Gemini 3模型发布：AI迈向动态软件生成与推理新高度 Gemini 3 生成式UI 多步推理视觉智能第2张

以下为访谈实录：

罗兹：凯西，今天我们临时加播特别节目，聚焦Gemini 3发布。

牛顿：是的，凯文。这款模型在硅谷AI圈备受期待，我们终于能亲身体验其成品。

罗兹：我们打破常规录制，原因有二：一是获得了谷歌AI核心负责人哈萨比斯和伍德沃德的专访机会；二是Gemini 3发布引发业界强烈关注，多个实验室消息称其在关键领域实现突破，可能对竞争者构成实质威胁。过去两年谷歌被视为追赶者，如今问题在于：他们是否已重返领跑位置？

牛顿：在进入访谈前，先简介已知信息。Gemini 3最引人注目的新能力包括：大幅提升的编码与“氛围编码”能力；以及全新的交互界面生成功能。它不再仅输出文字，而是直接生成定制化交互界面，如梵高生平学习页面或房产按揭计算器，标志着从“回答问题”向“构建体验”的跃迁。

罗兹：在公开基准测试中，Gemini 3均大幅超越前代。例如，在“人类终极考试”跨学科博士级难题集上，得分从21.6%提升至37.5%。谷歌总体表态是：任何在ChatGPT、Claude或旧版Gemini上可完成的任务，Gemini 3都能做得更好。

牛顿：他们还展示了Gemini代理早期演示：模型可深度接入用户邮箱，理解全部内容，自动归类、拟定回复，甚至清空收件箱。此外，本周起Gemini 3将登陆Gemini App和谷歌搜索AI模式；美国大学生获一年免费高级版访问权限。谷歌反复强调“Learn Anything”关键词，将Gemini定位为终极个性化教育工具。

罗兹：德米斯、乔希，欢迎来到《Hard Fork》。两年前，桑达尔·皮查伊把Bard比作“改装本田思域”，那么Gemini 3是什么车？

哈萨比斯：我希望它快得多。或许更像专业拖曳赛车，拥有为特定目标凝聚的纯粹力量，代表顶尖研究与规模化算力的结合，旨在智能前沿竞赛中展现爆发力。

罗兹：有趣。相比以往AI模型，Gemini 3在具体层面能做哪些全新事情？请给量化例子。

伍德沃德：三点突出。第一，多步推理能力增强，可可靠完成10到15步连贯推理，如税务规划或长代码调试。第二，大规模生成交互界面，用户可获取定制软件组件而非文字描述。第三，编码能力提升，尤其是前端与“氛围编码”，能根据自然语言生成优美界面代码。

牛顿：许多人认为“聊天”用例已基本解决，新模型回答难有质的区别。你如何看待？

伍德沃德：区别在于可靠性、整合度与信息呈现方式。Gemini 3回答更简洁、有表现力，且能深度整合用户数据源，如与谷歌产品联动，成为“数字化大管家”。

哈萨比斯：我同意。它的可靠性、风格经过打磨，更简练切中要害。在“氛围编码”等场景跨越实用性门槛，实现从“智能助手”到“智能同事”的转变。

罗兹：德米斯，你此前判断AGI需5至10年，Gemini 3是否改变时间表？

哈萨比斯：完全没有。它符合预期轨迹。距离AGI仍需在一致性、推理深度、记忆机制及物理世界建模上取得关键突破。我们正做“系统1思维”，但AGI需要“系统2思维”。记忆机制也需长期选择性能力。因此，5至10年判断不变。

牛顿：关于模型个性与用户关系，业界热议“AI伴侣”。你希望用户与Gemini 3建立何种关系？

伍德沃德：敏感但重要。我们定位为“超级工具”而非情感伴侣，核心是提升生产力。内部关注新指标：今天帮用户完成多少任务？这接近初代谷歌搜索的核心理念。推向情感伴侣有安全风险，偏离谷歌使命。

罗兹：放弃“情色伴侣”病毒式机会，是否战略失误？

伍德沃德：无可奉告。安全团队有严格规范。

罗兹：过去几周竞争者紧张。谷歌是否已AI竞赛领先？

哈萨比斯：竞争史上最激烈。唯一重要的是进步速度，我们非常满意。我们从未失去研究领先，现在产品落地跟上。竞争者无法复制我们在规模化分发、垂直整合及定制化TPU芯片上的全栈优势。

牛顿：关于规模定律与回报递减争论，你怎么看？

哈萨比斯：持续辩论。Gemini 3提升符合预期，实用性增量和可靠性提升仍远高于边际成本。在AGI突破前，通过最大规模基础模型推动性能仍是最有效策略。规模定律依然有效。

罗兹：我们是否处于AI泡沫中？

哈萨比斯：二元问题。某些领域如无产品概念公司存在泡沫，但谷歌拥有短期变现（搜索、云TPU）与长期新赛道（机器人、药物发现等）。无论泡沫是否存在，我们都将胜出。

牛顿：如果感恩节聚会想转移话题，你会用Gemini 3展示什么功能惊艳全场？

伍德沃德：或许不能拯救感恩节，但能带来欢笑。用手机自拍，让Gemini 3疯狂编辑照片。我们的图像模型全球最强，可即时将合影变滑稽场景。然后展示写辞职信或生成节日食谱计算器，自然引发探索。

高防服务器免费服务器服务器教程

本文由主机测评网于2026-01-25发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260120581.html

谷歌Gemini 3模型发布：AI迈向动态软件生成与推理新高度

灵启万物朱庆旭：动捕+UMI革新具身智能，双足人形机器人3-5年进家庭

卡诺普机器人赴港IPO：工业机器人制造商的机遇与挑战

谷歌Gemini 3模型发布：AI迈向动态软件生成与推理新高度

灵启万物朱庆旭：动捕+UMI革新具身智能，双足人形机器人3-5年进家庭

卡诺普机器人赴港IPO：工业机器人制造商的机遇与挑战

相关文章