谷歌DeepMind发布Genie 3：开启世界模型新纪元

昨晚深夜，谷歌旗下的人工智能巨头DeepMind震撼宣布，其Genie世界模型系列已经迈入第三代。

DeepMind的CEO及诺奖得主Demis Hassabis在推文中自豪地写道：“『Genie 3不仅是我们的突破之作，更是世界模型的一大步跃进。通过单个文本提示，便能创建出既互动又引人入胜的环境。从栩栩如生的风景到奇幻的天地，它的可能性无可限量。”

谷歌DeepMind发布Genie 3：开启世界模型新纪元 Genie 3 世界模型 DeepMind AI 第1张

据介绍，在Genie 3所创造的动态世界里，玩家可以在每秒24帧的速度下实时探索，保持720p分辨率数分钟之久。

与前代Genie 2、GameNGen游戏生成引擎以及Veo视频生成模型相比，Genie 3在多个方面均展现出了显著优势。

谷歌DeepMind发布Genie 3：开启世界模型新纪元 Genie 3 世界模型 DeepMind AI 第2张

相比Genie 2，最新一代的Genie在分辨率上实现了质的飞跃，达到了实用级别。同时，它还支持通过提示词生成世界事件，并维持数分钟的一致性（DeepMind称之为“交互视界”）。更重要的是，Genie 3能够实现即时响应。

与GameNGen相比，尽管Genie 3在分辨率上略逊一筹，但在其它指标上却遥遥领先。

尽管在分辨率方面还有所欠缺，但Genie 3在其他方面展现出了明显优势。

自发布以来，Genie 3便受到了业界的广泛赞誉。

谷歌DeepMind发布Genie 3：开启世界模型新纪元 Genie 3 世界模型 DeepMind AI 第3张

Matt McGill，作为Genie 3团队的一员，分享了“低头看鞋子……看看模型是否理解水坑是什么”的视频，引起了广泛的讨论和热议——其真实感令人叹为观止。

一时间，风头甚至盖过了近期备受瞩目的OpenAI开源模型。

接下来，让我们一起看看Genie 3所具备的一些核心能力。

Genie 3的核心能力

作为最新前沿的世界模型，Genie 3拥有构建一个完整世界的全部能力，并能在较长时间内保证生成世界的连贯性和可交互性。其能力包括：

此次Genie 3的最大亮点在于其出色的实时响应能力，以及能够维持长达数分钟的场景一致性。

为了实现这一成就，DeepMind在技术上取得了重大突破。

每一帧的自回归生成过程中，模型都需要持续考虑随着时间增长的信息轨迹。例如，当用户在一分钟后返回某个地点时，模型必须能够回溯并引用一分钟前生成的信息。

为了实现真正的实时交互，这种计算必须每秒多次完成，以应对不断到来的用户输入。

为了让AI生成的世界更具沉浸感，环境在长时间尺度上必须保持物理一致性。然而，通过自回归方式生成环境比一次性生成整段视频要困难得多，因为误差会随时间逐步累积。

谷歌DeepMind发布Genie 3：开启世界模型新纪元 Genie 3 世界模型 DeepMind AI 第4张

除了导航输入外，Genie 3还支持基于文本的交互形式——可提示的世界事件（promptable world events）。

可提示的世界事件能够改变已生成的世界，例如改变天气状况或引入新的物体和角色，从而增强导航控制的体验。

尽管Genie 3堪称世界模型的里程碑之作，但仍存在一些局限性：

本文由主机测评网于2026-04-20发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260438985.html