当前位置:首页 > 科技资讯 > 正文

谷歌DeepMind发布Genie 3:开启世界模型新纪元

昨晚深夜,谷歌旗下的人工智能巨头DeepMind震撼宣布,其Genie世界模型系列已经迈入第三代。

DeepMind的CEO及诺奖得主Demis Hassabis在推文中自豪地写道:“『Genie 3不仅是我们的突破之作,更是世界模型的一大步跃进。通过单个文本提示,便能创建出既互动又引人入胜的环境。从栩栩如生的风景到奇幻的天地,它的可能性无可限量。”

谷歌DeepMind发布Genie 3:开启世界模型新纪元 Genie 3 世界模型 DeepMind AI 第1张

据介绍,在Genie 3所创造的动态世界里,玩家可以在每秒24帧的速度下实时探索,保持720p分辨率数分钟之久

与前代Genie 2、GameNGen游戏生成引擎以及Veo视频生成模型相比,Genie 3在多个方面均展现出了显著优势。

谷歌DeepMind发布Genie 3:开启世界模型新纪元 Genie 3 世界模型 DeepMind AI 第2张

相比Genie 2,最新一代的Genie在分辨率上实现了质的飞跃,达到了实用级别。同时,它还支持通过提示词生成世界事件,并维持数分钟的一致性(DeepMind称之为“交互视界”)。更重要的是,Genie 3能够实现即时响应。

与GameNGen相比,尽管Genie 3在分辨率上略逊一筹,但在其它指标上却遥遥领先。

尽管在分辨率方面还有所欠缺,但Genie 3在其他方面展现出了明显优势。

自发布以来,Genie 3便受到了业界的广泛赞誉。

谷歌DeepMind发布Genie 3:开启世界模型新纪元 Genie 3 世界模型 DeepMind AI 第3张

Matt McGill,作为Genie 3团队的一员,分享了“低头看鞋子……看看模型是否理解水坑是什么”的视频,引起了广泛的讨论和热议——其真实感令人叹为观止。

一时间,风头甚至盖过了近期备受瞩目的OpenAI开源模型。

接下来,让我们一起看看Genie 3所具备的一些核心能力。

Genie 3的核心能力

作为最新前沿的世界模型,Genie 3拥有构建一个完整世界的全部能力,并能在较长时间内保证生成世界的连贯性和可交互性。其能力包括:

  • 模拟世界的物理属性:展现自然现象如水与闪电,以及复杂的环境交互。
  • 模拟自然世界:生成充满活力的生态系统,从动物行为到复杂的植物生命。
  • 建模动画和小说:激发想象力,创造奇幻场景和富有表现力的动画角色。
  • 建模不同地点和历史背景:超越地理和时间的界限,探索各地和历史场景。

实时响应和长时间一致性

此次Genie 3的最大亮点在于其出色的实时响应能力,以及能够维持长达数分钟的场景一致性。

为了实现这一成就,DeepMind在技术上取得了重大突破。

每一帧的自回归生成过程中,模型都需要持续考虑随着时间增长的信息轨迹。例如,当用户在一分钟后返回某个地点时,模型必须能够回溯并引用一分钟前生成的信息。

为了实现真正的实时交互,这种计算必须每秒多次完成,以应对不断到来的用户输入。

为了让AI生成的世界更具沉浸感,环境在长时间尺度上必须保持物理一致性。然而,通过自回归方式生成环境比一次性生成整段视频要困难得多,因为误差会随时间逐步累积。

谷歌DeepMind发布Genie 3:开启世界模型新纪元 Genie 3 世界模型 DeepMind AI 第4张

可用提示词生成世界事件

除了导航输入外,Genie 3还支持基于文本的交互形式——可提示的世界事件(promptable world events)。

可提示的世界事件能够改变已生成的世界,例如改变天气状况或引入新的物体和角色,从而增强导航控制的体验。

局限性

尽管Genie 3堪称世界模型的里程碑之作,但仍存在一些局限性:

  • 动作空间有限。尽管可提示的世界事件允许广泛的环境干预,但这些干预不一定由agent自身执行。agent可直接执行的动作范围目前受到限制。
  • 其他agent的交互与模拟。在共享环境中准确建模多个独立agent之间的复杂交互仍然很困难。
  • 真实世界位置的准确表示。目前无法以完美的地理精度模拟真实世界位置。
  • 文本渲染。通常只有在输入的世界描述中提供时,才能生成清晰易读的文本。
  • 交互时间有限.目前支持几分钟的连续交互而非数小时。