昨晚深夜,谷歌旗下的人工智能巨头DeepMind震撼宣布,其Genie世界模型系列已经迈入第三代。
DeepMind的CEO及诺奖得主Demis Hassabis在推文中自豪地写道:“『Genie 3不仅是我们的突破之作,更是世界模型的一大步跃进。通过单个文本提示,便能创建出既互动又引人入胜的环境。从栩栩如生的风景到奇幻的天地,它的可能性无可限量。”
据介绍,在Genie 3所创造的动态世界里,玩家可以在每秒24帧的速度下实时探索,保持720p分辨率数分钟之久。
与前代Genie 2、GameNGen游戏生成引擎以及Veo视频生成模型相比,Genie 3在多个方面均展现出了显著优势。
相比Genie 2,最新一代的Genie在分辨率上实现了质的飞跃,达到了实用级别。同时,它还支持通过提示词生成世界事件,并维持数分钟的一致性(DeepMind称之为“交互视界”)。更重要的是,Genie 3能够实现即时响应。
与GameNGen相比,尽管Genie 3在分辨率上略逊一筹,但在其它指标上却遥遥领先。
尽管在分辨率方面还有所欠缺,但Genie 3在其他方面展现出了明显优势。
自发布以来,Genie 3便受到了业界的广泛赞誉。
Matt McGill,作为Genie 3团队的一员,分享了“低头看鞋子……看看模型是否理解水坑是什么”的视频,引起了广泛的讨论和热议——其真实感令人叹为观止。
一时间,风头甚至盖过了近期备受瞩目的OpenAI开源模型。
接下来,让我们一起看看Genie 3所具备的一些核心能力。
作为最新前沿的世界模型,Genie 3拥有构建一个完整世界的全部能力,并能在较长时间内保证生成世界的连贯性和可交互性。其能力包括:
此次Genie 3的最大亮点在于其出色的实时响应能力,以及能够维持长达数分钟的场景一致性。
为了实现这一成就,DeepMind在技术上取得了重大突破。
每一帧的自回归生成过程中,模型都需要持续考虑随着时间增长的信息轨迹。例如,当用户在一分钟后返回某个地点时,模型必须能够回溯并引用一分钟前生成的信息。
为了实现真正的实时交互,这种计算必须每秒多次完成,以应对不断到来的用户输入。
为了让AI生成的世界更具沉浸感,环境在长时间尺度上必须保持物理一致性。然而,通过自回归方式生成环境比一次性生成整段视频要困难得多,因为误差会随时间逐步累积。
除了导航输入外,Genie 3还支持基于文本的交互形式——可提示的世界事件(promptable world events)。
可提示的世界事件能够改变已生成的世界,例如改变天气状况或引入新的物体和角色,从而增强导航控制的体验。
尽管Genie 3堪称世界模型的里程碑之作,但仍存在一些局限性:
本文由主机测评网于2026-04-20发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260438985.html