当前位置:首页 > 科技资讯 > 正文

腾讯混元世界模型1.5深度实测:输入文字即可畅游3D世界,国产空间智能迎来里程碑

还记得不久前李飞飞团队展示的「3D世界生成模型」吗?那个仅凭文字或图片就能构建可交互三维空间的AI技术,一度刷爆科技圈。现在,国产版本终于正式落地。 

就在上周腾讯官宣姚顺雨加盟的新闻余温未散时,腾讯混元团队低调上线了 世界模型 1.5(TencentHY WorldPlay) ,这是 国内首个开放公众体验的实时世界模型 。 

究竟什么是世界模型?用最直观的方式解释:你只需输入几句话或者上传一张图,AI就能在几秒内为你生成一个可以「走进去互动」的虚拟世界。它并非只能观看的预渲染视频,而是可以用键盘、鼠标甚至手柄实时操控的连贯3D空间。 

腾讯混元世界模型1.5深度实测:输入文字即可畅游3D世界,国产空间智能迎来里程碑 世界模型 腾讯混元 3D实时生成 空间智能 第1张

根据首帧图片场景生成的游戏场景

本次版本的核心突破体现在三个方面

  • 实时高清流式生成:依托原创的Context Forcing蒸馏方案与流式推理优化,模型能以24 FPS的帧率稳定输出720P高清视频,几乎感觉不到延迟;
  • 分钟级几何一致性:通过重构记忆机制(Reconstituted Memory),模型可在长达数分钟的内容中保持场景几何结构、光影关系的连贯,为构建高质量3D空间模拟器打下基础;
  • 多风格多视角适配:无论是游戏卡通、写实摄影还是抽象艺术,无论是第一人称还是第三人称,模型都能灵活适应,并且支持实时文本触发事件、视频续写等交互功能。

技术名词或许有些抽象,下面APPSO就带你亲手体验——创造一些只存在于你想象中的「世界」。 

在线体验网站:https://3d.hunyuan.tencent.com/sceneTo3D?tab=worldplay

文字→世界:成为虚拟世界的「造物主」 

打开页面,首先映入眼帘的是一台复古电视机的拟物化界面。这让我想起童年守在电视机前等动画片的时光——频道是固定的,节目是编排好的,遥控器换台也跳不出预设的框架。 

但今天,你不再需要等待晚间黄金档,也不再依赖导演和后期。你就是这个世界唯一的编剧和导演。想体验悬空的过山车?敲几个字,世界即刻呈现;想重返千禧年跨年夜?描述几个细节,时光瞬间倒流。 

腾讯混元世界模型1.5深度实测:输入文字即可畅游3D世界,国产空间智能迎来里程碑 世界模型 腾讯混元 3D实时生成 空间智能 第2张

一个极速飞驰的过山车,手握冰凉的金属扶手,有呼啸的风灌进喉咙,一阵失重感突然袭来,还有快速掠过的模糊树影,以及头顶刺眼的阳光,第一视角体验很刺激,写实风格

一个极速飞驰的过山车,手握冰凉的金属扶手,有呼啸的风灌进喉咙,一阵失重感突然袭来,还有快速掠过的模糊树影,以及头顶刺眼的阳光,第一视角体验很刺激,写实风格

点击生成后,等待大约5到8秒,画面便铺满屏幕。第一人称视角下的过山车轨道、红色座椅漆面的光泽、金属扶手上的细微划痕,甚至双手皮肤的纹理和骨节都清晰可辨。按下↑键,画面向后流动——虽然两侧的树影偶尔出现轻微变形,但考虑到这是实时生成而非预渲染,其表现已相当惊艳。 

腾讯混元世界模型1.5深度实测:输入文字即可畅游3D世界,国产空间智能迎来里程碑 世界模型 腾讯混元 3D实时生成 空间智能 第3张

一辆狂飙突进的雪地摩托,冻得发麻的金属车把攥在掌心,锋利的雪粒砸进脸颊,一阵失重感猛地翻涌上来,还有飞速掠过的模糊林影,以及头顶冷冽的碎雪天光,第一视角体验 

有趣的是,当生成雪地摩托场景时,画面会先呈现一个「冻结瞬间」——飞雪、树影、天光全部静止,仿佛世界在你降临的那一刻屏住了呼吸。你可以自由转动视角,仔细观察扬雪的形状、金属车把的霜痕。起初我以为这是Bug,但很快意识到,这种设计让用户得以从容地「阅读」一个全新世界的细节,反而增强了探索的仪式感。 

腾讯混元世界模型1.5深度实测:输入文字即可畅游3D世界,国产空间智能迎来里程碑 世界模型 腾讯混元 3D实时生成 空间智能 第4张

一个热闹的千禧年跨年夜场景,街头有磁带摊,人们举着彩色气球围在广场倒计时,路边门店的CRT电视播放着跨年晚会,突然绽放的烟花照亮夜空,复古风格 

如果你是80后、90后,这个场景绝对值得一试。毕竟,在智能手机尚未普及的千禧年,几乎没有人能留下动态的跨年记录。当镜头从磁带摊转向右侧的老式电视机时,路灯、人群和建筑物的相对位置保持稳定,证明模型对三维空间的全局理解相当可靠。不过,磁带架上的物品远观色彩斑斓,近看则缺乏清晰边缘,这是当前生成式模型共有的「软边缘」特征。 

测试完怀旧主题,我决定满足一下自己的幻想——生成一套梦寐以求的海景豪宅。 

腾讯混元世界模型1.5深度实测:输入文字即可畅游3D世界,国产空间智能迎来里程碑 世界模型 腾讯混元 3D实时生成 空间智能 第5张

房间的主色调是浅蓝与白沙色,地面铺着仿贝壳肌理的哑光瓷砖,窗边有个浅灰色的亚麻沙发。落地玻璃窗没有任何遮挡,将窗外的海景框成一幅流动的画

这是一段接近180度的全景扫视。模型在处理大跨度视角切换时,窗框、立柱和天花板的直线毫无扭曲,表现出极佳的三维空间一致性。虽然现实中买不起海景房,但至少在AI生成的世界里,可以提前预览未来家的样子。 

让《千里江山图》「活」起来 

除了文字生成,混元世界模型还支持 「单图生成场景」。不过上传图片有几点小技巧: 

检查分辨率: 1280×704 ~ 4k×4k。若是专业相机拍摄的大尺寸原图,建议压缩至10MB以下;

避开竖屏图: 手机纵向照片不符合要求,建议裁剪为横向。 

腾讯混元世界模型1.5深度实测:输入文字即可畅游3D世界,国产空间智能迎来里程碑 世界模型 腾讯混元 3D实时生成 空间智能 第6张

视频续写:根据首帧图片场景生成

我决定做一个大胆的尝试:上传北宋王希孟《千里江山图》的局部。 

这幅青绿山水由18岁的少年天才绘制,层峦叠嶂,意境悠远。我想看看,硅基智能能否理解千年前的碳基审美。 

腾讯混元世界模型1.5深度实测:输入文字即可畅游3D世界,国产空间智能迎来里程碑 世界模型 腾讯混元 3D实时生成 空间智能 第7张

画面生成的一刻,我几乎屏住呼吸。AI不仅保留了原画青绿设色与皴法笔意,还通过3D化处理将静态山水转化为可漫游的立体空间。站在AI还原的山峦之间,仿佛真的穿越回了北宋的写生现场。 

这个案例证明,世界模型或许能让艺术品不再只是「被欣赏」,而是成为「可游历」的精神居所。 

实时触发事件:一句话改变世界 

世界模型最迷人的功能,莫过于实时事件触发。你只需输入一句话,等待5秒钟,世界的天气、光照甚至物理规则就会按照你的意愿改变。 

不妨来体验一把「霸道总裁」的感觉。 

腾讯混元世界模型1.5深度实测:输入文字即可畅游3D世界,国产空间智能迎来里程碑 世界模型 腾讯混元 3D实时生成 空间智能 第8张

这不是生硬的场景切换,而是平滑的渐变——天色由亮转暗,阴影缓缓拉长,甚至路灯依次亮起。这种光影的细腻过渡,让虚拟世界真正「活」了起来。 

腾讯混元世界模型1.5深度实测:输入文字即可畅游3D世界,国产空间智能迎来里程碑 世界模型 腾讯混元 3D实时生成 空间智能 第9张

爆炸产生的高亮度橙色火光实时地反射在水面上,效果非常自然,不过细看之下还是会有些小瑕疵。 

例如在如此剧烈的爆炸发生后,近处水面竟毫无波动——显然,模型对物理规律的模拟还有提升空间。 

看完实测,你可能好奇背后的技术原理。 

腾讯混元团队的技术报告显示,传统扩散模型生成视频时需要完整去噪整个画面再输出,导致高延迟且无法实时响应用户操作。而此次采用的流式DiT(扩散变换器)架构,能够像流媒体一样边接收手柄控制信号边瞬时去噪并解码成画面,从而实现了几乎无卡顿的实时操控体验。 

另一个世界模型的通病是「健忘」——当你让模型生成一个客厅,离开视角再回来,它可能又生成一个完全不同的客厅。混元团队通过Context Forcing机制,强制模型记住已生成的几何结构、光影关系和物体位置,相当于给模型加上了短期记忆,确保长时间探索下的3D一致性。 

腾讯混元世界模型1.5深度实测:输入文字即可畅游3D世界,国产空间智能迎来里程碑 世界模型 腾讯混元 3D实时生成 空间智能 第10张

体验完混元世界模型,我的脑海里反复回响起李飞飞的那句话:「人类智能的核心不是语言,而是对三维空间的理解和操作能力。」

过去两年,大语言模型席卷全球,ChatGPT、Claude、Gemini让我们惊叹于AI的语言天赋。但冷静下来想:会聊天的AI,真的理解我们所处的世界吗?

它不知道一张桌子有多高,不知道从客厅到厨房需要转几个弯,不知道杯子掉在地上会如何碎裂…… 

语言智能,让AI学会了「说」;空间智能,才能让AI学会「做」。

这正是Google、Meta、OpenAI、腾讯纷纷押注世界模型的原因。它并非一个更酷的视频生成工具,而是通往通用人工智能(AGI)的关键阶梯。 

回想《我的世界》(Minecraft)刚发布时,很多人不解:「这有什么好玩的?」 

十几年后,Minecraft已成为全球最成功的游戏之一。它靠的不是顶尖画质,而是赋予每一个玩家创造世界的自由。 

腾讯混元世界模型1.5深度实测:输入文字即可畅游3D世界,国产空间智能迎来里程碑 世界模型 腾讯混元 3D实时生成 空间智能 第11张

今天的世界模型,在流畅度和交互深度上仍有进步空间。但它已经向我们展示了一种未来的可能:每个人都能成为造物主。

腾讯混元世界模型1.5深度实测:输入文字即可畅游3D世界,国产空间智能迎来里程碑 世界模型 腾讯混元 3D实时生成 空间智能 第12张

亲自试试,然后回来告诉我,你创造了什么样的世界。