黄仁勋的科技预言再度应验!从Sora开创的视觉奇观到英伟达最新发布的3D通才模型,人工智能正实现从‘感知’到‘动作’的跨越。AI不再局限于生成像素,而是开始真正理解物理法则并构建可交互的3D世界,这标志着具身机器人时代已步入全新征程。
英伟达CEO黄仁勋的战略远见正逐步转化为现实。
他曾多次强调,下一代AI不能仅仅停留在文字对话或图像生成的层面,它必须具备对物理规则的深度理解与执行力。
如今,英伟达祭出了关键的一环——
将AI的能力从‘平面生成’进化为‘构建可行动的3D宇宙’。这不仅是建模,更是让AI学会搭建、修正并迭代真实的物理环境。
回望两年前的2024年2月。
当时OpenAI发布的Sora视频‘东京街头漫步’让全球震惊,引发了关于‘现实消亡’的集体反思。
在普遍的狂欢中,黄仁勋却保持了极高的冷静与审慎。
在随后的多次重要演说中,他反复提及一个核心概念——「Physical AI」(物理AI)。
他曾犀利地指出视频生成模型的局限:
虽然生成的画面美轮美奂,但如果你试图与其交互,就会发现其中的物理逻辑完全缺失。杯子没有重量感,物体间没有摩擦力,这只是精美的‘像素动画’而非真实世界。下一波AI浪潮,必须构建在物理法则之上。
起初人们以为这只是英伟达为Omniverse平台打造的营销话术,直到CES 2026,真相大白。
英伟达研究院发布的开年重磅论文,正式推出了:3D通才模型(3D Generalist Model)。
如果说语言模型赋予了AI‘沟通’的能力,视频模型赋予了AI‘梦境’的能力,那么英伟达的新作则是赋予了AI‘造物’的双手。这不仅是图形学的巨大胜利,更是具身智能进化的关键里程碑。
物理AI的「ChatGPT时刻」,已经正式降临。
这篇名为《3D Generalist: Vision-Language-Action Models for Crafting 3D Worlds》的论文,深入探讨了如何通过视觉-语言-动作(VLA)模型重塑三维环境的构建逻辑。
理解这项技术的关键在于一个词:Action(动作)。
传统的AI模型如Midjourney或Sora更像是‘观察者’,它们通过概率预测像素排列来模仿视觉信号。而英伟达的VLA模型则是‘执行者’。
通过简单的自然语言指令,3D-GENERALIST就能精准输出包含物理属性、材质、光影及家具布局的完整3D场景。
该框架将场景构建视为一个多阶段的决策过程,通过‘全景环境生成’、‘布局估算’、‘固定装置分割’及‘过程化生成’等核心步骤,实现了从文本到三维实体的完美转化。
模型不仅能利用全景扩散技术生成360°场景引导,还能结合GPT-4o等大模型对环境中的细节(如门的开合方式、地板材质)进行智能标注与修正。最令人振奋的是,3D-Generalist展现出了极强的自我纠错能力。
通过合成数据的闭环训练,该模型在视觉基准测试中的表现已逐渐逼近使用海量真实数据训练的效果,证明了‘模拟辅助现实’的可行性。
英伟达对3D物理世界的投入并非仅仅为了娱乐或设计,其真正的战略核心在于:具身智能(Embodied AI)。
黄仁勋早已洞察到,机器人产业将是下一个数万亿美元规模的蓝海。然而,在现实世界中训练机器人成本极高且效率低下。通过‘3D通才模型’,英伟达可以瞬间生成数百万个具有差异化物理变量的虚拟训练场。
无论是复杂的光线环境、不同的地面摩擦力,还是障碍物的随机摆放,机器人大脑都可以在模拟器中完成‘进化’,从而解决从模拟到现实(Sim-to-Real)的跨越难题。
「所有移动之物,终将自主。」当AI掌握了构建物理规律的钥匙,虚拟与现实的藩篱将彻底瓦解。
Fan-Yun Sun,斯坦福大学AI实验室博士生,深度参与英伟达研究院多项具身智能项目,致力于多模态基础模型的研发。
Shengguang Wu,斯坦福大学博士生,曾任职于Qwen团队,专注于赋予机器类人学习与跨模态推理能力。
吴佳俊(Jiajun Wu),斯坦福大学助理教授,清华“姚班”校友,在物理场景理解与具身智能领域享有极高声誉,其团队开发的多个项目如Galileo、WonderWorld等已成为行业标杆。
Shangru Li,英伟达高级系统软件工程师,专注于Omniverse平台及智能视频分析技术的落地应用。
本文由主机测评网于2026-04-03发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260433549.html