当前位置:首页 > 科技资讯 > 正文

英伟达3D-GENERALIST模型革新:AI生成3D数据或颠覆成本高昂的预训练

智东西2月3日讯,近期,英伟达宣布其全新3D通用模型论文将于2026国际3D视觉会议发表,预印本已于去年7月面世。此论文开创了一种全新的3D世界构建范式,验证了“AI生成的3D合成数据”能够规模化替代人工标注数据,从而大幅降低视觉模型预训练的成本。

论文的核心成果为3D-GENERALIST模型,该模型采用统一框架,将3D环境生成的四大核心要素(布局、材质、光照、资产)纳入序贯决策框架。研究团队提出了基于CLIP评分的自改进微调策略,使模型在下一轮生成中能自主修正前序错误。

这篇论文的作者中有8位华人,第一二作者均为中国留学生,其中不乏清华“姚班”出身的斯坦福大学助理教授吴佳俊。

英伟达3D-GENERALIST模型革新:AI生成3D数据或颠覆成本高昂的预训练 3D-GENERALIST AI生成数据 自改进机制 成本降低 第1张

在CES 2025上,英伟达推出了世界基础模型平台Cosmos。CES 2026的演讲中,黄仁勋再次将“Physical AI”作为发布核心,正式将Cosmos定位为Physical AI的“底层代码”与“世界模拟器”。此外,他还发布了Cosmos Reason 2,使AI不仅能生成世界,还能用自然语言进行链式因果推理。

那么,3D-GENERALIST如何为英伟达的Cosmos补全拼图并实现技术突破?我们尝试从论文中寻找答案。

01 现有痛点:仅生成静态3D图像,缺乏独立交互能力

当前可交互3D环境的创建仍面临挑战。例如,现有技术通常聚焦于单一环节的优化,难以实现全要素的协同优化。且生成的场景缺乏可分离、可操作的物体和表面,生成的数据不适合需要精准标注的合成数据应用或机器人交互仿真场景。

简而言之,现有技术只能生成静态的3D图像,虚拟世界中的物体无法独立交互。而3D-GENERALIST正是为了解决这些痛点而诞生的。

02 研究方法:引入自改进机制,多模型协同工作

斯坦福和英伟达研究团队的核心思路是将一个“设计师”扩展为一个“建筑师团队”,将任务细化,每个步骤由专人负责。

研究团队首先通过全景扩散模型生成360°引导图像,随后提出“场景性策略”:利用HorizonNet提取房间基础结构,通过Grounded-SAM技术识别墙体并分割出门窗区域,再由GPT-4o等VLM标注门窗类型与材质,构建带基础构件的3D房间。

英伟达3D-GENERALIST模型革新:AI生成3D数据或颠覆成本高昂的预训练 3D-GENERALIST AI生成数据 自改进机制 成本降低 第2张

之后,VLM作为决策“大脑”,输出代码形式的具体动作指令,如添加资产、调整光照等,这些指令由工具API执行,实时更新3D房间。

英伟达3D-GENERALIST模型革新:AI生成3D数据或颠覆成本高昂的预训练 3D-GENERALIST AI生成数据 自改进机制 成本降低 第3张

为了让虚拟场景中的物体实现独立交互,研究团队设计了资产级优化策略。通过GPT-4o识别容器类资产,结合基于网格的表面检测技术,精准定位有效放置区域。随后使用视觉语言模型Molmo-7B确定具体放置点,并通过3D射线转换实现高精度坐标定位。

英伟达3D-GENERALIST模型革新:AI生成3D数据或颠覆成本高昂的预训练 3D-GENERALIST AI生成数据 自改进机制 成本降低 第4张

此外,3D-GENERALIST背后还有三大关键技术支持:自改进微调机制、规范场景领域特定语言、提升CLIP对齐分数。

03 成绩验证:物理合理性达99%,合成数据训练效果显著

在模拟就绪的3D环境生成任务中,3D-GENERALIST全面超越LayoutGPT、Holodeck、LayoutVLM等基线方法。物理合理性方面,其无碰撞分数达99.0%,边界内分数达98.0%。语义一致性方面,位置连贯性和旋转连贯性分数分别为78.2%和79.1%,综合物理语义对齐分数达67.9%。

英伟达3D-GENERALIST模型革新:AI生成3D数据或颠覆成本高昂的预训练 3D-GENERALIST AI生成数据 自改进机制 成本降低 第5张

经三轮自改进微调后,其CLIP分数达0.275