当前位置：首页 > 科技资讯 > 正文

英伟达3D-GENERALIST模型革新：AI生成3D数据或颠覆成本高昂的预训练

主机测评网
科技资讯
2026-06-23
552

智东西2月3日讯，近期，英伟达宣布其全新3D通用模型论文将于2026国际3D视觉会议发表，预印本已于去年7月面世。此论文开创了一种全新的3D世界构建范式，验证了“AI生成的3D合成数据”能够规模化替代人工标注数据，从而大幅降低视觉模型预训练的成本。

论文的核心成果为3D-GENERALIST模型，该模型采用统一框架，将3D环境生成的四大核心要素（布局、材质、光照、资产）纳入序贯决策框架。研究团队提出了基于CLIP评分的自改进微调策略，使模型在下一轮生成中能自主修正前序错误。

这篇论文的作者中有8位华人，第一二作者均为中国留学生，其中不乏清华“姚班”出身的斯坦福大学助理教授吴佳俊。

英伟达3D-GENERALIST模型革新：AI生成3D数据或颠覆成本高昂的预训练 3D-GENERALIST AI生成数据自改进机制成本降低第1张

在CES 2025上，英伟达推出了世界基础模型平台Cosmos。CES 2026的演讲中，黄仁勋再次将“Physical AI”作为发布核心，正式将Cosmos定位为Physical AI的“底层代码”与“世界模拟器”。此外，他还发布了Cosmos Reason 2，使AI不仅能生成世界，还能用自然语言进行链式因果推理。

那么，3D-GENERALIST如何为英伟达的Cosmos补全拼图并实现技术突破？我们尝试从论文中寻找答案。

01 现有痛点：仅生成静态3D图像，缺乏独立交互能力

当前可交互3D环境的创建仍面临挑战。例如，现有技术通常聚焦于单一环节的优化，难以实现全要素的协同优化。且生成的场景缺乏可分离、可操作的物体和表面，生成的数据不适合需要精准标注的合成数据应用或机器人交互仿真场景。

简而言之，现有技术只能生成静态的3D图像，虚拟世界中的物体无法独立交互。而3D-GENERALIST正是为了解决这些痛点而诞生的。

02 研究方法：引入自改进机制，多模型协同工作

斯坦福和英伟达研究团队的核心思路是将一个“设计师”扩展为一个“建筑师团队”，将任务细化，每个步骤由专人负责。

研究团队首先通过全景扩散模型生成360°引导图像，随后提出“场景性策略”：利用HorizonNet提取房间基础结构，通过Grounded-SAM技术识别墙体并分割出门窗区域，再由GPT-4o等VLM标注门窗类型与材质，构建带基础构件的3D房间。

英伟达3D-GENERALIST模型革新：AI生成3D数据或颠覆成本高昂的预训练 3D-GENERALIST AI生成数据自改进机制成本降低第2张

之后，VLM作为决策“大脑”，输出代码形式的具体动作指令，如添加资产、调整光照等，这些指令由工具API执行，实时更新3D房间。

英伟达3D-GENERALIST模型革新：AI生成3D数据或颠覆成本高昂的预训练 3D-GENERALIST AI生成数据自改进机制成本降低第3张

为了让虚拟场景中的物体实现独立交互，研究团队设计了资产级优化策略。通过GPT-4o识别容器类资产，结合基于网格的表面检测技术，精准定位有效放置区域。随后使用视觉语言模型Molmo-7B确定具体放置点，并通过3D射线转换实现高精度坐标定位。

英伟达3D-GENERALIST模型革新：AI生成3D数据或颠覆成本高昂的预训练 3D-GENERALIST AI生成数据自改进机制成本降低第4张

此外，3D-GENERALIST背后还有三大关键技术支持：自改进微调机制、规范场景领域特定语言、提升CLIP对齐分数。

03 成绩验证：物理合理性达99%，合成数据训练效果显著

在模拟就绪的3D环境生成任务中，3D-GENERALIST全面超越LayoutGPT、Holodeck、LayoutVLM等基线方法。物理合理性方面，其无碰撞分数达99.0%，边界内分数达98.0%。语义一致性方面，位置连贯性和旋转连贯性分数分别为78.2%和79.1%，综合物理语义对齐分数达67.9%。

英伟达3D-GENERALIST模型革新：AI生成3D数据或颠覆成本高昂的预训练 3D-GENERALIST AI生成数据自改进机制成本降低第5张

经三轮自改进微调后，其CLIP分数达0.275

服务器教程免费vps 高防服务器

本文由主机测评网于2026-06-23发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260648187.html

上一篇
马斯克重塑AI版图：太空与AI的超级整合

下一篇
AI音乐下半场：专业深度与系统能力的较量

相关文章

2026年L4无人物流火爆，商业化前景可期

OpenScholar：开创科学文献综述AI新时代

无屏AI玩具：激发孩子想象力，创新商业模式

莆田80后逆袭：从数据线到280亿商业帝国

二次元少女带你玩转学术论文

马斯克访华光伏企业，市场掀起太空光伏热潮

Threads逆袭X：Meta的社交围剿与X的困境

具身智能：从非共识到爆发的资本狂潮