当前位置:首页 > 科技资讯 > 正文

AI视频的未来:物理派 vs 世俗派

最近影视圈的朋友们有点焦虑,虽然这个圈一直都不平静,这些年票房下滑、募资难,出品人的日子也不好过,但这次不一样,他们担心的是:AI会不会抢了他们的饭碗?

2月7日那天,字节跳动旗下即梦平台悄然上线了Seedance 2.0。没有发布会,没有铺天盖地的预热,只是在飞书上放了一份产品文档,标题简洁到近乎嚣张——“Kill the game”。

接下来的几天里,《黑神话:悟空》制作人冯骥发布数百字长评,称其为“当前地表最强的视频生成模型”,断言“AIGC的童年时代结束了”;科技博主影视飓风Tim也连呼六次“恐怖”。

这一切看起来都是“中国AI的胜利叙事”——六十秒多镜头、分镜脚本控制、原生音画同步、电影感拉满,它给大家带来了“人人都能当导演的”想象。

过去国内影视行业学习好莱坞的“电影工业”模式,还没学会,现在又要被“Seedance时刻”重新解构。

然而,在这欢呼声中,却很少有人追问一个更根本的问题——这种技术路线的天花板在哪里?它是真的代表了AI视频的未来方向,还是仅仅是一次成功的工程化优化?

要回答这个问题,我们就不得不回到那场持续了两年多的路线之争。

早在2024年,当OpenAI的Sora首次向世人展示其惊艳的能力时,图灵奖得主、Meta首席AI科学家杨立昆就泼下了一盆冷水。他直言不讳地表示,Sora及其同类产品不过是“像素幻觉”。

杨立昆的核心论点是:如果一个模型不懂真正的物理规律,不理解物体之间的因果关系和空间关系,那么所有视频生成模型都走不长远,最终都会在更复杂的场景中“露馅”。

这就是此刻横亘在AI视频赛道面前的根本分歧。

一派我称之为“世俗派”,以字节、快手为代表,追求电影感与叙事流畅,技术路线是数据驱动的风格模仿。

另一派是“物理派”,以杨立昆的AMI Labs、英伟达的Cosmos平台、DeepMind的Genie 3为代表,认为视频只是世界模型的副产品,真正的目标是让AI理解质量、动量、因果和空间。

两派的分歧不是技术细节之争,而是对“视频到底是什么”的根本性分歧——它是给人看的像素序列,还是物理世界运行规律的一个投影?

这个问题的答案,将决定Seedance乃至字节在这场竞赛中的终局位置。

01 两派的天花板

要理解这两条路线之间的本质差异,我们要跳出从技术细节,从商业生态和长期天花板的角度来思考。

从目前来看,Seedance 2.0优化的是“导演意图→像素”的转化率。它做得极好——你写一段提示词,它自动规划分镜和运镜,同时吞吐文字、图片、视频、音频四种模态的参考信息,一次性吐出带完整音轨的多镜头视频。

这是一种极其聪明的工程优化,原本需要专业团队花费数天时间拍摄和剪辑的视频,现在只需要放素材、输入几个提示词就能在几分钟内生成。

但它有一个结构性的局限:每一次生成都是一次性成果,即刻被消费。

你用Seedance 2.0做出了一段精美的赛博朋克追车戏,但这段视频里的城市、飞行汽车、反派角色,全部无法被提取出来复用。它们不是“资产”,只是“像素”。你不能调整视频中的某个物体的物理属性,不能与这段视频进行任何形式的交互。它就是一个一次性消费品,用完即弃。

这意味着世俗派的天花板被锁死在“内容消费”这一层。电影、短剧、广告、电商视频是市场巨大,但底层逻辑是“生成一次,消费一次”。

而物理派打开的是另一扇门:可复用的三维世界。一旦AI真正理解了物理规律,它生成的不是像素序列,而是一个有质量、有碰撞、有光照、有因果律的虚拟环境——这个环境可以被游戏引擎调用,可以被机器人在其中训练,也可以被自动驾驶系统用来模拟边缘案例。这些是万亿级的市场。

最具说服力的案例是Unreal Engine 5向影视行业的渗透。

AI视频的未来:物理派 vs 世俗派 AI视频 物理派 技术路线 第1张

更关键的是,StageCraft中的虚拟场景资产——3D建筑、地形、光照预设——全部可复用,可以在下一部剧集中被调用、修改、组合,甚至授权给游戏开发团队做成可交互的虚拟世界。一次建模,无限复用。这正是“资产思维”与“像素思维”的本质差异。

这项技术的意义远不止于提高效率。它标志着游戏引擎这个原本属于游戏产业的技术,正在渗透进影视制作的核心环节。Unreal Engine不再只是一个游戏开发工具,它正在成为影视工业的基础设施。

02 物理派的降维打击

更具跨界说服力的案例来自英伟达与工业光魔的合作探索。

AI视频的未来:物理派 vs 世俗派 AI视频 物理派 技术路线 第2张

在《侏罗纪世界:统治》中,工业光魔(ILM)就使用了Omniverse连接Maya、Houdini、Unreal等工具,实现跨软件的实时物理协作。恐龙皮肤的肌肉变形、植被的风力摆动、水花的流体模拟,在不同软件间实时同步物理状态。Omniverse让物理仿真成为实时共享的基础设施。

当物理世界模型能够理解重力、惯性、碰撞、材质变化等底层规律时,它生成的将不仅是“看起来像”的视频,而是一个可以实时交互的虚拟片场。

导演可以在这个数字孪生环境中预先演练镜头运动、光照变化、甚至演员走位——这意味着拍电影不再是“拍一次,看一次”的线性流程,而是可以反复推敲、动态调整的沉浸式创作。

更进一步,这个虚拟片场的环境参数可以无缝对接工业机器人训练场景:同样的光照模型可以用于训练机器人在真实工厂中的视觉识别系统;同样的空间逻辑可以用于自动驾驶的仿真测试。物理派正在成为横跨娱乐与工业的基础设施。

03 如何跳出内容红海

AI视频的未来:物理派 vs 世俗派 AI视频 物理派 技术路线 第3张