文|富充 周鑫雨
编辑|苏建勋
“如果2026年还只盯着视频生成本身做迭代,那将远远不够。”Luma AI的首席科学家宋佳铭,向《智能涌现》分享了他的前瞻性观点。
成立于2021年的Luma AI,是美国视频生成赛道的明星初创企业。据《智能涌现》了解,近期Luma AI已按40亿美元估值,顺利完成9亿美元C轮融资。本轮由沙特公共投资基金(PIF)旗下机构HUMAIN领投,AMD Ventures、Andreessen Horowitz、Amplify Partners、Matrix Partners等现有股东均大幅追加投资。
在视频生成类AI公司普遍聚焦于延长视频时长和提升画质之际,宋佳铭明确表达了他的不同见解:下一阶段真正需要突破的,并非画面本身,而是模型对现实世界的理解与推理能力。
他以一个影视制作场景为例进行说明:在拍摄过程中,若导演需要补拍一个遗漏的俯拍镜头,传统视频生成模型仅能依据提示词生成一段内容,却往往与前后画面在细节上出现不一致。
而推理模型则能理解已有片段的场景空间、角色位置与镜头逻辑,从而生成在物理上更合理、衔接更流畅的视频内容。
正因如此,具备推理能力的视频生成模型有望广泛应用于专业影视与广告制作,这为其商业化落地奠定了坚实基础。
“Sora 2掀起的大众玩梗热潮,并不意味着视频模型的To C时代已经真正来临。普通用户在新鲜感消退后,难以形成持续付费意愿。”宋佳铭在解释当前视频生成模型的商业现状时指出。
而实现视频生成模型更强推理能力的关键,在于采用语言、图像与视频数据,训练“多模态大一统”模型。因为多模态融合将为模型提供更丰富、更多元的数据,从而推动模型能力从“生成”跃升至“理解”。
这一路径今年已在图像生成领域得到验证:2024年业界对多模态架构仍存分歧,而进入2025年后,图片生成模型已基本将文生图、图编辑等任务整合进统一框架。竞争焦点也已从架构设计转向高质量数据的收集。
他认为,视频生成模型明年将迎来同样的收敛过程。
不断预判下一步技术与商业化方向,并勇于自我突破,是Luma AI始终秉持的理念。
这家2021年创立的公司最初专注于3D生成,于2023年底转向市场空间更为广阔的视频生成领域。
2024年6月,Luma AI推出面向AI与设计“小白”的视频生成模型Dream Machine,开启C端市场探索。Dream Machine以“零推广费”在4天内吸引百万用户,凭借电影级运镜与生成效果,被业界誉为“能与Sora一较高下的视频生成模型”。
不过,Luma并未沉迷于C端热度。今年以来,Luma AI逐步将重心转向付费意愿更强、需求更刚性的B端专业用户——包括影视、广告、内容制作机构等。
今年9月,Luma AI推出全球首个视频推理大模型Ray 3。
但在近期专访中,宋佳铭向《智能涌现》给出了新的判断:Ray 3很可能是Luma最后一代传统视频生成模型。公司已将“多模态大一统模型”确立为下一阶段的核心方向。
这一目标也意味着对更大算力和资金的需求。
Luma AI本轮投资方之一的HUMAIN正在沙特建设名为“Project Halo”的2GW人工智能超算集群,这是全球最大的算力基础设施建设项目之一。Luma AI将作为核心客户采用该算力,用于训练下一代多模态世界模型,进一步提升视频推理与大一统模型的能力。
从3D生成起步,到凭借Dream Machine在C端引发关注,再到如今通过布局推理、多模态大一统模型更好地服务B端专业客户,Luma AI的每次关键抉择都在原有业务基础上,向外再迈出一步。
关于对当前视频生成模型的行业观察及未来预测,宋佳铭在专访中详细阐述了他的观点。以下内容整理自对话:
△宋佳铭,图片:采访对象提供
智能涌现:你自己说过“Ray 3可能是Luma AI最后一代传统的文生视频模型”,这句话如何理解?
宋佳铭:我的判断是,未来的大模型不会再将图片、视频、音频、文本视为彼此孤立的模态,而是将它们纳入一个统一的框架进行处理,这就是我们所说的“多模态大一统”模型。
多模态大一统带来的数据量增长,将赋予视频生成模型更出色的推理能力,有助于模型做出更合理的视频处理,并帮助用户自动甄别视频中的问题。
语言模型之所以强大,是因为它具备强大的上下文学习、Zero-shot(零样本学习)等能力,也拥有卓越的推理性能。我认为这些能力迟早会在视觉和视频模态中体现,而不仅仅是在卷时长、卷画质上做文章。
智能涌现:能否用一个具体例子说明视频推理模型与传统视频模型的差异?
宋佳铭:以拍戏场景为例。实际拍摄中,剧组会同时架设多个机位,分别拍摄不同演员的多角度镜头。假如收工后导演突然发现遗漏了一个俯拍全景镜头,需要AI“补拍”一段。
此时,若仅使用传统视频生成模型,它大概率会“发挥想象力”生成一个看起来还行的俯拍镜头,但细看会发现:人物位置、背景物体布局与之前的机位可能无法匹配。
而在我们定义的视频推理任务中,模型需要先做的不是“生成”,而是“理解和推理”:它要从不同机位的素材中,找到同一背景物体在不同视角下的对应关系,推理出每个演员、每件道具在统一三维空间中的位置,然后再从一个全新的俯视视角,生成一段物理上合理、镜头运动自然、与前面镜头无缝衔接的视频。
智能涌现:今年很多视频生成模型公司的业绩都不错,技术路径也百花齐放,但你似乎认为“这是最后一个视频模型百花齐放的年份”,并且明年视频生成会收敛到大一统模型,这是为什么?
宋佳铭:从图像生成模型的历史规律来看,去年业界可能还在犹豫是否要做图像模型的大一统。或者说,去年大家倾向于面向不同任务做不同的工具流,然后根据任务进行相应调整或模型微调,但今年大家的路线是把任务都整合进同一个多模态模型里。
到了现在,很少有人会声称做一个和GPT 4o或Nano Banana完全不一样的架构。当架构统一后,竞争的核心便从模型设计转向了数据驱动,真正的重点在于能否收集到足够量且优质的数据。
我认为图像领域今年发生的变化,视频领域明年也将重现。
智能涌现:在大一统模型的技术路径上,Ray 3对于Luma来说扮演着什么角色?
宋佳铭:Ray 3算是一个阶段性成果。
其中比较重要的积累是基础设施,无论是训练基础设施、推理基础设施,还是数据基础设施,其重要性可能都超过了算法积累本身。
因为算法大家已探索多年,其实并未出现太多颠覆性变化。基本上都在沿用五年前的自回归路线(GPT 3)和扩散模型路线(DDPM),这五年来虽有微调,但变动不大。所以我认为,期间最重大的进步都源于Scaling,即模型和数据规模的扩大。
智能涌现:多模态大一统、视频推理模型,这些方向与你心目中的AGI有何关联?
宋佳铭:我对AGI的标准较为苛刻。
现在很多人会说“某些代码模型已经超过大部分程序员”,我同意在这个维度上它可以称为“超人”,但如果仅此而已,那计算器早就超越人类心算了,我们也不会称之为AGI。对我而言,如果人类能在某个任务上做到,而AI完全做不到,那就还谈不上AGI。
目前在很多维度上,AI距离人类还有很大差距,比如自动驾驶、机器人、具身智能,以及对真实物理世界的长期规划和执行。
多模态大一统视频模型对于AGI的意义,就在于最终能将现实世界的理解和操作能力,从纯语言空间扩展到视觉、动作、时间等多个维度。
△Luma AI的模型可以仅凭提示词,生成画面高清、且充满想象力的HDR视频片段,图片:采访对象提供
智能涌现:从产品角度看,之前Sora 2、Nano Banana的出圈给模型公司带来哪些启示?
宋佳铭:一个重要提示是:要从产品角度设计使用场景,找到驱动用户使用的点,让技术特点本身成为传播爆点。
智能涌现:之前Luma AI的Dream Machine推出时,我们采访中提到它在很大程度上能服务于没有太多设计、AI积累的C端人群。但后来公司重心逐渐转向B端专业用户,这是为什么?
宋佳铭:我更愿意将其视为一个渐变过程,而非突然掉头。
可以类比语言模型:Chatbot的C端热度去年已很高,但今年大家谈得更多的是写代码、智能体等明确的To B、To Pro场景。
因为对普通用户来说,各家Chatbot的差别并不显著,大家也不愿为此支付高额订阅费;但对程序员而言,如果一个工具能让其产出翻倍,公司愿意为这个工具买单。
视频模型也是类似逻辑。C端用户玩视频生成容易腻,也不一定有稳定的付费意愿;而B端客户——比如影视公司、广告公司、内容制作方——一旦发现某个AI能在主流程中节省大量人力、时间和硬件投入,他们的付费意愿和粘性将远高于C端。
智能涌现:之前Open AI的Sora 2在社交平台上被大家玩梗玩得很开心。你觉得,这代表着视频生成模型开始走向C端了吗?
宋佳铭:我认为Open AI做To C和视频生成模型做To C是两个概念。Open AI做To C更多是因为其估值已达5000亿美元,若去做To B,似乎没有哪个B端能承接它的盘子。
Open AI本身就是一个庞大的商业体,需要寻找更大的增长点。这和Meta、字节跳动的逻辑一致,即当规模大到一定程度,企业肯定会尝试To C,探索规模最大化。但这不代表整个视频生成模型领域也要、或者也能做To C。
美国著名投资机构A16z的合伙人Olivia Moore曾在社交媒体上发布一组数据,显示Sora 2在30天的留存仅为1%,60天的留存就低于1%。相比之下,TikTok视频的留存率可维持在30%左右。这也侧面说明,Sora 2的玩梗效应并不能代表视频生成模型已跑通C端。
智能涌现:视频生成模型走向C端还面临哪些现实难点?
宋佳铭:从纯技术角度看,短视频平台上已出现不少AI视频内容,To C并非技术瓶颈。难点在于想清楚商业模式能否跑通。
从商业模式上,我尚未看清视频生成To C应用作为社交产品的价值所在。
如今的抖音、YouTube、Instagram,本质上是“社交+分发”平台,大部分人看的还是那1%最热门的视频,围绕这些内容形成公共话题。如果未来每个人都在看AI为自己定制的视频,人与人之间的共鸣反而会下降,大家缺少“看同一件东西”的交流基础,这不符合社交的基本逻辑。
智能涌现:现在视频生成做得不错的公司不少,在To B侧你觉得竞争压力大吗?
宋佳铭:单看舆论场,会觉得竞争非常激烈,但在美国To B市场,实际压力没有表面那么大。
原因其实很现实:第一是政治和合规因素,经过筛选后,真正能进入严肃美国企业名单的几乎都是美国本土供应商。这个名单其实很短,比如Google、我们,以及少数几家美国创业公司。
第二是美国To B市场本身更成熟,对软件订阅、API收费、企业服务的接受度更高。To B生意“好做”不是说轻松,而是商业模式更清晰。
智能涌现:Dream Machine在今年6月上线后,外界看到的一些商业化成绩似乎还不错。不过Luma起步时是做3D视频生成业务,当时的商业化情况如何?差异主要在哪里?
宋佳铭:之前我们在3D方面有过商业化尝试,但我不认为那是可复制或很成功的。
当时的3D生成技术,无论从质量还是应用场景都比视频弱一些。
目前使用3D生成模型最多的应用场景还是集中在游戏、数字人等领域,这类具备深度科技能力的游戏公司并不多,潜在客户量较少。而且,像腾讯这种既有强3D能力、又有游戏业务的大厂,理论上更倾向于自己做基础能力,不太会长期依赖外部模型。
从技术上来说,3D数据本身远少于视频数据,AR/VR生态整体也尚未成熟到“内容极度缺乏、必须靠生成式AI填充”的阶段。所以从结果上看,3D在我们这里更像是前期探索,真正被验证有商业潜力、市场接受度的,还是视频这条线。
视频生成模型没有绝对技术护城河
智能涌现:从你的视角看,现在的视频生成领域有没有所谓的“绝对护城河”?
宋佳铭:目前我不认为有哪一种模型结构或方案能构成绝对护城河。
过去几年能看到的是,大家在同一个大方向上不断尝试各种组合,算法层面过去一两年并未出现颠覆性新结构,差异主要体现在迭代速度和工程实现上。
真正拉开差距的是谁能在大规模上把这套东西“跑通又跑稳”,而不是“谁先想到了这个点子”。
语言模型的总量基本在几十T或不超过100T的量级,而视频模型很容易达到几PB或几十PB的数据量,这是文字的几百上千倍。
所以在视频领域,更大的挑战反而是:获取数据的能力,以及是否有能力在工程上支撑如此大规模的数据,清洗好、对齐好,让模型真正从中学习。
智能涌现:视频生成模型现在似乎也没有统一的评判标准,“最强模型”如何判断?
宋佳铭:确实没有统一标准,这背后有几个原因。第一是技术路线仍在探索,相较于语言模型已有高度收敛的架构,视频这边在架构和训练方式上还有很多可探索的空间。
所以我不太愿意简单说“谁是世界最强的视频模型”。而且,打榜成绩只反映一部分特性,我认为更关键的是客户在实际工作流中到底需要什么功能,比如有没有HDR,这更符合专业视频生产的需求。
如果从有HDR这个维度来讲,我们独此一家,但看其他指标,评价标准又会有所不同。
△相比于通常视频的8比特像素,HDR的颜色表达范围多了一个数量级,这体现在更多的高光和阴影细节上,对于电影制作管线至关重要,图片:采访对象提供
智能涌现:扩散模型和自回归模型,谁的“天花板”更高?
宋佳铭:我现在不会给出“谁的天花板更高”的结论。真正决定上限的,其实是数据量和架构设计,从数学层面上,都尚未触及实际天花板。
我觉得关键还是找到商业用户的痛点,这样才能提供客户真正想要的东西,这不一定与AI的模型能力直接相关。
智能涌现:你觉得视频和大一统模型的赛道,会像语言模型一样收敛到少数几家吗?这对初创公司意味着什么?
宋佳铭:我认为这是几乎可以类推的结论。
回顾语言模型这条线,会发现一直能持续做好的玩家其实就那么几家,很多项目要么转型,要么被并购,要么慢慢消失。视频和多模态大一统,本质上是同一条大模型产业链上的分支,只要与“基座模型”绑定得足够深,它也不可避免地会走向头部高度集中。
在国内,我个人基本不会考虑从零做这种基座模型创业,因为大厂在资金、人力、算力上的优势太大,留给纯技术向创业公司的空间非常有限;在美国会好一些,美元基金还有动力在这个方向下注,退出机制也更清晰,与大厂之间的合作、并购、共建都更常态化。
智能涌现:Ray 3是9月推出的,Ray 2的推出大约在七个月之前,在这七个月里,Luma团队尝试了不同方向吗?什么才是重点?
宋佳铭:我们会尝试不同方向,比如世界模型,但最主要的还是大一统模型。
大一统模型有多种方法将不同模型拼凑起来,其中一些组合能带来短期收益,比如用别的公司训练好的模型实现某些能力。与训练自己的模型相比,这当然是更快的。
我们希望兼顾短期收益,但总体而言,更倾向于完成长远布局。
智能涌现:这次C轮融资,你们拿到了9亿美元级别的资金,估值也大幅提升。在你看来,投资人下注的核心理由是什么?
宋佳铭:这次由沙特主权基金PIF旗下的HUMAIN领投,AMD Ventures和Amplify、Matrix等老股东都继续加码。对我们自己来说,这件事更像是几层逻辑被外部验证了一次。
这包括过去成绩,以及创新和迭代速度的验证。
同时,投资人也在寻找“下一个基座模型玩家”。对一些美元基金来说,他们并不满足于只看短期商业化利益,而是希望长期押注真正有机会做大的公司。我想,更看重长期布局的能力也是投资人下注我们的理由。
智能涌现:C轮融资这笔钱具体会花在哪里?
宋佳铭:算力仍然是绝对大头,无论是训练还是推理,对做大规模多模态模型的公司来说,都是最大的刚性支出。
另一块是人才和基础设施建设,我们需要继续扩充工程和系统团队,不是为了变成“小版的大厂”,而是为了真正把这些模型“跑得更稳、更快、更便宜”。
智能涌现:现在Luma的团队结构是怎样的?在招人这件事上,你个人更看重什么?
宋佳铭:目前团队约一百三十人,其中30%–40%是技术研发,其余是产品、商业、市场和运营。
与很多公司不同,我们没有特别强调“传统意义上的产品经理”,而是让很多人共同承担产品职责:有些人偏工程,但非常懂用户场景;有些人偏运营,又能把需求翻译成清晰的技术任务,所以“产品思考”被分散在很多人身上。
招人方面,我们会尽量避免卷入“抢明星选手”的价格战,更像足球俱乐部里的“青训和球探体系”:那些已家喻户晓的球员,转会费必然高昂,创业公司去抢代价极大;我们更希望在一个人尚未被市场广泛认可之前,就发现他、支持他。
我个人非常看重三点:写代码能力扎实,学习速度快,以及自驱力和对这件事的长期兴趣。
封面来源|企业官方
本文由主机测评网于2026-02-28发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260227664.html