当前位置：首页 > 科技资讯 > 正文

Luma AI获9亿美元融资，首席科学家宋佳铭预测视频生成模型将向推理与多模态融合演进

主机测评网
科技资讯
2026-02-28
939

文｜富充周鑫雨

编辑｜苏建勋

“如果2026年还只盯着视频生成本身做迭代，那将远远不够。”Luma AI的首席科学家宋佳铭，向《智能涌现》分享了他的前瞻性观点。

成立于2021年的Luma AI，是美国视频生成赛道的明星初创企业。据《智能涌现》了解，近期Luma AI已按40亿美元估值，顺利完成9亿美元C轮融资。本轮由沙特公共投资基金（PIF）旗下机构HUMAIN领投，AMD Ventures、Andreessen Horowitz、Amplify Partners、Matrix Partners等现有股东均大幅追加投资。

在视频生成类AI公司普遍聚焦于延长视频时长和提升画质之际，宋佳铭明确表达了他的不同见解：下一阶段真正需要突破的，并非画面本身，而是模型对现实世界的理解与推理能力。

他以一个影视制作场景为例进行说明：在拍摄过程中，若导演需要补拍一个遗漏的俯拍镜头，传统视频生成模型仅能依据提示词生成一段内容，却往往与前后画面在细节上出现不一致。

而推理模型则能理解已有片段的场景空间、角色位置与镜头逻辑，从而生成在物理上更合理、衔接更流畅的视频内容。

正因如此，具备推理能力的视频生成模型有望广泛应用于专业影视与广告制作，这为其商业化落地奠定了坚实基础。

“Sora 2掀起的大众玩梗热潮，并不意味着视频模型的To C时代已经真正来临。普通用户在新鲜感消退后，难以形成持续付费意愿。”宋佳铭在解释当前视频生成模型的商业现状时指出。

而实现视频生成模型更强推理能力的关键，在于采用语言、图像与视频数据，训练“多模态大一统”模型。因为多模态融合将为模型提供更丰富、更多元的数据，从而推动模型能力从“生成”跃升至“理解”。

这一路径今年已在图像生成领域得到验证：2024年业界对多模态架构仍存分歧，而进入2025年后，图片生成模型已基本将文生图、图编辑等任务整合进统一框架。竞争焦点也已从架构设计转向高质量数据的收集。

他认为，视频生成模型明年将迎来同样的收敛过程。

不断预判下一步技术与商业化方向，并勇于自我突破，是Luma AI始终秉持的理念。

这家2021年创立的公司最初专注于3D生成，于2023年底转向市场空间更为广阔的视频生成领域。

2024年6月，Luma AI推出面向AI与设计“小白”的视频生成模型Dream Machine，开启C端市场探索。Dream Machine以“零推广费”在4天内吸引百万用户，凭借电影级运镜与生成效果，被业界誉为“能与Sora一较高下的视频生成模型”。

不过，Luma并未沉迷于C端热度。今年以来，Luma AI逐步将重心转向付费意愿更强、需求更刚性的B端专业用户——包括影视、广告、内容制作机构等。

今年9月，Luma AI推出全球首个视频推理大模型Ray 3。

但在近期专访中，宋佳铭向《智能涌现》给出了新的判断：Ray 3很可能是Luma最后一代传统视频生成模型。公司已将“多模态大一统模型”确立为下一阶段的核心方向。

这一目标也意味着对更大算力和资金的需求。

Luma AI本轮投资方之一的HUMAIN正在沙特建设名为“Project Halo”的2GW人工智能超算集群，这是全球最大的算力基础设施建设项目之一。Luma AI将作为核心客户采用该算力，用于训练下一代多模态世界模型，进一步提升视频推理与大一统模型的能力。

从3D生成起步，到凭借Dream Machine在C端引发关注，再到如今通过布局推理、多模态大一统模型更好地服务B端专业客户，Luma AI的每次关键抉择都在原有业务基础上，向外再迈出一步。

关于对当前视频生成模型的行业观察及未来预测，宋佳铭在专访中详细阐述了他的观点。以下内容整理自对话：

Luma AI获9亿美元融资，首席科学家宋佳铭预测视频生成模型将向推理与多模态融合演进视频生成模型多模态大一统推理能力 AI 第1张

△宋佳铭，图片：采访对象提供

视频生成模型的未来：推理能力、多模态大一统

智能涌现：你自己说过“Ray 3可能是Luma AI最后一代传统的文生视频模型”，这句话如何理解？

宋佳铭：我的判断是，未来的大模型不会再将图片、视频、音频、文本视为彼此孤立的模态，而是将它们纳入一个统一的框架进行处理，这就是我们所说的“多模态大一统”模型。

多模态大一统带来的数据量增长，将赋予视频生成模型更出色的推理能力，有助于模型做出更合理的视频处理，并帮助用户自动甄别视频中的问题。

语言模型之所以强大，是因为它具备强大的上下文学习、Zero-shot（零样本学习）等能力，也拥有卓越的推理性能。我认为这些能力迟早会在视觉和视频模态中体现，而不仅仅是在卷时长、卷画质上做文章。

智能涌现：能否用一个具体例子说明视频推理模型与传统视频模型的差异？

宋佳铭：以拍戏场景为例。实际拍摄中，剧组会同时架设多个机位，分别拍摄不同演员的多角度镜头。假如收工后导演突然发现遗漏了一个俯拍全景镜头，需要AI“补拍”一段。

此时，若仅使用传统视频生成模型，它大概率会“发挥想象力”生成一个看起来还行的俯拍镜头，但细看会发现：人物位置、背景物体布局与之前的机位可能无法匹配。

而在我们定义的视频推理任务中，模型需要先做的不是“生成”，而是“理解和推理”：它要从不同机位的素材中，找到同一背景物体在不同视角下的对应关系，推理出每个演员、每件道具在统一三维空间中的位置，然后再从一个全新的俯视视角，生成一段物理上合理、镜头运动自然、与前面镜头无缝衔接的视频。

智能涌现：今年很多视频生成模型公司的业绩都不错，技术路径也百花齐放，但你似乎认为“这是最后一个视频模型百花齐放的年份”，并且明年视频生成会收敛到大一统模型，这是为什么？

宋佳铭：从图像生成模型的历史规律来看，去年业界可能还在犹豫是否要做图像模型的大一统。或者说，去年大家倾向于面向不同任务做不同的工具流，然后根据任务进行相应调整或模型微调，但今年大家的路线是把任务都整合进同一个多模态模型里。

到了现在，很少有人会声称做一个和GPT 4o或Nano Banana完全不一样的架构。当架构统一后，竞争的核心便从模型设计转向了数据驱动，真正的重点在于能否收集到足够量且优质的数据。

我认为图像领域今年发生的变化，视频领域明年也将重现。

智能涌现：在大一统模型的技术路径上，Ray 3对于Luma来说扮演着什么角色？

宋佳铭：Ray 3算是一个阶段性成果。

其中比较重要的积累是基础设施，无论是训练基础设施、推理基础设施，还是数据基础设施，其重要性可能都超过了算法积累本身。

因为算法大家已探索多年，其实并未出现太多颠覆性变化。基本上都在沿用五年前的自回归路线（GPT 3）和扩散模型路线（DDPM），这五年来虽有微调，但变动不大。所以我认为，期间最重大的进步都源于Scaling，即模型和数据规模的扩大。

智能涌现：多模态大一统、视频推理模型，这些方向与你心目中的AGI有何关联？

宋佳铭：我对AGI的标准较为苛刻。

现在很多人会说“某些代码模型已经超过大部分程序员”，我同意在这个维度上它可以称为“超人”，但如果仅此而已，那计算器早就超越人类心算了，我们也不会称之为AGI。对我而言，如果人类能在某个任务上做到，而AI完全做不到，那就还谈不上AGI。

目前在很多维度上，AI距离人类还有很大差距，比如自动驾驶、机器人、具身智能，以及对真实物理世界的长期规划和执行。

多模态大一统视频模型对于AGI的意义，就在于最终能将现实世界的理解和操作能力，从纯语言空间扩展到视觉、动作、时间等多个维度。

Luma AI获9亿美元融资，首席科学家宋佳铭预测视频生成模型将向推理与多模态融合演进视频生成模型多模态大一统推理能力 AI 第2张

△Luma AI的模型可以仅凭提示词，生成画面高清、且充满想象力的HDR视频片段，图片：采访对象提供

To C时代尚未真正到来

智能涌现：从产品角度看，之前Sora 2、Nano Banana的出圈给模型公司带来哪些启示？

宋佳铭：一个重要提示是：要从产品角度设计使用场景，找到驱动用户使用的点，让技术特点本身成为传播爆点。

智能涌现：之前Luma AI的Dream Machine推出时，我们采访中提到它在很大程度上能服务于没有太多设计、AI积累的C端人群。但后来公司重心逐渐转向B端专业用户，这是为什么？

宋佳铭：我更愿意将其视为一个渐变过程，而非突然掉头。

可以类比语言模型：Chatbot的C端热度去年已很高，但今年大家谈得更多的是写代码、智能体等明确的To B、To Pro场景。

因为对普通用户来说，各家Chatbot的差别并不显著，大家也不愿为此支付高额订阅费；但对程序员而言，如果一个工具能让其产出翻倍，公司愿意为这个工具买单。

视频模型也是类似逻辑。C端用户玩视频生成容易腻，也不一定有稳定的付费意愿；而B端客户——比如影视公司、广告公司、内容制作方——一旦发现某个AI能在主流程中节省大量人力、时间和硬件投入，他们的付费意愿和粘性将远高于C端。

智能涌现：之前Open AI的Sora 2在社交平台上被大家玩梗玩得很开心。你觉得，这代表着视频生成模型开始走向C端了吗？

宋佳铭：我认为Open AI做To C和视频生成模型做To C是两个概念。Open AI做To C更多是因为其估值已达5000亿美元，若去做To B，似乎没有哪个B端能承接它的盘子。

Open AI本身就是一个庞大的商业体，需要寻找更大的增长点。这和Meta、字节跳动的逻辑一致，即当规模大到一定程度，企业肯定会尝试To C，探索规模最大化。但这不代表整个视频生成模型领域也要、或者也能做To C。

美国著名投资机构A16z的合伙人Olivia Moore曾在社交媒体上发布一组数据，显示Sora 2在30天的留存仅为1%，60天的留存就低于1%。相比之下，TikTok视频的留存率可维持在30%左右。这也侧面说明，Sora 2的玩梗效应并不能代表视频生成模型已跑通C端。

智能涌现：视频生成模型走向C端还面临哪些现实难点？

宋佳铭：从纯技术角度看，短视频平台上已出现不少AI视频内容，To C并非技术瓶颈。难点在于想清楚商业模式能否跑通。

从商业模式上，我尚未看清视频生成To C应用作为社交产品的价值所在。

如今的抖音、YouTube、Instagram，本质上是“社交+分发”平台，大部分人看的还是那1%最热门的视频，围绕这些内容形成公共话题。如果未来每个人都在看AI为自己定制的视频，人与人之间的共鸣反而会下降，大家缺少“看同一件东西”的交流基础，这不符合社交的基本逻辑。

智能涌现：现在视频生成做得不错的公司不少，在To B侧你觉得竞争压力大吗？

宋佳铭：单看舆论场，会觉得竞争非常激烈，但在美国To B市场，实际压力没有表面那么大。

原因其实很现实：第一是政治和合规因素，经过筛选后，真正能进入严肃美国企业名单的几乎都是美国本土供应商。这个名单其实很短，比如Google、我们，以及少数几家美国创业公司。

第二是美国To B市场本身更成熟，对软件订阅、API收费、企业服务的接受度更高。To B生意“好做”不是说轻松，而是商业模式更清晰。

智能涌现：Dream Machine在今年6月上线后，外界看到的一些商业化成绩似乎还不错。不过Luma起步时是做3D视频生成业务，当时的商业化情况如何？差异主要在哪里？

宋佳铭：之前我们在3D方面有过商业化尝试，但我不认为那是可复制或很成功的。

当时的3D生成技术，无论从质量还是应用场景都比视频弱一些。

目前使用3D生成模型最多的应用场景还是集中在游戏、数字人等领域，这类具备深度科技能力的游戏公司并不多，潜在客户量较少。而且，像腾讯这种既有强3D能力、又有游戏业务的大厂，理论上更倾向于自己做基础能力，不太会长期依赖外部模型。

从技术上来说，3D数据本身远少于视频数据，AR/VR生态整体也尚未成熟到“内容极度缺乏、必须靠生成式AI填充”的阶段。所以从结果上看，3D在我们这里更像是前期探索，真正被验证有商业潜力、市场接受度的，还是视频这条线。

视频生成模型没有绝对技术护城河

智能涌现：从你的视角看，现在的视频生成领域有没有所谓的“绝对护城河”？

宋佳铭：目前我不认为有哪一种模型结构或方案能构成绝对护城河。

过去几年能看到的是，大家在同一个大方向上不断尝试各种组合，算法层面过去一两年并未出现颠覆性新结构，差异主要体现在迭代速度和工程实现上。

真正拉开差距的是谁能在大规模上把这套东西“跑通又跑稳”，而不是“谁先想到了这个点子”。

语言模型的总量基本在几十T或不超过100T的量级，而视频模型很容易达到几PB或几十PB的数据量，这是文字的几百上千倍。

所以在视频领域，更大的挑战反而是：获取数据的能力，以及是否有能力在工程上支撑如此大规模的数据，清洗好、对齐好，让模型真正从中学习。

智能涌现：视频生成模型现在似乎也没有统一的评判标准，“最强模型”如何判断？

宋佳铭：确实没有统一标准，这背后有几个原因。第一是技术路线仍在探索，相较于语言模型已有高度收敛的架构，视频这边在架构和训练方式上还有很多可探索的空间。

所以我不太愿意简单说“谁是世界最强的视频模型”。而且，打榜成绩只反映一部分特性，我认为更关键的是客户在实际工作流中到底需要什么功能，比如有没有HDR，这更符合专业视频生产的需求。

如果从有HDR这个维度来讲，我们独此一家，但看其他指标，评价标准又会有所不同。

Luma AI获9亿美元融资，首席科学家宋佳铭预测视频生成模型将向推理与多模态融合演进视频生成模型多模态大一统推理能力 AI 第3张

△相比于通常视频的8比特像素，HDR的颜色表达范围多了一个数量级，这体现在更多的高光和阴影细节上，对于电影制作管线至关重要，图片：采访对象提供

智能涌现：扩散模型和自回归模型，谁的“天花板”更高？

宋佳铭：我现在不会给出“谁的天花板更高”的结论。真正决定上限的，其实是数据量和架构设计，从数学层面上，都尚未触及实际天花板。

我觉得关键还是找到商业用户的痛点，这样才能提供客户真正想要的东西，这不一定与AI的模型能力直接相关。

智能涌现：你觉得视频和大一统模型的赛道，会像语言模型一样收敛到少数几家吗？这对初创公司意味着什么？

宋佳铭：我认为这是几乎可以类推的结论。

回顾语言模型这条线，会发现一直能持续做好的玩家其实就那么几家，很多项目要么转型，要么被并购，要么慢慢消失。视频和多模态大一统，本质上是同一条大模型产业链上的分支，只要与“基座模型”绑定得足够深，它也不可避免地会走向头部高度集中。

在国内，我个人基本不会考虑从零做这种基座模型创业，因为大厂在资金、人力、算力上的优势太大，留给纯技术向创业公司的空间非常有限；在美国会好一些，美元基金还有动力在这个方向下注，退出机制也更清晰，与大厂之间的合作、并购、共建都更常态化。

Luma的路线：模型迭代、融资与人才

智能涌现：Ray 3是9月推出的，Ray 2的推出大约在七个月之前，在这七个月里，Luma团队尝试了不同方向吗？什么才是重点？

宋佳铭：我们会尝试不同方向，比如世界模型，但最主要的还是大一统模型。

大一统模型有多种方法将不同模型拼凑起来，其中一些组合能带来短期收益，比如用别的公司训练好的模型实现某些能力。与训练自己的模型相比，这当然是更快的。

我们希望兼顾短期收益，但总体而言，更倾向于完成长远布局。

智能涌现：这次C轮融资，你们拿到了9亿美元级别的资金，估值也大幅提升。在你看来，投资人下注的核心理由是什么？

宋佳铭：这次由沙特主权基金PIF旗下的HUMAIN领投，AMD Ventures和Amplify、Matrix等老股东都继续加码。对我们自己来说，这件事更像是几层逻辑被外部验证了一次。

这包括过去成绩，以及创新和迭代速度的验证。

同时，投资人也在寻找“下一个基座模型玩家”。对一些美元基金来说，他们并不满足于只看短期商业化利益，而是希望长期押注真正有机会做大的公司。我想，更看重长期布局的能力也是投资人下注我们的理由。

智能涌现：C轮融资这笔钱具体会花在哪里？

宋佳铭：算力仍然是绝对大头，无论是训练还是推理，对做大规模多模态模型的公司来说，都是最大的刚性支出。

另一块是人才和基础设施建设，我们需要继续扩充工程和系统团队，不是为了变成“小版的大厂”，而是为了真正把这些模型“跑得更稳、更快、更便宜”。

智能涌现：现在Luma的团队结构是怎样的？在招人这件事上，你个人更看重什么？

宋佳铭：目前团队约一百三十人，其中30%–40%是技术研发，其余是产品、商业、市场和运营。

与很多公司不同，我们没有特别强调“传统意义上的产品经理”，而是让很多人共同承担产品职责：有些人偏工程，但非常懂用户场景；有些人偏运营，又能把需求翻译成清晰的技术任务，所以“产品思考”被分散在很多人身上。

招人方面，我们会尽量避免卷入“抢明星选手”的价格战，更像足球俱乐部里的“青训和球探体系”：那些已家喻户晓的球员，转会费必然高昂，创业公司去抢代价极大；我们更希望在一个人尚未被市场广泛认可之前，就发现他、支持他。

我个人非常看重三点：写代码能力扎实，学习速度快，以及自驱力和对这件事的长期兴趣。

封面来源｜企业官方

性价比服务器高防服务器

本文由主机测评网于2026-02-28发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20260227664.html