近一年来,视频生成模型如雨后春笋般涌现,几乎每周都有新品发布,持续突破基准纪录:生成长度增加、物理模拟更真实、角色与镜头一致性更高。我们已经习惯了模型性能的飞速提升与不断超越。
然而,今年的节奏发生了变化。如果密切关注基准测试,你可能会感到“进步”速度放缓:主流模型已能生成10-15秒带同步音频的视频,效果令人震撼,但也不再让人感到新奇。
这并非坏事。在A16Z合伙人贾斯汀·摩尔看来,我们正迈入一个崭新阶段:视频模型的“产品时代”。
简而言之,视频模型的进步不再单纯体现在参数规模或基准分数上,而是转向多样化和专业化。例如,我们开始目睹不同模型在特定能力上取得突破:物理引擎模拟、卡通风格渲染、多镜头剪辑……没有一个模型能够“包揽一切”,但每个都在某个维度上变得更加精通。
同时,更大的机遇从模型本身转向“围绕模型”的产品构建:那些简化创作流程、抽象复杂操作的工具,正变得比模型核心更有价值。
今天,让我们跟随贾斯汀·摩尔的视角,回顾视频模型在过去一年的演变。
过去几年,各大扩散模型实验室频频推出性能更强的新版本,在各类测试榜单上不断刷新成绩。人们逐渐形成一个共识:终将出现一个“全能模型”,在所有视频生成任务中表现卓越,成为行业默认标准。
但这个假设近期被打破。上个月发布的Sora 2,在LMarena等测试中甚至不及Veo 3,表现不增反降。许多人开始质疑,扩散模型的技术进步是否开始放缓。所谓“最强模型”的概念,在视频领域或许根本不存在。
实际上,大语言模型也经历过类似路径。2023至2025年,主流模型性能持续攀升,随后在各种评测中逐渐趋于平稳。进入这个阶段后,各家研究机构将重心转向具体场景和垂直领域,而非单纯追求更高分数。同时,基于这些模型的AI产品也加速落地。
回顾过去,视频模型在公开测试上进展放缓其实可以理解。过去几年,它们在“真实感”上取得巨大飞跃,如今许多生成视频已极为逼真。到了这个阶段,再追求“更真实”变得异常困难,因为它几乎与现实难以区分。
这如同17、18世纪的油画大师们,已能绘制接近照片的肖像和风景。那时人们不再争论谁更写实,而是开始关注作品风格与审美取向。
如果“更真实”不再是模型的优势所在,接下来会发生什么?我们可能看到更多风格化、专业化的模型涌现。每个模型不再追求通用性,而是各具专长。资源丰富,选择也多样化。视频生成,正步入一个“百花齐放”的新时期。
在探讨模型日益“专业化”之前,先简要回顾历史。
2024年初,我曾撰文指出,当时的视频生成技术仍很原始。别说一分钟,连生成3~4秒的稳定片段都极具挑战。物理效果时常出错,例如人物会突然“融合”到地板中,篮球以诡异轨迹弹跳,却能奇迹般入网。
那时我说:距离AI制作出皮克斯级别短片,还有漫长道路。而现在,一切已然改变。
谷歌推出Veo模型,直接登顶多个排行榜;OpenAI正以30人团队、3000万美元预算,制作一部完整的AI动画长片(虽非完全由模型生成,但依然是一次飞跃)。如今,视频长度更长,物理细节更真实。篮球从篮板反弹再落地?已成为标配。
不过,尽管整体水平提升,我们也观察到另一趋势:模型正变得专注,各有特长。
原因很简单,没有一款模型能满足所有用户需求,例如有的团队专注于提速和成本控制;有的专精后处理阶段,使模型在特定场景表现突出。
例如:
Veo 3:最擅长物理细节、复杂动作,音画同步也最优
Sora 2:能依据一句话生成有趣的多镜头视频,仿佛协助“拍摄短剧”
Wan:开源模型,支持多种风格化插件(LoRA),适合定制风格
Grok:速度快、成本低,特别适合动画内容
Seedance Pro:可一次性生成多镜头结构
Hedra:长时间对话类视频表现最稳定
以Veo和Sora为例,两者均强大,但方向迥异。
Sora适合创作趣味内容,比如用一句话生成“霍金打篮球”视频,或将你与朋友嵌入某部电影。它更像一位“故事导演”,适合普通用户和迷因创作者。但它在物理表现、音视频同步方面仍不够稳定,常出现嘴型不匹配、声音延迟等问题。
相较之下,Veo更“专业”。它缺乏幽默感,需要更清晰的指令,但其动作、镜头、音画同步更精准,更适合内容创作者、影视工作者等对质量要求高的用户。
这种“专业化”趋势也推动了整个生态链发展。如Fal、Replicate等AI视频云平台,已托管数十种模型,供用户按需选择。Krea这类编辑工具,则提供中心平台,让用户能与多个模型交互,并建立自身工作流程。
当然,一些大公司仍在努力追求“万能型模型”,即那种无所不能、表现顶尖的“上帝视角”模型。我们自然希望它早日出现。但在此之前,不同模型在不同场景中“各显其能”,已是一个非常现实且值得期待的阶段。
熟悉我的朋友都了解,我常使用各种视频和图像生成模型,尝试制作高度定制化内容。这个过程通常需要多个工具协同工作。
举例来说:如果我要制作“定制家具展示视频”,我通常会用到Ideogram、nano-banana和Veo3;若想在现有视频中添加“产品赠品”动画片段,则需依赖nano-banana、Hedra,以及一些编辑工具,如Krea和Kapwing。
这些组合工作流程相当复杂,并非每个人都有时间精力去折腾这么多工具。我们确实需要更完善的一体化产品来简化整个创作过程。当前模型能力已很强悍,但对应产品进展,仍存在许多“追赶空间”。
许多创作者正手动拼接多个模型功能,来完成模型本可自动处理的任务。
例如,要保持角色在不同镜头中一致,需在每段视频中手动调整人物形象;若想延续上一镜头结尾画面,还得导出最后一帧,作为下一段起始条件重新生成;控制镜头运动轨迹,也需先用图像模型绘制起点和终点画面,再通过其他工具“推导”中间过渡过程;甚至连制作故事板,都需依靠拼贴、截图、剪辑多个片段才能完成。
这些本可由模型自动处理的工作,如今仍依赖创作者手动拼接,正是产品体验与创作效率之间的显著断层。好消息是,一些团队已开始尝试解决这些问题。
Runway发布了一套工具,允许用户修改镜头角度、生成下一镜头、切换风格、更改天气,甚至在画面中添加或删除元素。
OpenAI的Sora Storyboard也支持更精细地控制视频中每一帧动作;而谷歌新发布的Veo 3.1,更像一次“产品更新”而非“模型升级”,它围绕音频控制和视觉控制进行了大量功能增强。
实际上,这类似我们见过的大语言模型(LLM)发展路径:即使模型性能不再飞速提升,围绕它构建实用产品的空间依然广阔。视频模型现正处于此阶段,能力不缺,缺的是易用产品。
未来,我相信我们将看到更多“小而精”的模型,专门为特定行业或场景优化,如室内设计、营销推广、动画制作等。
同时,我们也需要更强大的“创意工具包”来整合多种模态,让视频、配音、音乐等元素的生成与编辑更流畅,最终形成一套真正闭环的AI视频工作流。
本文由主机测评网于2026-01-14发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260117661.html