谷歌最新视频生成模型Veo 3.1震撼登场!即时体验,精彩不断。
北京时间10月16日,谷歌在Gemini API中推出了Veo 3.1及Veo 3.1 Fast付费预览版。新模型一经发布,便引发了业界的广泛关注。与近期发布的Sora 2类似,Veo 3.1也新增了音频功能。
相较于上一代Veo 3,Veo 3.1在以下三大方面进行了显著提升:
首先,AI生成视频从默片跃升至有声电影。 Veo 3.1不仅能要求AI视频实现声音与画面的同步,还能要求AI更好地理解画面内容,并配以合适的音乐。
其次,Veo 3.1支持设定AI视频的开头和结尾画面。这不仅使得短视频之间的过渡更加自然,还能更好地控制AI视频的首尾观感。甚至,Veo 3.1能实现每个新视频基于上一个视频的最后一个画面继续生成,以叠加的Buff实现了“AI长视频”的另类生成。
例如,当你告诉Veo 3.1以下两张图片分别是AI视频的开头和结尾画面:
来源:谷歌官网
就会生成如下视频片段:
来源:谷歌官网
第三,Veo 3.1可通过三张图打造个性化角色。当你为Veo 3.1提供三张图片(分别为女性头像、服装参考图及场景设定),并根据提示词要求,它能直接通过这三张画面设定AI人物形象,并让其自然说出目标台词。
来源:谷歌官网
此次,Veo 3.1主打进一步优化AI视频在视听观感上的体验。同时,谷歌也在寻找在AI视频生成片段时间较短的前提下,实现“AI长视频叙事”的解决方案。
目前,普通用户可在Gemini应用程序和Flow免费使用(机会有限)。我们发现多个国内AI视频生成平台迅速跟进。不到一天时间,Imagine.art、Fal-ai及Lovart均表示支持Veo 3.1模型调用。我们此次也在Lovart上对Veo 3.1进行了快速体验。
首先测试了Veo 3.1生成的AI视频是否能实现音画统一。第一次,我们给出的英文提示词是:“纽约街头正在下雨,突然一道闪电伴随雷声而来。”
结果显示,闪电和雷声几乎同时出现,完成了声音与画面的同步。我们还能更细致地观察到每辆车开过水坑时,声音从远到近、从大到小的变化。令人意外的是,在约3分钟的生成倒计时中,Veo 3.1的生成时间大约在1分钟左右就完成了,但生成的视频片段大多在6秒左右,与Sora 2的10-20秒相比并不占优势。
此外,我们发现整个画面中只有车、雨滴和闪电是动态的,两旁的行人和树木都是静止的,因此视频片段显得有些违和,容易看出是AI视频。
接下来,我们测试了给Veo 3.1两张照片并分别设定为开头和结尾画面后,看看AI视频的首尾稳定性如何。以及Veo 3.1是否能通过拼接方式实现两段视频的直接连接。
为了获得更好的生成效果,我们给出的第一段提示词是:“一只顽皮的虎斑猫以流畅、连续的动作跃上办公桌。以上两张图片分别为视频的首个画面和结束画面。”
在视频前半部分表现自然。但在小猫咪跳到电脑后时,似乎变成了另一只小猫,“魔法感”突然袭来。此外,视频最后几秒似乎有个开灯设定,将画面调得更亮。
同时,我们给出的第二段英文提示词是:“跳上办公桌的虎斑猫趴下睡着了。以上两张图片分别为视频的首个画面和结束画面。”
可以看出,Veo 3.1生成的AI视频相当真实。将两个视频片段拼接在一起后,效果如下:
可以看出,两个视频拼接后除了“魔法感”有些突兀外,整体保持了连贯性并实现了场景拓展。
最后,我们测试了如何使用Veo 3.1通过三张图设定一个人物主角形象。我们给出了一段英文指令:“一个中景镜头...”
遗憾的是,我们发现AI视频中的人物建模感严重,服装和场景与参考图片有明显差别,AI感极重。
总体来看,此次Veo 3.1在音画同步及首尾画面稳定上表现不错。但在用图片设定人物形象方面并未达到预期效果。
“胜,大获全胜。”谷歌试图在官网昭告这一点。据谷歌介绍,其在文生视频的总体观感、视频对齐程度及视觉质量等方面均优于Sora 2 Pro、海螺2.0等一众视频模型。
本文由主机测评网于2026-05-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260542863.html