在2024年的WWDC大会上,苹果推出了自家的人工智能平台Apple Intelligence。自那之后,该平台于2024年秋季在美国开始了测试,并逐步拓展至更多地区。
然而,对于国内用户而言,Apple Intelligence的落地却迟迟未见。苹果官方的回应是,其智能产品的推出时间需依据监管部门的审批情况而定。
(图源:苹果)
近日,知名苹果爆料网站9to5Mac发文称,苹果联合中国人民大学推出了名为VSSFlow的新型AI模型,并宣布在音频生成技术上取得了突破。这一举动不仅展示了苹果在AI技术上的实力,同时也似乎在为国行Apple Intelligence的落地释放积极信号,难道Apple智能真的要来了吗?
根据苹果与中国人民大学联合发布的论文及9to5Mac的相关报道,我们可以了解到,VSSFlow的主要亮点在于打破了以往需要将环境音和对话语音分别处理的限制。具体而言,以往的视频生成语音模型大多将音频中的环境音和人声分开处理,而VSSFlow的优势在于能够一站式同步生成。
(图源:arXiv)
据官方介绍,VSSFlow模型通过每秒读取10帧视频画面作为线索,在随机噪声中逐步构建出画面的声音。虽然听起来简单,但实际上实现起来却并不容易。对于一段没有声音的视频,AI无法直接听到,而是需要根据视频画面来推测最可能的环境音。
VSSFlow的论文中提到了关键的技术点——Flow-matching(流匹配)。在AI的世界里,模型需要通过杂乱的信息推理生成最可能的声音。视频画面中隐藏着声音对应的线索,AI的任务就是在这些杂乱的信息和目标声音之间建立路径,即“流”。建立“流”的关键在于对视频画面和文字脚本的准确理解。
(图源:arXiv)
至于文本生成语音的能力,在早期就已存在许多解决方案。但早期方案较为简单直接,声音听起来机械感明显。而在AI时代,大模型加持的文字转语音体验得到了大幅提升,无论是断句、语气还是情绪都更加真实。
VSSFlow的视频生成人声技术特点在于通过视频脚本和画面来生成音频,并可以根据画面中人物的口型、表情等因素来匹配语音的语气、情绪、节奏等,从而生成更真实的AI人声。
开头提到,VSSFlow能够同时为视频生成环境声和人声。根据官方描述,他们通过混合数据训练来实现这一功能。具体来说,在训练时使用了无声视频配环境音、无声说话视频配文本以及纯文本转语音的数据。
总结来说,VSSFlow是一款能够同时为无声视频生成环境声和人声的音频大模型,其核心优势在于通过流匹配技术提升了生成效率和音频质量。
那么,VSSFlow的这项功能具体能应用到哪些场景呢?小雷能想到的可能有老旧电影的音频修复、失语障碍人士的辅助音频以及影视作品配音等。但需要注意的是,VSSFlow仍然需要依赖文字脚本来生成人声。
目前市面上与VSSFlow最接近的大模型是谷歌的Deepmind V2A(视频转音频)。V2A也是根据视频画面和文字脚本来生成对应的环境音和人物对话。其技术方案是在视觉信息和听觉信息之间建立映射机制。
具体来说,视觉信息包含空间、色彩、形状、运动等;而听觉信息则是音色、频率、节奏等。将这两类信息进行多层次的映射并持续训练后,AI就能根据视频画面的信息来推测应匹配的听觉特征音频。
(图源:谷歌)
然而在小雷看来,视频生成语音技术的应用场景仍然较为局限。对于普通用户来说,这项功能的作用并不明显。相比之下,当下流行的视频生成技术更受创作者和普通用户的欢迎。
(图源:雷科技)
但给无声视频配音的场景并不常见。不过这项技术更加适用于影视制作行业中的某些细分领域,比如传统拟音师的工作。拟音师在录音棚里录制的很多环境声和动作声都被运用在了影视作品中。
对于苹果产品而言,小雷首先想到的是无障碍功能。目前苹果设备的辅助选项中已有实时语音功能,即用户可以在手机上打字然后转换成音频。
(图源:苹果)
如果VSSFlow能运用到这个场景中,那么语言障碍人士就可以在FaceTime之类的视频通话中边输入文字边让AI结合视频画面生成更自然的人声。当然这项技术也能作为苹果在AI领域的储备为后续的视频生成等功能或应用提供助力。
而且苹果与国内重点高校的合作无疑是在释放愿意深耕国内市场、推动国行AI落地的积极信号。
本文由主机测评网于2026-07-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260748762.html