智东西9月23日消息,阿里巴巴通义大模型团队在深夜连续发布三款重量级产品:开源原生全模态大模型Qwen3-Omni、语音生成模型Qwen3-TTS以及图像编辑模型Qwen-Image-Edit的2509版本更新。
Qwen3-Omni是一个能够处理文本、图像、音频和视频等多种输入形式的全模态大模型,通过实时流式响应,同时生成文本与自然语音输出。在36项音频及音视频基准测试中,它取得了32项开源领域的最佳性能(SOTA),并超越了Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等强大的闭源模型。此外,其图像和文本性能也在同尺寸模型中达到了SOTA水平。
Qwen3-TTS支持17种音色和10种语言,在语音稳定性与音色相似度评估中,超越了SeedTTS、GPT-4o-Audio-Preview等主流产品。该模型不仅在多语言稳定性和音色相似度上表现出色,还提供了丰富的音色选择和语种支持。
Qwen-Image-Edit-2509的更新重点是支持多图编辑,可以拼接不同图片中的人物+人物、人物+物体等。此外,该模型还提高了单图编辑的一致性,包括人物、商品和文字的编辑。
阿里开源主页
除了上述产品,阿里还开源了Qwen3-Omni的多个版本,包括指令跟随版、推理版和通用音频字幕器。用户可以通过Hugging Face和GitHub获取这些模型的代码和文档。
Hugging Face开源地址:https://huggingface.co/Qwen
GitHub开源地址:https://github.com/QwenLM/Qwen3-Omni
在通义千问国际版网站上,用户只需点击输入框右下角,即可启动视频通话功能。目前该功能仍处于Beta测试阶段。
经过实际测试,我们发现网页端的视频交互体验尚不稳定,因此转而使用通义千问国际版App进行进一步体验。在App中,Qwen-Omni-Flash的视频响应延迟较低,几乎达到无感水平,与真人面对面交流的流畅度相当。
Qwen-Omni-Flash具备丰富的世界知识储备,我们通过识别啤酒品牌、植物等画面进行测试,模型均能给出准确回答。
官方博客提到,Qwen3-Omni支持119种文本语言交互、19种语音理解语言与10种语音生成语言,纯模型端到端音频对话延迟低至211ms,视频对话延迟低至507ms。此外,该模型还能支持30分钟音频理解。但在实际使用中,当模型输出英语、西班牙语等外语时,其发音仍带有明显的普通话语调特征。
而在粤语交互场景中,Qwen-Omni-Flash仍会不时夹杂普通话词汇,影响了对话的沉浸感。
官方演示的几个Demo中,展示了西班牙语、法语、日语的交互效果。例如,该模型可以分析意大利餐厅的菜单,然后用法语为朋友推荐意大利面。
Qwen3-Omni还支持system prompt随意定制,可以修改回复风格、人设等。在演示中,模型扮演的角色是广东幼儿园老师,通过模型的特点总结图为小朋友讲解Qwen3-Omni。
在全方位性能评估中,Qwen3-Omni的单模态任务表现与参数规模相当的Qwen系列单模态模型持平,在音频任务中表现更好。该模型在36项音视频基准测试中取得了32项开源领域最佳性能(SOTA),性能超越了Gemini-2.5-Pro、Seed-ASR等闭源模型。
其博客提到,Qwen3-Omni采用Thinker-Talker架构,Thinker负责文本生成,Talker专注于流式语音Token生成。为实现超低延迟流式生成,Talker通过自回归方式预测多码本序列。
阿里通义还发布了文本转语音模型Qwen3-TTS-Flash。其主要特点包括中英稳定性、多语言稳定性和音色相似度上的卓越表现。
在具体性能方面,Qwen3-TTS-Flash在MiniMax TTS multilingual test set上的中文、英文、意大利语和法语的WER均达到了SOTA。此外,该模型在英文、意大利语和法语的说话人相似度方面均超过了MiniMax、ElevenLabs和GPT-4o-Audio-Preview。
此次三大模型的新进展进一步强化了通义在多模态生成领域的竞争力。未来,阿里通义大模型的团队将继续在多个技术方向推进模型升级,并强化基于智能体的工作流与函数调用支持。
本文由主机测评网于2026-05-01发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260541780.html