当前位置：首页 > 科技资讯 > 正文

阿里通义大模型连发三招：Qwen3-Omni、Qwen3-TTS、图像编辑模型更新

主机测评网
科技资讯
2026-05-01
846

智东西9月23日消息，阿里巴巴通义大模型团队在深夜连续发布三款重量级产品：开源原生全模态大模型Qwen3-Omni、语音生成模型Qwen3-TTS以及图像编辑模型Qwen-Image-Edit的2509版本更新。

Qwen3-Omni是一个能够处理文本、图像、音频和视频等多种输入形式的全模态大模型，通过实时流式响应，同时生成文本与自然语音输出。在36项音频及音视频基准测试中，它取得了32项开源领域的最佳性能（SOTA），并超越了Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等强大的闭源模型。此外，其图像和文本性能也在同尺寸模型中达到了SOTA水平。

Qwen3-TTS支持17种音色和10种语言，在语音稳定性与音色相似度评估中，超越了SeedTTS、GPT-4o-Audio-Preview等主流产品。该模型不仅在多语言稳定性和音色相似度上表现出色，还提供了丰富的音色选择和语种支持。

Qwen-Image-Edit-2509的更新重点是支持多图编辑，可以拼接不同图片中的人物+人物、人物+物体等。此外，该模型还提高了单图编辑的一致性，包括人物、商品和文字的编辑。

阿里通义大模型连发三招：Qwen3-Omni、Qwen3-TTS、图像编辑模型更新阿里通义 Qwen3-Omni Qwen3-TTS 多模态大模型第1张

阿里开源主页

除了上述产品，阿里还开源了Qwen3-Omni的多个版本，包括指令跟随版、推理版和通用音频字幕器。用户可以通过Hugging Face和GitHub获取这些模型的代码和文档。

Hugging Face开源地址：https://huggingface.co/Qwen

GitHub开源地址：https://github.com/QwenLM/Qwen3-Omni

01. 支持119种语言交互

能随意定制、修改人设

在通义千问国际版网站上，用户只需点击输入框右下角，即可启动视频通话功能。目前该功能仍处于Beta测试阶段。

经过实际测试，我们发现网页端的视频交互体验尚不稳定，因此转而使用通义千问国际版App进行进一步体验。在App中，Qwen-Omni-Flash的视频响应延迟较低，几乎达到无感水平，与真人面对面交流的流畅度相当。

Qwen-Omni-Flash具备丰富的世界知识储备，我们通过识别啤酒品牌、植物等画面进行测试，模型均能给出准确回答。

官方博客提到，Qwen3-Omni支持119种文本语言交互、19种语音理解语言与10种语音生成语言，纯模型端到端音频对话延迟低至211ms，视频对话延迟低至507ms。此外，该模型还能支持30分钟音频理解。但在实际使用中，当模型输出英语、西班牙语等外语时，其发音仍带有明显的普通话语调特征。

而在粤语交互场景中，Qwen-Omni-Flash仍会不时夹杂普通话词汇，影响了对话的沉浸感。

官方演示的几个Demo中，展示了西班牙语、法语、日语的交互效果。例如，该模型可以分析意大利餐厅的菜单，然后用法语为朋友推荐意大利面。

Qwen3-Omni还支持system prompt随意定制，可以修改回复风格、人设等。在演示中，模型扮演的角色是广东幼儿园老师，通过模型的特点总结图为小朋友讲解Qwen3-Omni。

02. 22项测试达SOTA

预训练不降智

在全方位性能评估中，Qwen3-Omni的单模态任务表现与参数规模相当的Qwen系列单模态模型持平，在音频任务中表现更好。该模型在36项音视频基准测试中取得了32项开源领域最佳性能（SOTA），性能超越了Gemini-2.5-Pro、Seed-ASR等闭源模型。

阿里通义大模型连发三招：Qwen3-Omni、Qwen3-TTS、图像编辑模型更新阿里通义 Qwen3-Omni Qwen3-TTS 多模态大模型第2张

阿里通义大模型连发三招：Qwen3-Omni、Qwen3-TTS、图像编辑模型更新阿里通义 Qwen3-Omni Qwen3-TTS 多模态大模型第3张

其博客提到，Qwen3-Omni采用Thinker-Talker架构，Thinker负责文本生成，Talker专注于流式语音Token生成。为实现超低延迟流式生成，Talker通过自回归方式预测多码本序列。

03. 发布文本转语音模型

多项基准测试达SOTA

阿里通义还发布了文本转语音模型Qwen3-TTS-Flash。其主要特点包括中英稳定性、多语言稳定性和音色相似度上的卓越表现。

阿里通义大模型连发三招：Qwen3-Omni、Qwen3-TTS、图像编辑模型更新阿里通义 Qwen3-Omni Qwen3-TTS 多模态大模型第4张

在具体性能方面，Qwen3-TTS-Flash在MiniMax TTS multilingual test set上的中文、英文、意大利语和法语的WER均达到了SOTA。此外，该模型在英文、意大利语和法语的说话人相似度方面均超过了MiniMax、ElevenLabs和GPT-4o-Audio-Preview。