当前位置：首页 > 科技资讯 > 正文

阿里Qwen3-ASR-Flash语音识别模型发布：多语种支持与噪音抗干扰引领新突破

主机测评网
科技资讯
2025-12-29
864

智东西9月9日消息，阿里巴巴近日正式推出了其新一代语音识别模型——Qwen3-ASR-Flash。该模型基于Qwen3基座模型训练，具备支持11种语言及多种口音的先进能力。用户现在可以通过ModelScope、HuggingFace以及阿里云百炼API免费体验这一创新技术。

阿里Qwen3-ASR-Flash语音识别模型发布：多语种支持与噪音抗干扰引领新突破语音识别 Qwen3-ASR-Flash 多语种语音识别 AI语音模型第1张

在自动语音识别（ASR）的多个基准测试中，Qwen3-ASR-Flash的表现尤为突出。其在方言、多语种环境、关键信息提取以及歌词识别等方面的错误率，明显低于谷歌的Gemini-2.5-Pro、OpenAI的GPT-4o-Transcribe、阿里巴巴语音实验室的Paraformer-v1以及字节跳动的豆包Doubao-ASR。

具体而言，该模型利用海量多模态数据及千万小时规模的ASR数据构建，支持中文、英语、法语、德语等11种语言。在识别过程中，它能自动分辨语音语种，并智能过滤静音和背景噪声等非语音片段。

此外，用户还可以定制ASR结果。通过在上传音频时添加关键信息术语或音频背景等上下文信息，识别结果能够更精准地匹配这些预设信息。

官方提供了一个电竞比赛解说音频的示例。研究人员为这一场景配置了背景信息，包括关键词列表和游戏背景。因此，即使解说语速极快，模型也能准确识别游戏专业术语。

阿里Qwen3-ASR-Flash语音识别模型发布：多语种支持与噪音抗干扰引领新突破语音识别 Qwen3-ASR-Flash 多语种语音识别 AI语音模型第2张

ModelScope地址：https://modelscope.cn/studios/Qwen/Qwen3-ASR-Demo
Hugging Face地址：https://huggingface.co/spaces/Qwen/Qwen3-ASR-Demo
阿里云百炼API调用地址：https://bailian.console.aliyun.com/?tab=doc#/doc/?type=model&url=2979031

01. 识别游戏解说与英文说唱，噪音抗干扰能力卓越

官方展示了五个演示示例，涵盖了多种噪音、多语种快速切换、方言及专业名词识别等挑战。

第一个示例涉及连续多种噪音，如手机铃声、车铃声、音乐声等。在多人对话或短间隔说话的情况下，Qwen3-ASR-Flash能准确识别语音，不受噪音干扰。

阿里Qwen3-ASR-Flash语音识别模型发布：多语种支持与噪音抗干扰引领新突破语音识别 Qwen3-ASR-Flash 多语种语音识别 AI语音模型第3张

第二个示例是英文说唱。由于语速快和单词连读，识别难度大，但该模型能准确处理连读和长难句，并忽略背景音乐。

阿里Qwen3-ASR-Flash语音识别模型发布：多语种支持与噪音抗干扰引领新突破语音识别 Qwen3-ASR-Flash 多语种语音识别 AI语音模型第4张

第三个示例聚焦方言识别。音频中，主人公的方言与智能语音客服的普通话交替出现，模型正确识别了“纠正”而非错误识别的“96”。

阿里Qwen3-ASR-Flash语音识别模型发布：多语种支持与噪音抗干扰引领新突破语音识别 Qwen3-ASR-Flash 多语种语音识别 AI语音模型第5张

第四个示例展示多语种句子切换。在7秒音频中，包含英语、日语等5种语言，模型逐一准确呈现。

阿里Qwen3-ASR-Flash语音识别模型发布：多语种支持与噪音抗干扰引领新突破语音识别 Qwen3-ASR-Flash 多语种语音识别 AI语音模型第6张

最后是化学课程音频。识别结果中，酯基、酸、醛、氨等化学名词及语气词均无误。

阿里Qwen3-ASR-Flash语音识别模型发布：多语种支持与噪音抗干扰引领新突破语音识别 Qwen3-ASR-Flash 多语种语音识别 AI语音模型第7张

02. 歌词识别错误率低于8%，支持定制化结果

在性能方面，Qwen3-ASR-Flash在中文、英文、多语言、歌词及关键信息识别上的错误率均低于其他主流模型。

特别是在歌词识别中，该模型支持清唱和带背景音乐的整首歌识别，实测错误率低于8%。

阿里Qwen3-ASR-Flash语音识别模型发布：多语种支持与噪音抗干扰引领新突破语音识别 Qwen3-ASR-Flash 多语种语音识别 AI语音模型第8张

该模型支持普通话及多种方言，如四川话、闽南语等，以及英式、美式等口音的英语，其他语言包括法语、德语、俄语等。

对于定制化ASR结果，用户可提供任意格式的背景文本，如关键词列表、完整段落或混合内容，模型能利用上下文识别关键术语，输出定制结果，且对无关文本具有鲁棒性。

03. 结语：未来将提升通用识别精度

复杂声学环境、多样化语音特征和专业术语一直是语音识别的挑战。阿里通过增加背景文本上传功能，增强了结果可控性。

下一步，研究人员计划提升Qwen3-ASR-Flash的通用识别精度，进一步降低使用门槛，推动语音识别技术的普及。

免费vps 性价比服务器阿里云服务器

本文由主机测评网于2025-12-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://vpshk.cn/20251213846.html

上一篇

华澜微正式启动A股上市进程，专注存储控制器芯片国产化发展

下一篇

戴宗宏创立基点起源：AI操作系统重塑B端定制化新范式