智东西9月9日消息,阿里巴巴近日正式推出了其新一代语音识别模型——Qwen3-ASR-Flash。该模型基于Qwen3基座模型训练,具备支持11种语言及多种口音的先进能力。用户现在可以通过ModelScope、HuggingFace以及阿里云百炼API免费体验这一创新技术。
在自动语音识别(ASR)的多个基准测试中,Qwen3-ASR-Flash的表现尤为突出。其在方言、多语种环境、关键信息提取以及歌词识别等方面的错误率,明显低于谷歌的Gemini-2.5-Pro、OpenAI的GPT-4o-Transcribe、阿里巴巴语音实验室的Paraformer-v1以及字节跳动的豆包Doubao-ASR。
具体而言,该模型利用海量多模态数据及千万小时规模的ASR数据构建,支持中文、英语、法语、德语等11种语言。在识别过程中,它能自动分辨语音语种,并智能过滤静音和背景噪声等非语音片段。
此外,用户还可以定制ASR结果。通过在上传音频时添加关键信息术语或音频背景等上下文信息,识别结果能够更精准地匹配这些预设信息。
官方提供了一个电竞比赛解说音频的示例。研究人员为这一场景配置了背景信息,包括关键词列表和游戏背景。因此,即使解说语速极快,模型也能准确识别游戏专业术语。
官方展示了五个演示示例,涵盖了多种噪音、多语种快速切换、方言及专业名词识别等挑战。
第一个示例涉及连续多种噪音,如手机铃声、车铃声、音乐声等。在多人对话或短间隔说话的情况下,Qwen3-ASR-Flash能准确识别语音,不受噪音干扰。
第二个示例是英文说唱。由于语速快和单词连读,识别难度大,但该模型能准确处理连读和长难句,并忽略背景音乐。
第三个示例聚焦方言识别。音频中,主人公的方言与智能语音客服的普通话交替出现,模型正确识别了“纠正”而非错误识别的“96”。
第四个示例展示多语种句子切换。在7秒音频中,包含英语、日语等5种语言,模型逐一准确呈现。
最后是化学课程音频。识别结果中,酯基、酸、醛、氨等化学名词及语气词均无误。
在性能方面,Qwen3-ASR-Flash在中文、英文、多语言、歌词及关键信息识别上的错误率均低于其他主流模型。
特别是在歌词识别中,该模型支持清唱和带背景音乐的整首歌识别,实测错误率低于8%。
该模型支持普通话及多种方言,如四川话、闽南语等,以及英式、美式等口音的英语,其他语言包括法语、德语、俄语等。
对于定制化ASR结果,用户可提供任意格式的背景文本,如关键词列表、完整段落或混合内容,模型能利用上下文识别关键术语,输出定制结果,且对无关文本具有鲁棒性。
复杂声学环境、多样化语音特征和专业术语一直是语音识别的挑战。阿里通过增加背景文本上传功能,增强了结果可控性。
下一步,研究人员计划提升Qwen3-ASR-Flash的通用识别精度,进一步降低使用门槛,推动语音识别技术的普及。
本文由主机测评网于2025-12-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20251213846.html