【导读】微软紧跟OpenAI的步伐,在同一天也亲自下场发布了两个大模型:语音模型MAI-Voice-1和通用模型MAI-1-preview。对于这位科技巨头,亲自下场做的第一个AI大模型,效果究竟如何?
就在OpenAI发布最新语音大模型之际,微软也推出了自研的语音大模型!
微软AI掌门人、DeepMind联合创始人Mustafa Suleyman正式宣布:
微软AI正式推出MAI-Voice-1以及MAI-1-预览版!未来还有更多精彩内容即将推出。
MAI-Voice-1语音模型效率极高:单GPU即可秒出1分钟音频!使用Copilot即可体验。
在Suleyman看来,这是他用过表现力最丰富、最自然的语音生成模型。
而MAI-1预览版模型是微软AI首个端到端内部训练的自研基础模型。
这标志着在多年依赖OpenAI模型之后,微软AI部门正式与OpenAI及整个行业正面竞争,也意味着微软在AI竞赛中,开始掌握更多主动权。
在接受采访时,Suleyman表示:「微软是世界上最大的公司之一。我们必须具备内部能力,来打造世界最强的模型。」
在微软官方给出的指标中,最引人注意的是「单卡<1秒,生成1分钟音频」。
这使其成为当前少有的极致低时延TTS/对话式语音生成系统之一。
除此之外,语音的自然和富有表现力也是重点,这覆盖到了单人叙述与多说话人对话两种常见内容形态。
新闻播报、播客对谈、故事讲述、冥想/引导等,你都可以尝试。
你可以选择9种不同的语音:
也可以选择多达31种不同的情绪和播报场景:
你还可以让模型扮演一个激情四射的体育解说员,点燃你的情绪:
具体到应用上,我们可以通过Copilot Labs,在Copilot Daily中以AI主播播报要闻、在Copilot Podcasts生成播客式讨论。Copilot Labs提供可玩Demo(可以自定义内容、叙述风格等)。
长期以来,微软主要依靠OpenAI的人工智能模型,为核心产品提供AI功能。
OpenAI目前估值约5000亿美元,微软一家的投资就超过了130亿美元,而OpenAI也依赖微软的云基础设施来运行其模型。
但现在宣布:「未来几周,我们将在Copilot的部分文本任务中逐步推出MAI-1-preview,以便从用户反馈中学习和改进。」
就在昨天,OpenAI也发布了最新的语音生成大模型GPT-Realtime,整体嵌入在Realtime API中。
该模型在语音自然性、情感丰富度、低延迟响应上显著提升,能够在一句话之内实现语调、语言的无缝切换,还支持工具调用、指令跟随能力。
这次微软AI透露:“MAI-1-preview是MoE模型,使用约1.5万张NVIDIA H100 GPU进行了预训练和后训练。”
Suleyman认为自研的新模型表现远超其硬件规模,完全可以和世界上最强的模型媲美,而且现在才刚刚开始调优。
“一旦模型投入实际应用并开始收集反馈,随着不断迭代,性能还会显著提升。”他说道。
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...本文由主机测评网于2026-04-25发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://vpshk.cn/20260440395.html