当前位置:首页 > 科技资讯 > 正文

OpenAI发布GPT-RealTime语音模型,实时API升级开启语音交互新纪元

智东西8月29日报道,今日凌晨,OpenAI正式推出了面向开发者的语音转语音模型GPT-RealTime,并同步升级了API功能,新增远程MCP服务器支持、图像输入以及基于会话发起协议(SIP)的电话呼叫支持。

OpenAI宣称这是目前最先进的语音合成模型,GPT-RealTime在遵循复杂指令、精准调用工具以及生成更自然、富有表现力的语音方面实现改进。该模型能够流畅朗读重复字母与数字,无缝切换多种语言,甚至可捕捉笑声等非语言信号。

同时,OpenAI发布了两个新语音Cedar和Marin,它们将在Realtime API中独家提供。

定价方面,通用版Realtime API和GPT-RealTime模型即日起向所有开发者开放。GPT-RealTime每百万token音频输入价格为32美元(约合人民币228元),缓存输入每百万token为0.4美元(约合人民币2.85元),每百万token音频输出价格64美元(约合人民币456元)。相比gpt-4o-realtime-preview,GPT-RealTime价格下调20%

OpenAI还增强了对对话上下文的细粒度控制,允许开发者设置智能token限制,并可一次截断多轮对话,显著降低长会话成本。

去年10月,OpenAI发布了Realtime API的公开测试版,至今已有数千名开发者使用并提出反馈。

从OpenAI在社交平台X的评论区看,部分用户对新模型充满期待,认为语音应用将更富趣味,但也有开发者反映,模型声音仍略显机械,旧语音角色的表现力提升有限。

OpenAI发布GPT-RealTime语音模型,实时API升级开启语音交互新纪元 GPT-RealTime 语音转语音模型 Realtime API AI语音助手 第1张

01.买房、购票、预约医生,皆可如友交谈

OpenAI在博客中展示了与五家公司合作构建语音助理的案例。

首例是美国房地产信息平台Zillow,新模型可与用户自然交流,帮助根据生活方式筛选房源或分析购房价格。

其次是作为T-Mobile的手机助手,AI助手能快速交替对话,即使用户在句子中打断或开启新话题也不受影响。

第三是票务平台StubHub,新模型可协助用户完成付款,并指导解决付款过程中的问题。

第四是帮助用户预约医生,在Oscar Health平台中,该模型能确认空闲预约时间、注意事项及地址。

最后是保险科技公司Lemonade,当用户购车遇到保险问题时,AI助手可提供购买帮助,通过对话获取诉求并基于存储的个人与银行卡信息完成操作。

02.捕捉笑声、切换语言、调整语气,能力全面提升

OpenAI针对GPT-RealTime的音频质量、指令理解与遵循等方面进行了优化。

语音Agent需像人类一样具备语调、情感和节奏,以创造愉悦对话体验。博客指出,GPT-RealTime能生成更自然的高质量语音,并可遵循细粒度指令,如“快速专业地说话”或“用法国口音富有同情心地说话”。

在理解用户指令方面,GPT-RealTime能捕捉笑声等非语言线索,在句子中切换语言,并调整语气。根据OpenAI内部评估,该模型在西班牙语、中文、日语和法语等语言中,检测电话号码等字母数字序列的准确性更高。

在Big Bench Audio评估中,GPT-RealTime准确率达82.8%,超越了OpenAI 2024年12月发布的旧模型。Big Bench Audio基准测试用于评估支持音频输入的语言模型推理能力。

OpenAI发布GPT-RealTime语音模型,实时API升级开启语音交互新纪元 GPT-RealTime 语音转语音模型 Realtime API AI语音助手 第2张

构建语音转语音应用时,开发者会向模型提供行为指令,包括如何说话、在特定情境下的言行限制。OpenAI专注于提升模型对指令的遵循程度,使细微指令也能传递丰富信息。

在衡量指令遵循准确性的MultiChallenge音频基准测试中,GPT-RealTime得分为30.5%,较旧模型的20.6%显著提升。MultiChallenge评估大模型处理多轮对话的表现,OpenAI从测试题中筛选适合音频的子集,通过文本转语音(TTS)技术转换为语音进行评估。

OpenAI发布GPT-RealTime语音模型,实时API升级开启语音交互新纪元 GPT-RealTime 语音转语音模型 Realtime API AI语音助手 第3张

要构建强大的语音Agent,模型需在正确时间调用正确工具。OpenAI从三个维度改进函数调用:调用相关函数、在适当时机调用函数以及使用合适参数调用函数。在测量函数调用性能的ComplexFuncBench音频评估中,GPT-RealTime得分66.5%,超过旧模型分数(2024年12月模型为49.7%)。

此外,OpenAI改进了异步函数调用。长时间运行的函数调用不再中断会话流程,模型可在等待结果时继续流畅对话。此功能已在GPT-RealTime中原生支持,开发者无需更新代码。

OpenAI发布GPT-RealTime语音模型,实时API升级开启语音交互新纪元 GPT-RealTime 语音转语音模型 Realtime API AI语音助手 第4张

03.保留语音细微差别,Realtime API新增四大功能

与传统将语音转文本和文本转语音的多模型链式流程不同,Realtime API通过单个模型和API直接处理并生成音频,减少了延迟,保留了语音中的细微差别,使响应更自然、更具表现力。

Realtime API的新功能包括:

开发者可通过在会话配置中传入远程MCP服务器的URL来启用MCP支持。连接后,API自动处理工具调用,无需手动设置集成。

这种设置使开发者只需将会话指向不同MCP服务器,即可立即使用。

图像输入方面,开发者可在Realtime API会话中添加图像、照片和截图,与音频或文本结合使用。模型可基于用户所见内容构建对话,支持诸如“你看到了什么?”或“阅读此截图文本”等问题。

系统将图像视为对话中的附加内容,而非实时视频流。应用程序可决定共享哪些图像及何时共享,从而控制模型的视觉输入与回应时机。

OpenAI还增加了使Realtime API更易集成的功能,包括会话发起协议(SIP)支持和可重用提示

SIP支持通过Realtime API直接连接应用程序到公共电话网络、PBX系统、办公电话和其他SIP终端。

可重用提示允许开发者保存和重用提示,包含开发者消息、工具、变量及示例用户/助手消息,支持跨Realtime API会话使用,逻辑与Responses API一致。

04.结语:多层防护指南防止模型滥用

为防止实时语音对话被滥用,Realtime API包含多层安全防护和缓解措施。OpenAI对会话采用主动分类器,若检测到违反有害内容指南的对话,可立即中止。开发者还可使用Agents SDK添加额外安全措施。

当前,超逼真实时语音对话已展现广阔应用场景,如豆包实时语音对话、百度数字员工等,均以语音为主要交互形式。OpenAI此次发布的GPT-RealTime模型展现出更强推理能力和更自然语音表现力,能处理复杂多步骤请求,助力在不同赛道构建AI Agent。