OpenAI今天正式发布Realtime API,并带来了多项新功能,旨在帮助开发者和企业构建可靠的、可用于生产环境的语音代理。
该API现在支持远程MCP服务器、图像输入以及通过会话发起协议(SIP)进行电话呼叫,通过接入更多工具和上下文信息,让语音代理的功能变得更加强大。
OpenAI还发布了迄今为止最先进的语音到语音(speech-to-speech)模型——gpt-realtime。新模型在遵循复杂指令、精准调用工具以及生成更自然、更具表现力的语音方面,都表现更佳。
它能更好地解读系统消息和开发者提示,无论是在支持通话中逐字逐句地念出免责声明脚本,复述字母数字组合,还是在一句话中无缝切换语言。新推出的Cedar和Marin两种新声音,从今天起,它们将作为Realtime API的专属声音提供。
OpenAI表示,自去年10月首次推出Realtime API的公开测试版以来,已有数千名开发者使用该API进行构建,并帮助我们完成了今天发布的这些改进。
这些改进针对可靠性、低延迟和高品质进行了优化,旨在帮助开发者在生产环境中成功部署语音代理。与传统的处理流程(需要将语音转文本和文本转语音等多个模型链接在一起)不同,Realtime API通过单个模型和API直接处理并生成音频。
这不仅降低了延迟,保留了语音中的细微差别,还能生成更自然、更具表现力的回应。
via 匿名