在10月1日的 OpenAI 旧金山开发者大会( DevDay) 上 。OpenAI 公布了五项重大创新,其中“实时 API”(Realtime API)的新功能,使得开发者能够创建具有低延迟、AI 生成的语音响应功能的应用程序。尽管这一功能不完全等同于 ChatGPT 的高级语音模式,但其能力已经非常接近,旨在帮助开发者为用户提供近乎实时的语音到语音互动体验。除此之外,OpenAI 还发布了其他一系列新功能,旨在进一步提升开发者的 AI 应用构建体验。
包括实时语音API、提示词缓存、模型蒸馏、视觉微调、新Playground。
这些创新将改变开发者与AI互动的方式,并有助于降低AI模型的使用成本,推动多模式的语音、视觉等应用的普及。
顺道说一下,今年开发者大会一共 3 场:10月1号旧金山;10月30号伦敦,以及11月21日新加坡…
实时语音API
OpenAI发布——实时API(Realtime API),该API允许开发者在应用中构建低延迟的多模态语音体验。
- 实时API的推出:
- 实时API允许开发者构建低延迟的语音转语音体验,支持自然的情感对话交互,有六种预设语音。
- 该API的公共测试版现已向所有付费开发者开放。
- 音频输入与输出:
- 在聊天完成API中引入音频输入和输出,适用于不需要低延迟的应用场景。
- 开发者可以将文本或音频输入传递给GPT-4o,模型可以以文本、音频或两者形式返回响应。这使得应用场景更加灵活。
- 工作原理:
- 简化流程:传统上,开发者需要使用多个模型(如自动语音识别、文本推理、文本转语音)来创建语音助手体验,这样会导致延迟和情感表达的损失。
- 单一API调用:通过实时API,开发者可以通过一次API调用处理整个过程,尽管仍然比人类对话慢。
- WebSocket连接:实时API创建持久的WebSocket连接,允许开发者与GPT-4o实时交换消息。
- 函数调用支持:支持函数调用,使得语音助手能够执行用户请求,例如下订单或检索客户信息。
- 应用场景:
- 实时API可用于客户支持、语言学习、教育软件等,开发者可以利用语音交互增强用户体验。
- 例如:开发者通过该 API 仅用30秒便构建了一个旅行计划应用,让用户可以通过自然语言交互实现行程规划。Speak 是一款语言学习应用程序,它使用 Realtime API 来支持其角色扮演功能,鼓励用户用新语言练习对话。
- 定价与可用性:
- 文本输入令牌:每百万5美元,输出令牌:每百万20美元。
- 音频输入:每百万100美元,输出:每百万200美元。