OpenAI 旧金山开发者大会发布五大创新功能 实时语音、视觉微调、模型蒸馏

在10月1日的 OpenAI 旧金山开发者大会( DevDay) 上 。OpenAI 公布了五项重大创新,其中“实时 API”(Realtime API)的新功能,使得开发者能够创建具有低延迟、AI 生成的语音响应功能的应用程序。尽管这一功能不完全等同于 ChatGPT 的高级语音模式,但其能力已经非常接近,旨在帮助开发者为用户提供近乎实时的语音到语音互动体验。除此之外,OpenAI 还发布了其他一系列新功能,旨在进一步提升开发者的 AI 应用构建体验。

包括实时语音API、提示词缓存、模型蒸馏、视觉微调、新Playground。

这些创新将改变开发者与AI互动的方式,并有助于降低AI模型的使用成本,推动多模式的语音、视觉等应用的普及。

顺道说一下,今年开发者大会一共 3 场:10月1号旧金山;10月30号伦敦,以及11月21日新加坡…

实时语音API

OpenAI发布——实时API(Realtime API),该API允许开发者在应用中构建低延迟的多模态语音体验。

  1. 实时API的推出
    • 实时API允许开发者构建低延迟的语音转语音体验,支持自然的情感对话交互,有六种预设语音。
    • 该API的公共测试版现已向所有付费开发者开放。
  2. 音频输入与输出
    • 在聊天完成API中引入音频输入和输出,适用于不需要低延迟的应用场景。
    • 开发者可以将文本或音频输入传递给GPT-4o,模型可以以文本、音频或两者形式返回响应。这使得应用场景更加灵活。
  3. 工作原理
    • 简化流程:传统上,开发者需要使用多个模型(如自动语音识别、文本推理、文本转语音)来创建语音助手体验,这样会导致延迟和情感表达的损失。
    • 单一API调用:通过实时API,开发者可以通过一次API调用处理整个过程,尽管仍然比人类对话慢。
    • WebSocket连接:实时API创建持久的WebSocket连接,允许开发者与GPT-4o实时交换消息。
    • 函数调用支持:支持函数调用,使得语音助手能够执行用户请求,例如下订单或检索客户信息。
  4. 应用场景
    • 实时API可用于客户支持、语言学习、教育软件等,开发者可以利用语音交互增强用户体验。
    • 例如:开发者通过该 API 仅用30秒便构建了一个旅行计划应用,让用户可以通过自然语言交互实现行程规划。Speak 是一款语言学习应用程序,它使用 Realtime API 来支持其角色扮演功能,鼓励用户用新语言练习对话。
    • 定价与可用性
      • 文本输入令牌:每百万5美元,输出令牌:每百万20美元。
      • 音频输入:每百万100美元,输出:每百万200美元。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值