OpenAI 于2025 年 3 月 20 日在API中推出“下一代语音模型”(三款新的语音模型:gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts)——提供语音转文本及文本转语音的能力,并具备领先的准确性和可靠性。支持用户通过自然语言与 AI Agent 系统深度交互,帮助提升客服中心、会议记录等复杂场景中的实用价值。
(下面借助 Grok 3 生成)
模型技术细节
| 模型名称 |
类型 |
主要特点 |
定价(每百万令牌) |
|---|---|---|---|
| gpt-4o-transcribe |
语音转文本(STT) |
取代 Whisper,词错误率更低,擅长处理口音、嘈杂环境和多变语音速度,印度语系语言 WER ~30% |
6.00 美元(约 0.006 美元/分钟) |
| gpt-4o-mini-transcribe |
语音转文本(STT) |
取代 Whisper,类似改进,成本更低 |
3.00 美元(约 0.003 美元/分钟) |
| gpt-4o-mini-tts |
文本转语音(TTS) |
可通过自然语言指令自定义语音风格(如情感、口音),目前限预设人工声音 |
文本 |

最低0.47元/天 解锁文章
1499

被折叠的 条评论
为什么被折叠?



