[新闻.AI]OpenAI推出“下一代语音模型”（gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts）

原创

已于 2025-03-21 13:46:03 修改 · 1k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #AI #OpenAI

于 2025-03-21 13:36:15 首次发布

OpenAI 于2025 年 3 月 20 日在API中推出“下一代语音模型”（三款新的语音模型：gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts）——提供语音转文本及文本转语音的能力，并具备领先的准确性和可靠性。支持用户通过自然语言与 AI Agent 系统深度交互，帮助提升客服中心、会议记录等复杂场景中的实用价值。

（下面借助 Grok 3 生成）

模型技术细节

模型名称	类型	主要特点	定价（每百万令牌）
gpt-4o-transcribe	语音转文本（STT）	取代 Whisper，词错误率更低，擅长处理口音、嘈杂环境和多变语音速度，印度语系语言 WER ~30%	6.00 美元（约 0.006 美元/分钟）
gpt-4o-mini-transcribe	语音转文本（STT）	取代 Whisper，类似改进，成本更低	3.00 美元（约 0.003 美元/分钟）
gpt-4o-mini-tts	文本转语音（TTS）	可通过自然语言指令自定义语音风格（如情感、口音），目前限预设人工声音	文本