[新闻.AI]OpenAI推出“下一代语音模型”(gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts)

        OpenAI 于2025 年 3 月 20 日在API中推出“下一代语音模型”(三款新的语音模型:gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts)——提供语音转文本及文本转语音的能力,并具备领先的准确性和可靠性。支持用户通过自然语言与 AI Agent 系统深度交互,帮助提升客服中心、会议记录等复杂场景中的实用价值。

(下面借助 Grok 3 生成) 

模型技术细节

模型名称

类型

主要特点

定价(每百万令牌)

gpt-4o-transcribe

语音转文本(STT)

取代 Whisper,词错误率更低,擅长处理口音、嘈杂环境和多变语音速度,印度语系语言 WER ~30%

6.00 美元(约 0.006 美元/分钟)

gpt-4o-mini-transcribe

语音转文本(STT)

取代 Whisper,类似改进,成本更低

3.00 美元(约 0.003 美元/分钟)

gpt-4o-mini-tts

文本转语音(TTS)

可通过自然语言指令自定义语音风格(如情感、口音),目前限预设人工声音

文本 0.60 美元,音频 12.00 美元(约 0.015 美元/分钟)

  • 训练与架构:这些模型基于 GPT-4o 和 GPT-4o-mini 架构,预训练于专门的音频数据集,并通过高级蒸馏技术和强化学习优化,转录准确性达到行业领先水平。

  • 多语言支持:模型支持 100 多种语言,包括较小语言如马拉雅alam,特别在处理上下文和细微差别方面表现优异,这一点在 Jijo Sunny 的帖子中得到了证实。

  • 性能改进:据 VentureBeat 报道,模型在英语中的词错误率低至 2.46%,并配备了噪声消除和语义语音活动检测器,提升了转录准确性。

用户反馈与应用场景

  • 早期采用者反馈:EliseAI 和 Decagon 等公司报告了显著改进,例如转录准确性提高了 30%,并在租户互动和客户服务中表现出色。

  • 实时应用:这些模型支持流式语音转文本,适合自然对话场景,OpenAI 建议通过 Realtime API 实现低延迟应用。

  • 创意竞赛:OpenAI 还在 X 上(@openAI)举办了 OpenAI.fm 的创意使用竞赛,获胜者将获得 Teenage Engineering 定制收音机,进一步鼓励开发者探索这些模型的应用。

行业与社会影响

  • 技术进步:这些模型的发布标志着 OpenAI 在语音 AI 领域的又一突破,尤其是在多语言支持和语音处理的准确性上。这可能推动语音交互应用的创新,例如智能客服、语言学习工具和多语言内容创作。

  • 开放性争议:与之前的 Whisper 模型不同,这些新模型未开源,OpenAI 认为它们过于庞大,不适合本地运行。这可能引发关于 AI 模型开放性与商业化平衡的讨论,尤其是在学术界和开源社区中。

  • 全球包容性:对小语言的支持(如马拉雅alam)可能为全球范围内的 AI 应用带来更大的包容性和可访问性,特别是在发展中国家和语言多样性地区。

定价与可用性

  • 这些模型通过 OpenAI 的 API 和自定义演示网站 OpenAI.fm 提供,开发者可以根据需求选择适合的模型。

  • 定价策略(如 gpt-4o-mini-transcribe 的低成本选项)可能吸引中小企业和初创公司,但高成本模型(如 gpt-4o-transcribe)可能限制个人用户的广泛采用。

小结

        OpenAI 的新语音模型在 2025 年 3 月 20 日 的发布是语音 AI 领域的一次重要进展,特别是在多语言支持和复杂语音场景的处理上。Jijo Sunny 的 X 帖子证实了这些模型的优越性,尤其是 STT 模型在小语言中的表现。这些模型的推出不仅为开发者提供了强大的工具,也可能推动语音交互应用的全球化和创新。


关键引文

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

俊哥V

这是个嘛?

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值