[新闻.AI]OpenAI推出“下一代语音模型”(gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts)

        OpenAI 于2025 年 3 月 20 日在API中推出“下一代语音模型”(三款新的语音模型:gpt-4o-transcribe、gpt-4o-mini-transcribe 和 gpt-4o-mini-tts)——提供语音转文本及文本转语音的能力,并具备领先的准确性和可靠性。支持用户通过自然语言与 AI Agent 系统深度交互,帮助提升客服中心、会议记录等复杂场景中的实用价值。

(下面借助 Grok 3 生成) 

模型技术细节

模型名称

类型

主要特点

定价(每百万令牌)

gpt-4o-transcribe

语音转文本(STT)

取代 Whisper,词错误率更低,擅长处理口音、嘈杂环境和多变语音速度,印度语系语言 WER ~30%

6.00 美元(约 0.006 美元/分钟)

gpt-4o-mini-transcribe

语音转文本(STT)

取代 Whisper,类似改进,成本更低

3.00 美元(约 0.003 美元/分钟)

gpt-4o-mini-tts

文本转语音(TTS)

可通过自然语言指令自定义语音风格(如情感、口音),目前限预设人工声音

文本

### GPT-4o Mini Audio Preview 的功能与特性 #### 功能概述 GPT-4o-mini-audio-preview-2024-12-17 是基于 GPT-4-o 系列的音频处理能力预览版本,主要专注于增强模型语音音频相关任务中的表现。该版本可能集成了更高效的音频理解模块,并支持将音频输入转换为文本(语音识别),同时能够结合上下文进行推理响应生成。这种能力使其适用于语音助手、智能客服以及实时语音翻译等场景。 #### 多模态支持情况 GPT-4o Mini 系列模型继承了 GPT-4-o 的多模态能力,因此可以合理推测 GPT-4o-mini-audio-preview-2024-12-17 在一定程度上支持多模态任务[^3]。尽管其主要聚焦于音频处理,但仍然可以与其他模态(如文本图像)协同工作。例如,它可以在接收音频输入的同时,结合视觉信息进行综合分析,并生成跨模态的输出结果。这一特性在涉及多媒体内容理解的应用中尤为重要。 #### Function Call 支持情况 根据现有资料,GPT-4o Mini 系列模型均支持 Function Call 功能,并且具备自主选择调用函数的能力(`tool_choice="auto"`)[^1]。GPT-4o-mini-audio-preview-2024-12-17 作为该系列的一部分,应具备相同的函数调用机制。这意味着它可以与外部工具或 API 进行交互,例如调用语音合成服务、执行数据库查询或触发自动化流程。以下是一个典型的函数定义示例: ```python functions = [ { "name": "transcribe_audio", "description": "Convert audio input into text transcript", "parameters": { "type": "object", "properties": { "audio_file": { "type": "string", "description": "Base64 encoded audio file" } }, "required": ["audio_file"] } } ] ``` 通过此类函数定义,模型可以接收音频文件并返回其文字转录结果,进一步提升其在语音处理任务中的实用性。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

俊哥V

这是个嘛?

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值