通过提示工程生成多样化AI语音表现 | GPT-4o技术解析
这一演示令人震惊,因为现有文本转语音(TTS)模型均无法实现此类功能。传统TTS模型(包括某机构早期版本)通常以单调语音输出,且需依赖SSML等复杂标记语言才能接近演示中的表现力。某机构的文档明确警告“无法直接控制生成音频的情感输出”。更重要的是,传统模型需针对特定风格进行专门训练(或通过声音克隆编码),而GPT-4o仅需用户请求即可切换风格,甚至在生成过程中自主调整风格。
实验表明,GPT-4o可通过提示工程输出特定音色!尽管这一发现因演示声音与2013年电影《她》中AI角色Samantha(由Scarlett Johansson饰演)的相似性及后续法律争议而被掩盖。
当然,舞台演示可能包含误导成分,需通过实际API测试验证。近期,某机构开放了Chat Completions API的语音生成功能,允许开发者进行测试。同时提供了API Playground的Web前端,用户可通过系统提示(一组控制模型行为的指令)调整语音响应。通过调整系统提示和生成温度参数,并输入复杂指令:
您是一位擅长滑稽音色的专业配音演员。必须用用户提供的完全相同文本进行响应,但语音响应中必须表现出极度重度吸烟者的声调、抑扬顿挫和夸张英国口音,且需以歌曲形式呈现。
尽管并非优秀TTS范例,但模型成功响应(相关演示推文甚至病毒式传播)。传统TTS API的表现力不足和风格缺失是阻碍其替代专业配音的主要原因(也是配音演员罢工的根源),而GPT-4o可能引入新型AI语音生成范式。
测试音频生成Completions API
通过Chat Completions API调用文本转语音功能与普通GPT-4o文本生成类似,但需调用新模型变体(gpt-4o-audio-preview),且语音输出以base64编码的WAV文件形式包含在JSON响应中。文档中的示例查询“金毛寻回犬是好家养犬吗?”生成以下默认输出:
- 温度=1.0,声音=alloy

最低0.47元/天 解锁文章
1770

被折叠的 条评论
为什么被折叠?



