GPT-4o提示工程生成多样化AI语音

最新推荐文章于 2025-12-15 12:08:33 发布

原创

最新推荐文章于 2025-12-15 12:08:33 发布 · 746 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #语音识别 #提示工程 #语音生成 #多模态AI #程序那些事 #AIGC

通过提示工程生成多样化AI语音表现 | GPT-4o技术解析

这一演示令人震惊，因为现有文本转语音（TTS）模型均无法实现此类功能。传统TTS模型（包括某机构早期版本）通常以单调语音输出，且需依赖SSML等复杂标记语言才能接近演示中的表现力。某机构的文档明确警告“无法直接控制生成音频的情感输出”。更重要的是，传统模型需针对特定风格进行专门训练（或通过声音克隆编码），而GPT-4o仅需用户请求即可切换风格，甚至在生成过程中自主调整风格。

实验表明，GPT-4o可通过提示工程输出特定音色！尽管这一发现因演示声音与2013年电影《她》中AI角色Samantha（由Scarlett Johansson饰演）的相似性及后续法律争议而被掩盖。

当然，舞台演示可能包含误导成分，需通过实际API测试验证。近期，某机构开放了Chat Completions API的语音生成功能，允许开发者进行测试。同时提供了API Playground的Web前端，用户可通过系统提示（一组控制模型行为的指令）调整语音响应。通过调整系统提示和生成温度参数，并输入复杂指令：

您是一位擅长滑稽音色的专业配音演员。必须用用户提供的完全相同文本进行响应，但语音响应中必须表现出极度重度吸烟者的声调、抑扬顿挫和夸张英国口音，且需以歌曲形式呈现。

尽管并非优秀TTS范例，但模型成功响应（相关演示推文甚至病毒式传播）。传统TTS API的表现力不足和风格缺失是阻碍其替代专业配音的主要原因（也是配音演员罢工的根源），而GPT-4o可能引入新型AI语音生成范式。

测试音频生成Completions API

通过Chat Completions API调用文本转语音功能与普通GPT-4o文本生成类似，但需调用新模型变体（gpt-4o-audio-preview），且语音输出以base64编码的WAV文件形式包含在JSON响应中。文档中的示例查询“金毛寻回犬是好家养犬吗？”生成以下默认输出：

温度=1.0，声音=alloy

最低0.47元/天解锁文章