语音和文字处理 —— 语音合成 TTS
概念
将文字转化为语音的过程,相当于人的嘴巴。
实现
两种实现方法——拼接法,参数法。二者的区别在于后端声学建模方法。
拼接法:
- 定义:
- 从事先录制的大量语音中选择所需的基本单位拼接而成,单位可以是音节、音素,为了追求语音的连贯性也常用双音子为单位。
- 优点:
- 语音质量高。
- 缺点:
- 数据库要求高,企业级商用需要至少5万句数据;
- 成本高,购买上述数据,需要几百万的成本。
参数法:
- 定义:
- 根据统计模型来产生每时每刻的参数包括基频、共振峰频率等,然后把这些参数转化为波形。
- 模块:
- 前端:
- 文本解析,决定每个字的发音是什么,这句话用什么样的语调,节奏来读,哪些地方要强调等;
- 韵律边界;
- 重音;
- 边界调;
- 情感。
- 前端: