基于声学聚类的自动语音分割与K - NN SVM性能提升
1. 引言
语音语料的音素分割在多个领域都具有重要作用。在文本转语音(TTS)系统中,音素单元的选择备受关注;同时,用于训练声学模型的分割语音数据库在自动语音识别(ASR)系统的构建中也具有重要意义。然而,手动分割语音语料不仅耗时费力,还可能因不同专家的标准不同而产生偏差。因此,开发自动语音分割系统具有重要的现实意义。
2. K - NN SVM相关
在使用K - NN SVM时,决策边界与核参数以及K值之间存在一定的关系。未来有望基于这些初步结果,开发出一种在训练阶段能自动寻找自身参数的新方法。
3. 自动语音分割系统
3.1 系统概述
自动语音分割系统分三个阶段进行:
- 第一阶段:进行粗分割,为后续阶段提供起始点。
- 第二阶段:通过动态时间规整(DTW)算法,利用每帧估计的音素概率,逐步细化音素边界。
- 第三阶段:根据在待调整边界附近以较高子采样率估计的一些声学参数,对边界进行更精确的调整。
以下是系统流程的mermaid流程图:
graph LR
A[输入语音信号和音素序列] --> B[粗分割]
B --> C[渐进细化]
C --> D[边界调整]
D --> E[输出分割结果]
3.2 粗分割
粗分割通过四个连续步骤,使用不同级别的分类技术来确定初始音素边界:
1.
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



