语音数据增强与选择技术详解
1. 数据增强概述
在语音处理领域,“干净”和“嘈杂”只是宽泛的分类,源数据与目标数据的不匹配可能有多种形式,受说话者、声学条件等诸多因素影响。常见处理数据不匹配的方法有语音增强、模型自适应和数据增强。数据增强是改变源数据,使其特征接近目标数据,生成的数据量通常比原始数据大,被称为“增强数据”。
在相关文献中,数据增强和数据扰动是两个常用术语。数据增强一般是从丰富的源数据中借用数据填充稀疏的目标数据,数据扰动则仅使用目标数据增加其变化性。通常会将两者结合,既从源数据借用数据,又对其进行修改以符合目标数据特征。
2. 文献中的数据增强方法
早期,Bellegarda 等人尝试通过特征旋转算法,将源说话者的特征映射到目标说话者特征空间,增加说话者相关模型训练的数据量。实验表明,用 1500 个源说话者的句子增强 100 个目标说话者的句子,训练出的模型与用 600 个目标说话者句子训练的模型准确率相同。
近期的数据增强方法可按操作级别分类:
- 音频级别 :
- 音频扰动 :通过人工混响、加噪等方式,减少源数据与目标数据在声学环境上的不匹配。通常有足够的源说话者,但声学环境不同,如安静场所和拥挤公共场所。常见做法是添加人工或真实噪声,也可模拟混响。
- 音频修改 :包括对音频进行上采样和下采样,并相应改变参考标签的时间,或使用音频编辑器改变原始音频的音高或节奏。实验表明,混响/加噪和重采样/音高修改并非完全互补。
- 语音合成
超级会员免费看
订阅专栏 解锁全文
2066

被折叠的 条评论
为什么被折叠?



