训练数据增强与数据选择
1 数据增强概述
在语音处理领域,源数据与目标数据不匹配是一个常见的问题,“干净”和“嘈杂”只是非常宽泛的类别,数据不匹配可能有多种形式,并且取决于说话者、声学条件等诸多因素。
处理数据不匹配的典型解决方案包括:
- 语音增强 :修改(可能嘈杂的)目标数据,使其适应在干净源数据上训练的系统。
- 模型自适应 :调整模型以应对不匹配的条件。
- 数据增强 :改变源数据,以获得与目标数据具有相似特征的数据,生成的数据通常比原始数据量更大,被称为“增强数据”。
数据增强在文献中有不同的实现方式,早期的尝试如Bellegarda等人通过特征旋转算法,将源说话者的特征映射到目标说话者空间,增加了说话者相关模型训练的数据量。近年来的方法可以根据数据增强的级别分为以下几类:
1.1 音频级别
- 音频扰动 :通过人工混响、添加噪声或其他扰动源数据的方式,忽略不同的声学环境,以最小化源/目标数据不匹配。通常有足够的源说话者,但声学环境不匹配,如安静场所与拥挤公共场所的区别。常见的操作包括添加人工或真实噪声、模拟混响等。
- 音频修改 :对音频本身进行修改,如对音频进行上采样和下采样,并相应改变参考标签的时间,或使用音频编辑器改变原始音频的音高或节奏。研究表明,混响/添加噪声和重采样/音高修改并非完全互补。
- 人工生成语音数据
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



