28、训练数据增强与数据选择

训练数据增强与数据选择

1 数据增强概述

在语音处理领域,源数据与目标数据不匹配是一个常见的问题,“干净”和“嘈杂”只是非常宽泛的类别,数据不匹配可能有多种形式,并且取决于说话者、声学条件等诸多因素。

处理数据不匹配的典型解决方案包括:
- 语音增强 :修改(可能嘈杂的)目标数据,使其适应在干净源数据上训练的系统。
- 模型自适应 :调整模型以应对不匹配的条件。
- 数据增强 :改变源数据,以获得与目标数据具有相似特征的数据,生成的数据通常比原始数据量更大,被称为“增强数据”。

数据增强在文献中有不同的实现方式,早期的尝试如Bellegarda等人通过特征旋转算法,将源说话者的特征映射到目标说话者空间,增加了说话者相关模型训练的数据量。近年来的方法可以根据数据增强的级别分为以下几类:

1.1 音频级别

  • 音频扰动 :通过人工混响、添加噪声或其他扰动源数据的方式,忽略不同的声学环境,以最小化源/目标数据不匹配。通常有足够的源说话者,但声学环境不匹配,如安静场所与拥挤公共场所的区别。常见的操作包括添加人工或真实噪声、模拟混响等。
  • 音频修改 :对音频本身进行修改,如对音频进行上采样和下采样,并相应改变参考标签的时间,或使用音频编辑器改变原始音频的音高或节奏。研究表明,混响/添加噪声和重采样/音高修改并非完全互补。
  • 人工生成语音数据
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值