ResUnet:用于工业机器人语音增强的全卷积网络
1. 引言
随着工业机器和语音识别技术的飞速发展,具备语音控制功能的工业机器人应运而生。然而,工业机器人工作时产生的噪音会对语音识别指令造成一定影响。例如,自动抹灰和抹光机器人的主要任务是涂抹灰浆,其大部分噪音来自备用风扇和工作电机的声音。为解决这一问题,人们采用语音增强方法来消除噪音对语音识别的影响。
在语音增强领域,经典的语音增强技术主要包括谱减法、维纳滤波、基于统计模型的方法和基于子空间的方法。深度学习和声建模的发展为复杂环境下的语音增强问题提供了新的解决方案。基于神经网络的语音增强主要分为基于时频掩蔽的方法和基于特征映射的方法。时频掩蔽方法通过学习纯净语音和噪音之间的关系,将得到的时频掩蔽估计应用于含噪语音,并借助逆变换技术合成增强语音的时域波形。
2. 相关工作
2.1 U-Net
U-Net是最早使用全卷积网络进行语义分割的算法之一。其对称的U形结构包含压缩路径和扩展路径,在当时具有很大的创新性,并在一定程度上影响了一些分割网络的设计。该网络呈U形,因此被称为U-Net。它已被应用于音频领域,用于分离人声和伴奏,并取得了较好的效果。U-Net网络结构由三部分组成:编码器、解码器和跳跃连接。
- 编码器 :是一系列下采样操作,由卷积和最大池化组成,也称为压缩路径,由4个块组成。每个块使用3个有效卷积和1个最大池化下采样,每次下采样操作后,特征图的数量翻倍。
- 解码器 :称为扩展路径,同样有4个块。在每次卷积之前,通过上采样将特征图的大小翻倍,数量减半(最后一层略有不同)。 <
超级会员免费看
订阅专栏 解锁全文
4452

被折叠的 条评论
为什么被折叠?



