利用GAN进行序列合成与3D模型重建
1. SEGAN架构与语音增强
1.1 SEGAN简介
SEGAN(Speech Enhancement GAN)由Santiago Pascual、Antonio Bonafonte和Joan Serrà提出,它利用1D卷积成功去除语音音频中的噪声。你可以在 这里 查看其与其他方法相比的降噪效果,还有升级版本可在 这里 找到。
由于图像是二维的,而声音是一维的,考虑到GAN在合成2D图像方面表现出色,因此在合成音频数据时使用1D卷积层而非2D卷积是很自然的想法,SEGAN正是基于此构建的。
1.2 生成器网络
SEGAN的生成器网络采用带有跳跃连接的编码器 - 解码器架构,类似于pix2pixHD等其他GAN。其具体流程如下:
1. 将音频样本裁剪为固定长度16384。
2. 通过五层1D卷积层,卷积核大小为31,步长为4。
3. 将压缩后的1024 x 16向量(忽略批量通道)与潜在向量(大小为1024 x 16)连接。
4. 通过另外五层转置卷积层。
5. 镜像卷积层和转置卷积层中形状相同的特征图通过跳跃连接相连,以帮助生成器更快地重建增强音频的结构。
6. 最终生成长度为16384的去噪音频样本。
1.3 判别器网络
SEGAN的判别器网络是一个单一的编码器网
超级会员免费看
订阅专栏 解锁全文
33

被折叠的 条评论
为什么被折叠?



