利用GAN进行序列合成与3D模型重建
1. SEGAN:语音增强生成对抗网络
1.1 SEGAN架构
SEGAN由Santiago Pascual、Antonio Bonafonte和Joan Serrà提出,它利用一维卷积成功去除语音音频中的噪声。由于图像是二维的,而声音是一维的,考虑到GAN在合成二维图像方面表现出色,因此在合成音频数据时使用一维卷积层而非二维卷积层是很自然的想法,SEGAN正是基于此构建的。
1.1.1 生成器网络
SEGAN的生成器网络采用了带有跳跃连接的编码器 - 解码器架构。具体步骤如下:
1. 将音频样本裁剪为固定长度16384,并通过五层一维卷积层,卷积核大小为31,步长为4。
2. 将压缩后的1024 x 16向量(忽略批量通道)与潜在向量(大小为1024 x 16)拼接。
3. 拼接后的向量通过另外五层转置卷积层。
4. 镜像卷积层和转置卷积层中形状相同的特征图通过跳跃连接相连,这有助于生成器更快地重建增强音频的结构。
5. 最终生成长度为16384的去噪音频样本。
1.1.2 判别器网络
SEGAN的判别器网络是一个单一的编码器网络,其目的是给出输入音频的保真度得分。具体步骤如下:
1. 将噪声音频和干净音频(真实数据或合成数据)拼接成一个2 x 16384的张量。
2. 该张量通过五层卷积层和三层全连接层,最终输出一个值,用于判断干净音频是真实的还是合成的。
在生成器和判别器网络的隐藏层中,均使用参数化修正线性单元(PReLU)作为激活函数。
超级会员免费看
订阅专栏 解锁全文
916

被折叠的 条评论
为什么被折叠?



