21、利用GAN进行序列合成与3D模型重建

利用GAN进行序列合成与3D模型重建

1. SEGAN:语音增强生成对抗网络

1.1 SEGAN架构

SEGAN由Santiago Pascual、Antonio Bonafonte和Joan Serrà提出,它利用一维卷积成功去除语音音频中的噪声。由于图像是二维的,而声音是一维的,考虑到GAN在合成二维图像方面表现出色,因此在合成音频数据时使用一维卷积层而非二维卷积层是很自然的想法,SEGAN正是基于此构建的。

1.1.1 生成器网络

SEGAN的生成器网络采用了带有跳跃连接的编码器 - 解码器架构。具体步骤如下:
1. 将音频样本裁剪为固定长度16384,并通过五层一维卷积层,卷积核大小为31,步长为4。
2. 将压缩后的1024 x 16向量(忽略批量通道)与潜在向量(大小为1024 x 16)拼接。
3. 拼接后的向量通过另外五层转置卷积层。
4. 镜像卷积层和转置卷积层中形状相同的特征图通过跳跃连接相连,这有助于生成器更快地重建增强音频的结构。
5. 最终生成长度为16384的去噪音频样本。

1.1.2 判别器网络

SEGAN的判别器网络是一个单一的编码器网络,其目的是给出输入音频的保真度得分。具体步骤如下:
1. 将噪声音频和干净音频(真实数据或合成数据)拼接成一个2 x 16384的张量。
2. 该张量通过五层卷积层和三层全连接层,最终输出一个值,用于判断干净音频是真实的还是合成的。

在生成器和判别器网络的隐藏层中,均使用参数化修正线性单元(PReLU)作为激活函数。

1.2 训练SE

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值