20、基于GAN的序列合成与语音质量增强

基于GAN的序列合成与语音质量增强

1. 强化学习方法选择

在强化学习中,Q - Learning是一种基于价值的方法。它维护一个Q表,用于记录各种动作的奖励。在决策时,它会选择能带来最大奖励值的动作,然后根据该动作产生的新环境更新Q表。与策略梯度方法相比,Q - Learning训练速度更快,常用于动作空间较小的简单任务。

当强化学习和监督学习(如CNN中的随机梯度下降SGD方法)都可用时,可根据搜索空间的连续性和目标函数的可微性来选择:
|条件|适用方法|
|----|----|
|目标函数可微且搜索空间连续|SGD方法|
|搜索空间离散或目标函数不可微|强化学习|
|搜索空间不大且有额外计算资源|进化搜索(ES)方法|
|变量服从高斯分布|CMA - ES方法|

2. SeqGAN架构

SeqGAN旨在解决普通GAN和判别器网络无法解决的问题。普通GAN擅长合成离散数据,但无法处理序列数据;判别器网络不能评估不同长度的序列数据。为解决这些问题,SeqGAN采用了以下策略:
- 更新生成器网络 :使用策略梯度方法更新生成器网络。
- 处理序列长度问题 :使用蒙特卡罗树搜索(MCTS)方法生成剩余数据。

2.1 强化学习策略

假设在时间$t$,生成的序列为$\mathbf{y} {1:t}$,当前动作$a_t$由生成器网络$G {\theta}$给出,其中$\theta$是初始状态。基于$\mathbf{y} {1:t}$生成

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值