GAN序列合成:从理论到实践
1. 强化学习方法选择
在强化学习领域,Q - Learning是一种基于价值的方法。它维护一个Q表,用于记录各种动作的奖励。在决策时,它会选择能带来最大奖励值的动作,然后根据该动作导致的新环境更新Q表。与策略梯度方法相比,Q - Learning训练速度更快,常用于动作空间较小的简单任务。
当面临强化学习和监督学习(如CNN中的SGD方法)的选择时,可依据搜索空间的连续性和目标函数的可微性来判断:
- 若目标函数可微且搜索空间连续,使用SGD方法更佳。
- 若搜索空间离散或目标函数不可微,则需采用强化学习。
- 若搜索空间不大且有额外计算资源,进化搜索(ES)方法也是不错的选择。当变量服从高斯分布时,可尝试CMA - ES方法。
相关策略梯度的额外阅读材料:
- RL Policy Gradients Explained
- Policy Gradient Algorithms
2. SeqGAN架构
SeqGAN旨在解决普通GAN和判别器网络无法处理的问题。普通GAN擅长合成离散数据,但判别器网络无法评估不同长度的序列数据。为
超级会员免费看
订阅专栏 解锁全文
699

被折叠的 条评论
为什么被折叠?



