- 博客(6)
- 收藏
- 关注
原创 强化学习3-策略梯度(policy gradient)
1. value-based和policy gradient的不同:a. 输出不同: value-based方法 (Q learning, Sara)输出的是p(s)p(s)p(s)或p(s,a)p(s,a)p(s,a); Policy gradient输出的p(a∣s)p(a|s)p(a∣s), 这样 policy gradient 就跳过了 value 这个阶段.b. 选取actio...
2019-06-11 20:26:26
2137
1
原创 强化学习2-value函数的近似
在强化学习中,如果状态是比较少,可以使用表格的方法类存储所有的转态和动作,每个格子代表一个状态。但是在类似围棋游戏中,每下一个子就是一种状态,那么这些状态就非常多了,如果在程序中要用一个表格来表示状态与状态对应的值函数的话,那么内存就远远不够用了。另外,当状态不是离散的时候,就无法用表格来表示了。所以,我们需要另外的方法来表示状态与状态对应的值函数。所以需要机器学习(比如:各种神经网络模型)的...
2019-06-06 11:41:29
293
原创 lstm/gru理解
一、LSTM变量分析3个gate,1个输入、1个输出、1个cell二、LSTM模型3个gate一样; cell = cell + inputgate; h=output * cell三、GRU
2019-06-05 17:39:10
235
原创 GAN相关的图像生成
####1. GAN的目标和迭代方法:(1).目标: (2).优化:先优化D;再优化G####2. 图像生成中的DCGAN加入了transport convolution####3. cycleGAN(参考:https://www.leiphone.com/news/201709/i9qlcvWrpitOacjf.html)...
2019-06-05 17:30:00
282
原创 如何理解SelfAttention
1. 如何理解attentionattention可以理解为一种soft方式的用key找valuea. Key找Value: 是有了key,就找出对应的valueb. soft方式的 Key找Value: Query*key ->value, attention是Key要结合着Query,然后看在多大程度上使用valuec.除了上述公式,也可以用别的Query和key的计算...
2019-06-05 17:22:00
1139
原创 强化学习1
1.MDP过程\textbf{1.MDP过程}1.MDP过程2.单轮回报reward R和长期回报return G\textbf{2.单轮回报reward R和长期回报return G}2.单轮回报reward R和长期回报return GReward R是单轮回报RnR_nRn, Return G是序列未来的整体收益GnG_nGn,可以表示为:...
2019-06-05 15:34:39
182
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人