- 博客(6)
- 收藏
- 关注
原创 dataframe multi index
iloc只能用来索引行号,无法使用multiindex。loc 所在的圆括号对应着multiindex。3输出所在行的mutilindex。1.mutliindex 查看。2.mutliindex 索引。
2023-08-17 18:39:39
151
1
原创 playing atari with DQN
我们可以看到,无论是Q-learning还是DQN,我们发现他们的本质都是value-based 的强化学习方法,利用value iteration 进行优化。在这里,正确的网络指的是,input是一个observation或者说是state,可以得到一个正确的。一定程度上,时间差分算法可以视为Monte Carlo算法的一种发展,Monte Carlo 算法的核心是多次采样求平均的思路,对累计收获的奖励值求平均,这里的指的是,agent 采集自己的轨迹的历史数据,然后进行minibatch的训练。
2023-02-27 15:56:33
154
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人