- 博客(9)
- 收藏
- 关注
原创 学习心得-强化学习【蒙特卡洛方法】
上上图有个consistent(一致的),这是很重要的,因为使用 MC ε-greedy所得到的最优ε-greedy的策略,在实际应用中,就会把ε取消掉,将ε-greedy转成greedy来应用,所以ε要设置得很小。从一个策略出发,在每次迭代中,先求出该策略的所有(s,a)的q值,然后求平均得到最终q值【策略迭代算法在这步是先求出state value,再求出最终q值】,再通过最终q值来进行策略改进。接下来举例探讨ε-greedy的探索性,当ε=1时就是均匀分布,每个动作的概率是相同的。
2023-03-23 09:29:06
1038
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人