强化学习 python代码
Tea.秦
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Actor-critic强化学习算法
##Actor-critic算法import randomimport matplotlib.pyplot as pltx=[]y=[]def random_pick(some_list, probabilities):random_num = random.uniform(0,1)cumulative_probability = 0.0for item, item_probability in zip(some_list, probabilities): #遍历cumulativ原创 2021-11-24 16:17:47 · 1183 阅读 · 0 评论 -
基于DP的MDP中的值迭代和策略迭代的区别
值迭代和策略迭代的区别 值迭代与策略迭代都是强化学习中的动态规划方法(DP), 它们的框架相同,都包含两个过程——策略估计和策略改进。 不同的是策略迭代是在策略评估之后,等到值函数收敛之后再进行策略改进,而值迭代是在策略评估的时候,只要值函数改变,就直接进行策略改进。我们用伪代码比较两者的区别。策略迭代:值迭代:...原创 2021-03-07 21:18:34 · 1704 阅读 · 0 评论
分享