
强化学习
文章平均质量分 63
minghegao
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
强化学习----动态规划
强化学习-----第三课 动态规划 一.简介 动态规划算法是解决复杂问题的一个方法,算法通过把复杂问题分解为子问题,通过求解子问题进而得到整个问题的解。在解决子问题的时候,其结果通常需要存储起来被用来解决后续复杂问题。 当问题具有下列特性时,通常可以考虑使用动态规划来求解: 1)第一个特性是一个复杂问题的最优解由数个小问题的最优解构成,可以通过寻找子问题的最优解来得到复杂问题的最优解; ...原创 2018-11-28 10:44:57 · 439 阅读 · 0 评论 -
强化学习-------马尔科夫决策过程
重点:就是要得出策略,因此需要知道V*,因此需要知道V。然后有两种迭代方式求解,一是值迭代,而是策略迭代。 对于Q函数,V函数的理解,可以通过那两个树状图理解比较容易;另外选择动作a后,到达s‘是有一定的概率的,不是选了a,s’就确定了,而是以一定的概率。 为什么要讲马尔科夫决策过程?因为几乎所有的强化学习问题都可以表述成马尔科夫决策过程(MDP)的形式,比如说:最优控制...原创 2019-02-24 21:11:51 · 693 阅读 · 0 评论