
强化学习
文章平均质量分 90
火鸡哥
这个作者很懒,什么都没留下…
展开
-
动态规划
动态规划在动态规划设置中,智能体完全了解 MDP,因此智能体不需要互动就能学习到最优策略;为了获得策略πππ对应的状态值函数vπvπv_π,我们只需求解vπvπv_π的贝尔曼预期方程对应的方程组即可;虽然可以通过分析方式求解方程组,但是我们将重点讲解以下三种迭代方法。1、策略迭代策略迭代是一种可以在动态规划设置中解决 MDP 的算法。它包含一系列的策略评估和改进步骤,肯定会收敛于最...原创 2018-08-01 17:53:45 · 430 阅读 · 0 评论 -
蒙特卡罗方法
蒙特卡罗方法动态规划中估计的是状态值,然后通过状态值来获取动作值,但在模型末知的情况下,智能体不知道环境的所有状态,无法对状态值进行预估,导致无法通过状态值来获取动作值,因些在免模型的情况下,我们将估计对象从V转变为Q。蒙特卡罗方法是在进行一个阶段的采样后再更新值函数。通过与环境互动评估策略πππ的方法分为两大类别: 异同策略方法使智能体与环境互动时遵守的策略πππ与要评估(或改进)...原创 2018-08-02 15:56:11 · 880 阅读 · 0 评论 -
时序差分方法
时序差分方法动态规划的公式是在每执行一步策略后更新值函数,但必须模型可知; 蒙特卡罗方法对末知模型进行动态值估计,但需要在完成一个采样阶段后才能更新值函数。 而时序差分方法则结合了动态规划和蒙特卡罗方法的思想,做到更高效的免模型学习。1、公式推导动态规划: vπ(s)=E(r+g∗vπ(s′))vπ(s)=E(r+g∗vπ(s′))v_π(s) = E(r+g*v_π(s')...原创 2018-08-03 10:45:30 · 1819 阅读 · 0 评论