《深入浅出强化学习原理入门》学习笔记(四)基于模型的动态规划方法

强化学习的直观目标是找到最优策略,目的是更好地完成任务。回报函数对应着具体的任务,所以强化学习所学到的最优策略是与具体的任务相对应的。从这个意义上来说,强化学习并不是万能的,它无法利用一个算法实现所有的任务。

从广义上讲,强化学习可以归结为序贯决策问题,即找到一个决策序列u0*-u1*-u2*-u3*-----uτ*使目标函数(累计回报的期望值 ∫R (τ)Pπ (τ) dτ)最优。
在这里插入图片描述
下图非常经典。
马尔科夫决策过程可以利用元组(S,A,P,r,γ)来描述,根据转移概率P是否已知,可以分为基于模型的动态规划方法和基于无模型的强化学习方法。本节主要学习基于模型的策略迭代算法和值迭代算法。
在这里插入图片描述
基于模型的强化学习可以利用动态规划的思想来解决。动态规划中的“动态”蕴含着序列和状态的变化;“规划”蕴含着优化,如线性优化,⼆次优化或者非线性优化。

利用动态规划可以解决的问题需要满足两个条件:⼀是整个优化问题可以分解为多个子优化问题;⼆是子优化问题的解可以被存储和重复利用。

值函数计算

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值