无模型方法(model-free)
无模型方法是学习方法的一种,MDPs中如果P,R未知,则用无模型方法。该方法需要智能体与环境进行交互(交互的方式多样),一般采用样本备份,需要结合充分的探索。
由于未知环境模型,则无法预知自己的后继状态和奖励值,通过与环境进行交互然后观察环境返回的值。本质上从概率分布Pass′Pss′a和RasRsa中进行采样。对于随机变量S′S′和R的采样,需要实现完整的轨迹还需要确定A,采样足够充分时,可以使用样本分布良好刻画总体分布
无模型学习 vs 动态规划
无模型学习 | 动态规划 |
---|---|
未知环境模型 | 已知环境模型 |
需要与环境进行交互,有交互成本 | 不需要直接交互,直接利用环境模型推导 |
样本备份 | 全宽备份 |
异步备份 | 同步和异步 |
需要充分探索 | 无探索 |
两个策略(行为策略和目标策略) | 一个策略 |
行为策略 vs 目标策略
行为策略是智能体与环境交互的策略,目标策略是我们要学习的策略。
在策略(on-policy)学习 | 离策略(off-policy)学习 |
---|---|
行为策略和目标策略是一个策略 | 行为策略和目标策略不是同一个策略 |
直接使用样本统计属性去估计总体 | 一般行为策略μμ选用随机性策略,目标策略ππ选用确定性策略,需要结合重要性采样才能使用样本估计总体 |
更简单,收敛性更好 | 方差更大,收敛性更差 |
数据利用性更差(只有智能体当前交互的样本能够被利用) | 数据利用性更好(可以使用其他智能体交互的样本) |
限定了学习过程中的策略是随机性策略 | 行为策略需要比目标策略更具备探索性。在每个状态下,目标策略的可行动作是行为策略可行动作的子集:π(a|s)>0==>μ(a|s)>0π(a|s)>0==>μ(a|s)>0 |
重要性采样
重要性采样是一种估计概率分布期望的技术,使用了来自其他概率分布的样本,主要用于无法直接采样原分布的情况,估计期望值是,需要加权概率分布的比值(称为重要性采样率)
例:估计全班身高,总体男女比例1:2,由于某些限制,只能按男女比例2:1去采样,如果不考虑采样的分布形式,直接平均得到的值就有问题,因此需要加权,加权比例是1:4去加权
EX~P [f(X)]=∑P(X)f(X)=∑Q(X)P(X)Q(X)f(X)=EX~Q [P(X)Q(X)f(X)]EX~P [f(X)]=∑P(X)f(X)=∑Q(X)P(X)Q(X)f(X)=EX~Q [P(X)Q(X)f(X)]
考虑t时刻之后的动作状态轨迹ρt=At,St+1,At+1,...,STρt=At,St+1,At+1,...,ST,可以得到该轨迹出现的概率为:
P(ρt)=∏k=tT−1π(At|Sk)P(Sk+1|Sk,Ak)P(ρt)=∏k=tT−1π(At|Sk)P(Sk+1|Sk,Ak)
相应的重要性采样率为
ηTt=∏T−1k=tπ(At|Sk)P(Sk+1|Sk,Ak)∏