习题
5.1 基于同策略的策略梯度有什么可改进之处?或者说其效率较低的原因在于?
经典策略梯度大部分时间花在数据的采样处,且一回合仅能更新一次参数。更新完之后,又需要花费时间重新收集数据,然后再次进行参数更新。因为采用的机制,以及一回合更新一次,所以效率非常很低。
5.2 使用重要性采样时需要注意的问题有哪些。
重要性采用的时候将p替换成q,但是本质上需要要求两者的分布不能差的太多,即使我们补偿了不同数据分布的权重 p ( x ) q ( x ) E x − p [ f ( x ) ] = E x − p [ f ( x ) p ( x ) q ( x ) ] \frac{p(x)}{q(x)} \ E_{x-p}[f(x)]=E_{x-p}[f(x)\frac{p(x)}{q(x)}] q(x)p(x) Ex−p[f(x)]=Ex−p[f(x)q(x)p(x)]当我们对两者的采样次数都比较多时,最终结果是一样的。但是通常,不会取理想的数据进行采样数据,所以如果两者分布相差较大,最后结果的方差将会很大。
5.3 基于异策略的重要性采样中的数据是从θ′ 采样出来的,从θ 换成θ′ 有什么优势?
使用异策略的重要性采样后,不需要 θ \theta θ去和环境互动,而是用另一个策略 θ ′ \theta ' θ′去示范。 θ ′ \theta ' θ′可以和采样数据进行多次交互,这样 θ \theta θ可以在一个回合内进行多次更新。直到在本次采样 θ \theta θ训练到一定程度, θ ′ \theta ' θ′再重新去做采样。
5.4 在本节中近端策略优化(PPO)中的KL 散度(KL divergence)指的是什么?
KL离散是度量距离的一种,不同于欧式距离,它度量两个概率分布间的差异。其本质就是指针对p, 拟合了一个结果q, 比较两者直接的熵的变化
H
=
−
∑
i
n
p
i
l
o
g
(
p
i
)
H=-\sum_i^np_ilog(p_i)
H=−i∑npilog(pi)
D
k
l
(
p
∣
∣
q
)
=
∑
i
n
p
i
[
l
o
g
(
p
i
)
−
l
o
g
(
q
i
)
]
=
∑
i
n
p
i
l
o
g
(
p
i
q
i
)
D_{kl}(p||q)=\sum_i^np_i[log(p_i) -log(q_i)] = \sum_i^np_ilog(\frac{p_i}{q_i})
Dkl(p∣∣q)=i∑npi[log(pi)−log(qi)]=i∑npilog(qipi)
参考: