本文我们来简单介绍下一种强化学习方法——TRPO (Trust Region Policy Optimization),中文名称是“置信域策略优化”。该方法由伯克利博士生 John Schulman 提出。TRPO 是策略搜索方法中的一类随机策略搜索方法,它正面解决了梯度更新步长选择的问题,给出了一种单调的策略改善方法。
本文仅简要论述其原理,更多细节请参考:
Schulman J., Optimizing Expectations: From Deep Reinforcement Learning to Stochastic Computation Graphs. PhD thesis, University of California, Berkeley, 2016.
交叉熵用来衡量编码方案不一定完美时,平均编码的长度。交叉熵常被用作损失函数。原因是真实的样本部分是
P P
,而模型概率分布为
Q
,只有模型分布于真实样本分布相等时,交叉熵最小。
KL散度:
DKL(P∥Q)=Ex∼P[logP(x)Q(x)]=∫P(x)logP(x)dx−∫P(x)logQ(x)dx D K L ( P ‖ Q ) = E x ∼ P [ log P ( x ) Q ( x ) ] = ∫ P ( x ) log P ( x ) d x − ∫ P ( x ) log Q ( x ) d x
Aπ(s,a)=Qπ(s,a)−Vπ(s)=Es′∼P(s′|s,a)[r(s)+γVπ(s′)−Vπ(s)] A π ( s , a ) = Q π ( s , a ) − V π ( s ) = E s ′ ∼ P ( s ′ | s , a ) [ r ( s ) + γ V π ( s ′ ) − V π ( s ) ]
可以看出,价值函数
Vπ(s) V π ( s )
是该状态下所有动作致函数关于动作概率的平均值;而动作值函数
Qπ Q π
是单个动作对应的值函数。因此,优势指的是动作函数相比于当前状态的值函数的优势。如果优势大于零,则说明该动作比平均动作好。