【论文讲义】正交策略梯度法和自动驾驶应用

最新推荐文章于 2023-12-31 01:35:55 发布

hanss2

最新推荐文章于 2023-12-31 01:35:55 发布

阅读量534

点赞数

CC 4.0 BY-SA版权

分类专栏： Python 机器学习

本文链接：https://blog.youkuaiyun.com/hanss2/article/details/83506589

Python 机器学习专栏收录该内容

29 篇文章

订阅专栏

本文介绍了一种名为正交策略梯度的算法，该算法通过使策略梯度向量与Q-Value向量正交，实现了奖励函数的极大化。通过在智能自动驾驶场景中的应用，展示了该方法在实时逼近最优值上的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

【讲义】正交策略梯度法和自动驾驶应用

本文是论文Orthogonal Policy Gradient and Autonomous Driving Application的讲解讲义,本文中我们从一个关于奖励函数的回报梯度定理出发,证明了"当策略梯度向量和Q-Value向量正交时,奖励函数值为极大值",由此得出了一种实时逼近最优值的方法,并实现了这种方法且应用在了智能自动驾驶上.

在这里插入图片描述

关于奖励函数的回报梯度的定理

在此先证这个定理:在MDP(Markov Decision Process)中: 平均回报函数 $ρ\rho$ 和策略 $π\pi$ 及Q函数 $QπQ^{\pi}$ 满足:

$∂ρ∂θ=∑adπ(s)∑a∂π(s,a)∂θQπ(s,a)\frac{\partial \rho}{\partial \theta} = \sum_{a}d^\pi(s) \sum_a \frac{\partial \pi(s,a)}{\partial \theta} Q^\pi(s,a)$

证明：

累计奖励可写作: $Vπ(s)=∑aπ(s,a)Qπ(s,a)V^{\pi}(s) = \sum_a \pi(s,a) Q^\pi(s,a)$

可得:
$∂Vπ(s)∂θ=∂∂θ∑aπ(s,a)Qπ(s,a)\frac{\partial V^{\pi}(s)}{\partial \theta} =\frac{\partial}{\partial \theta} \sum_a \pi(s,a) Q^\pi(s,a)$
$=\sum_a (\frac{\partial \pi(s,a)}{\partial \theta} Q^\pi(s,a) + \pi(s,a)\frac{\partial Q^\pi(s,a)}{\partial \theta} )$
$=∑a(∂π(s,a)∂θQπ(s,a)+π(s,a)∂∂θ(Ras−ρ(π)+∑s′Pss′aVπ(s′)))=\sum_a (\frac{\partial \pi(s,a)}{\partial \theta} Q^\pi(s,a) + \pi(s,a)\frac{\partial }{\partial \theta}(R^s_a-\rho(\pi)+\sum_{s'}P^a_{ss'} V^\pi(s')) )$
$=∑a(∂π(s,a)∂θQπ(s,a)+π(s,a)(−∂ρ∂θ+∑s′Pss′a∂Vπ(s′)∂θ))=\sum_a (\frac{\partial \pi(s,a)}{\partial \theta} Q^\pi(s,a) + \pi(s,a)(-\frac{\partial \rho}{\partial \theta}+\sum_{s'}P^a_{ss'} \frac{\partial V^\pi(s')}{\partial \theta}) )$

由 $dπd^\pi$ 项累加可得:
$∑sdπ(s)∂ρ∂θ=∑sdπ(s)∑a∂π(s,a)∂θQπ(s,a)+∑sdπ(s)∑aπ(s,a)∑s′Pss′a∂Vπ(s′)∂θ)−∑sdπ(s)∂Vπ(s)∂θ\sum_s d^\pi(s) \frac{\partial \rho}{\partial \theta} = \sum_s d^\pi(s) \sum_a \frac{\partial \pi(s,a)}{\partial \theta} Q^\pi(s,a) + \sum_s d^\pi(s) \sum_a \pi(s,a) \sum_{s'}P^a_{ss'} \frac{\partial V^\pi(s')}{\partial \theta}) - \sum_s d^\pi(s) \frac{\partial V^{\pi}(s)}{\partial \theta}$

再由 $dπd^\pi$ 的恒定性我们可得:
$∑sdπ(s)∂ρ∂θ=∑sdπ(s)∑a∂π(s,a)∂θQπ(s,a)+∑s′∈Sdπ(s′)∂Vπ(s′)∂θ−∑s∈Sdπ(s)∂Vπ(s)∂θ\sum_s d^\pi(s) \frac{\partial \rho}{\partial \theta} = \sum_s d^\pi(s) \sum_a \frac{\partial \pi(s,a)}{\partial \theta} Q^\pi(s,a) + \sum_{s' \in S} d^\pi(s') \frac{\partial V^{\pi}(s')}{\partial \theta} - \sum_{s \in S} d^\pi(s) \frac{\partial V^{\pi}(s)}{\partial \theta}$
$⇒∂ρ∂θ=∑adπ(s)∑a∂π(s,a)∂θQπ(s,a)\Rightarrow \frac{\partial \rho}{\partial \theta} = \sum_{a}d^\pi(s) \sum_a \frac{\partial \pi(s,a)}{\partial \theta} Q^\pi(s,a)$
得证.