Model-free : Keep Various Trajectories: Promoting Exploration of Ensemble Policies

最新推荐文章于 2025-11-30 18:34:12 发布

原创最新推荐文章于 2025-11-30 18:34:12 发布 · 985 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

强化学习同时被 2 个专栏收录

101 篇文章

订阅专栏

Model-free

25 篇文章

订阅专栏

本文提出了一种新的RL算法，通过集成多个策略并增强对状态-动作的多样性处理，以提升智能体的探索效率。使用KL散度和条件概率测量策略间差异，结合值裁剪技术来平衡探索与利用。实验部分展示了这种方法的有效性。

NIPS 2023
paper
利用对集成策略的多样化处理实现智能体的高效探索

Intro

集成模型被广泛应用于RL算法用于提升策略的鲁棒性或者防止价值过估计,但是在探索方面的研究。本文在利用集成策略模型，通过提高对被访问状态动作的多样性，进而提升智能体探索能力。状态-动作访问分布度量量化了使用特定策略时访问特定状态-动作对的频率。多样化的分布度量代表多样化的轨迹数据，这样有利于策略与价值的学习。

Method

Discrepancy Measure

考虑集成策略 $\{\pi_1, \pi_2,\cdots,\pi_N\}$ 的中每个策略的状态动作分布度量为 $\rho^{\pi_k}$ ,并采用一个基于隐变量 $z$ 的条件概率衡量： $\rho^{\pi_k}(s,a)=\rho(s,a|z_k)$ 。策略的差异定义为分布间的KL散度: $\mathcal{D}_{\mathcal{KL}}[\rho^{\pi_k}\|\rho]:=\mathcal{D}_{\mathcal{KL}}\left[\rho(s,a|z_k)||\rho(s,a)\right]$ 。进一步转化为熵之间的关系
$\mathbb{E}_z\left[\mathcal{D}_{\mathcal{KL}}\left(\rho(s,a|z)||\rho(s,a)\right)\right]=\mathcal{H}(\rho)-\mathcal{H}(\rho|z) = \mathcal{H}(z)-\mathcal{H}(z|\rho)$
其中z随机采样得到，因此对于其熵可以近似为 $\mathcal{H}(z)=-\frac{1}{N}\Sigma_{k=1}^{N}\log p(z_{k})\approx\log N$
$\begin{aligned} \mathcal{H}(z)-\mathcal{H}(z|\rho)& =\log N+\mathbb{E}_{s,a,z}[\log\rho(z|s,a)] \\ &=\log N+\mathbb{E}_{s,a}\left[\mathcal{D}_{\mathcal{KL}}(\rho(z|s,a)||q_{\zeta}(z|s,a))\right]+\mathbb{E}_{s,a,z}[\log q_{\zeta}(z|s,a))] \\ &\geq\log N+\mathbb{E}_{s,a,z}[\log q_{\zeta}(z|s,a))] \end{aligned}$
最小化下界，因此最小化 $\mathbb{E}_{s,a}[\mathcal{D}_{\mathcal{KL}}(\rho(z|s,a)||q_{\zeta}(z|s,a))]$ ，该项的梯度等于
$\nabla_{\zeta}\mathbb{E}_{s,a}[\mathcal{D}_{\mathcal{KL}}(\rho(z|s,a)||q_{\zeta}(z|s,a))]=-\mathbb{E}_{s,a}[\nabla_{\zeta}\log q_{\zeta}(z|s,a)]$ 加入到强化学习的优化目标中得到
$\pi^*=\arg\max_{\pi\in\Pi}J(\pi)+\alpha\mathbb{E}_{(s,a,z)\sim\rho}[\log q_\zeta(z|s,a))]$

强化学习算法采用TD3，其中策略以及价值网络为N个，对于每一个策略都采用如下梯度更新
$\nabla J_{total}(\phi_{k})=\mathbb{E}_{s\sim\rho}[\nabla_{a}(Q^{\pi}(s,a)+\alpha\log q_{\zeta}(z_{k}|s,a))|_{a=\pi_{\phi_{k}}(s)}\nabla_{\phi_{k}}\pi_{\phi_{k}}(s)]$
为了防止每一个step都要对所有策略优化而导致探索退化，文章采用一种循环优化方法，即随机选择一个策略进行优化。

同时，考虑当概率 $q_{\zeta}$ 较小时，该梯度非常大。具有小概率的状态动作来推断相应的子策略 $z_k$ 意味着状态-动作很少被子策略 $z_k$ 访问，但经常被其他子策略访问。约束的目标是增加子策略的差异，而使其他子策略访问这个状态-动作将会减少差异。此外，对于具有大概率 $q_{\zeta}$ 的状态动作，继续增加这个概率将阻止当前子策略探索其他可能的状态动作。因此，使用值裁剪进行约束： $\pi^{*}=\arg\operatorname*{max}_{\pi\in\Pi}J(\pi)+\alpha\mathbb{E}_{s,a,z}[\log\operatorname{clip}(q_{\zeta}(z|s,a),\epsilon,1-\epsilon))]$